Spark
[Spark] CSV 파일 불러오기, 데이터베이스 저장
GinaKim
2024. 4. 12. 17:49
728x90
1. session 활성화
my_spark = SparkSession.builder.getOrCreate()
my_spark
2. csv 파일 불러오기
DATA_PATH = '/content/drive/MyDrive/Colab Notebooks/Pyspark/data/flight_small.csv'
flights = my_spark.read.option('header', 'true').csv(DATA_PATH)
flights.show(2)
3. 우선 my_spark 세션에 데이터베이스 확인
my_spark.catalog.listDatabases()
4. default 데이터베이스에 flights 데이터프레임 추가
flights.createOrReplaceTempView('flights')
5. 추가 되었는지 확인
my_spark.catalog.listTables('default')
sql로도 조회 가능
my_spark.sql('SHOW TABLES FROM default').show()
6. Groupby문 사용
query = 'SELECT origin, dest, count(*)N FROM flights Group By origin, dest'
quiz = my_spark.sql(query)
quiz.show()
7. Spark DataFrame을 Pandas DataFrame으로 변환
import pandas as pd
pandas_df = quiz.toPandas()
pandas_df
728x90