Spark

[Spark] CSV 파일 불러오기, 데이터베이스 저장

GinaKim 2024. 4. 12. 17:49
728x90

1. session 활성화

my_spark = SparkSession.builder.getOrCreate()
my_spark

 

2. csv 파일 불러오기

DATA_PATH = '/content/drive/MyDrive/Colab Notebooks/Pyspark/data/flight_small.csv'
flights = my_spark.read.option('header', 'true').csv(DATA_PATH)
flights.show(2)

 

3. 우선 my_spark 세션에 데이터베이스 확인

my_spark.catalog.listDatabases()

 

4. default 데이터베이스에 flights 데이터프레임 추가

flights.createOrReplaceTempView('flights')

 

5. 추가 되었는지 확인

my_spark.catalog.listTables('default')

 

sql로도 조회 가능

my_spark.sql('SHOW TABLES FROM default').show()

 

6. Groupby문 사용

query = 'SELECT origin, dest, count(*)N FROM flights Group By origin, dest'

quiz = my_spark.sql(query)
quiz.show()

 

 

7. Spark DataFrame을 Pandas DataFrame으로 변환

import pandas as pd

pandas_df = quiz.toPandas()
pandas_df

728x90