Spark 문법
·
Spark
1. 새로운 컬럼추가 .withColumn("변수명", 값) flights_2 = flights_2.withColumn("duration_hrs", flights_2.air_time/60) flights_2.show(1) alias로 지정 # avg_speed avg_speed = (flights_2.distance/(flights_2.air_time/60)).alias("avg_speed") speed_df = flights.select("origin", "dest", "tailnum", avg_speed) speed_df.show() 2. 데이터 필터링 .filter(조건) result = flights_2.filter("distance >= 1000") result.show(1) result2 = ..
[Spark] CSV 파일 불러오기, 데이터베이스 저장
·
Spark
1. session 활성화 my_spark = SparkSession.builder.getOrCreate() my_spark 2. csv 파일 불러오기 DATA_PATH = '/content/drive/MyDrive/Colab Notebooks/Pyspark/data/flight_small.csv' flights = my_spark.read.option('header', 'true').csv(DATA_PATH) flights.show(2) 3. 우선 my_spark 세션에 데이터베이스 확인 my_spark.catalog.listDatabases() 4. default 데이터베이스에 flights 데이터프레임 추가 flights.createOrReplaceTempView('flights') 5. 추가 되었..
Spark 세션 생성, 종료, 재실행
·
Spark
1. Session 생성 from pyspark.sql import SparkSession # Spark 세션 활성화 my_spark = SparkSession.builder.getOrCreate() my_spark 2. Session 종료 my_spark.stop() 3. Session 재실행 my_spark = SparkSession.builder.master("local[1]").appName("SampleTutorial").getOrCreate() my_spark
Spark 설치
·
Spark
Spark 클러스터 환경에서 대규모 데이터를 처리하고 분석하는 데 매우 유용한 도구 대부분의 대규모 데이터 처리 작업에 널리 사용 Apache Spark 설치 Apache Spark를 직접 다운로드하여 설치하는 것 이 경우에는 Spark를 사용하기 위해 별도의 환경 변수 설정이 필요하며, pyspark 패키지는 포함 1. apt-get을 사용하여 OpenJDK 8 JDK의 headless 모드를 설치 OpenJDK는 자바 개발 키트(JDK)의 오픈 소스 구현체 중 하나이며, headless 모드는 GUI를 사용하지 않고 자바 프로그램을 실행하는 환경을 제공 !apt-get install openjdk-8-jdk-headless 2. Apache Spark 설치 다운로드 사이트에서 원하는 release와 ..