Spark 설치

728x90

Spark

클러스터 환경에서 대규모 데이터를 처리하고 분석하는 데 매우 유용한 도구

대부분의 대규모 데이터 처리 작업에 널리 사용

Apache Spark를 직접 다운로드하여 설치하는 것

이 경우에는 Spark를 사용하기 위해 별도의 환경 변수 설정이 필요하며, pyspark 패키지는 포함

OpenJDK는 자바 개발 키트(JDK)의 오픈 소스 구현체 중 하나이며, headless 모드는 GUI를 사용하지 않고 자바 프로그램을 실행하는 환경을 제공

!apt-get install openjdk-8-jdk-headless

다운로드 사이트에서 원하는 release와 package type을 선택 후 아래 표시된 부분 클릭

다운로드 링크 복사

!wget -q 링크를 입력해서 apeche spark 다운로드

-q 플래그는 quiet 모드를 나타내며, 출력을 표시하지 않고 다운로드 진행 상황을 숨김!

!wget -q https://dlcdn.apache.org/spark/spark-3.5.1/spark-3.5.1-bin-hadoop3.tgz

tar 명령을 사용하여 주어진 파일을 해제하고 압축을 푸는 작업을 수행

우리가 압축 해제할 파일의 이름은 spark-3.5.1-bin-hadoop3.tgz

!tar -zxf spark-3.5.1-bin-hadoop3.tgz

(구글코랩)Python에서 Spark를 사용할 때, Java 홈 디렉토리와 Spark 홈 디렉토리의 위치를 설정해야 함

Java 홈 디렉토리(JAVA_HOME): Spark는 Java 가상 머신(Java Virtual Machine, JVM)에서 실행됩니다. 따라서 Java 개발 환경(JDK 또는 JRE)이 설치된 경로를 설정해야 합니다. 이를 위해 JAVA_HOME 환경 변수를 설정하여 Java 실행 파일의 경로를 지정합니다.
Spark 홈 디렉토리(SPARK_HOME): Spark를 실행하기 위해서는 Spark의 실행 파일들이 있는 디렉토리의 경로를 설정해야 합니다. Spark 홈 디렉토리에는 Spark 실행 파일과 설정 파일들이 포함되어 있습니다. 따라서 이를 위해 SPARK_HOME 환경 변수를 설정합니다.

이러한 환경 변수를 설정함으로써 Python에서 Spark를 사용할 때 필요한 라이브러리와 실행 파일들을 올바르게 참조할 수 있습니다. 설정된 환경 변수는 Spark를 초기화하고 사용할 때 사용됩니다.

import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.5.1-bin-hadoop3"

Python 패키지 관리자를 사용하여 PySpark 패키지를 설치하는 방법

!pip install findspark -q

import findspark
findspark.init()

import pyspark
spark_version = pyspark.__version__
print("Apache Spark 버전 확인: " + spark_version)

구글 코랩에서 spark 사용 전 위 과정을 모두 진행해주면 된다.

728x90