Spark
클러스터 환경에서 대규모 데이터를 처리하고 분석하는 데 매우 유용한 도구
대부분의 대규모 데이터 처리 작업에 널리 사용
Apache Spark 설치
Apache Spark를 직접 다운로드하여 설치하는 것
이 경우에는 Spark를 사용하기 위해 별도의 환경 변수 설정이 필요하며, pyspark 패키지는 포함
1. apt-get을 사용하여 OpenJDK 8 JDK의 headless 모드를 설치
OpenJDK는 자바 개발 키트(JDK)의 오픈 소스 구현체 중 하나이며, headless 모드는 GUI를 사용하지 않고 자바 프로그램을 실행하는 환경을 제공
!apt-get install openjdk-8-jdk-headless
2. Apache Spark 설치
다운로드 사이트에서 원하는 release와 package type을 선택 후 아래 표시된 부분 클릭
다운로드 링크 복사
!wget -q 링크를 입력해서 apeche spark 다운로드
-q 플래그는 quiet 모드를 나타내며, 출력을 표시하지 않고 다운로드 진행 상황을 숨김!
!wget -q https://dlcdn.apache.org/spark/spark-3.5.1/spark-3.5.1-bin-hadoop3.tgz
tar 명령을 사용하여 주어진 파일을 해제하고 압축을 푸는 작업을 수행
- -z: gzip 압축을 사용한다는 것을 나타냅니다.
- -x: 파일을 추출하라는 것을 나타냅니다.
- -f: 파일을 나타내며, 이후에 오는 인자는 압축을 해제할 파일의 이름입니다.
우리가 압축 해제할 파일의 이름은 spark-3.5.1-bin-hadoop3.tgz
!tar -zxf spark-3.5.1-bin-hadoop3.tgz
3. 환경변수 설정
(구글코랩)Python에서 Spark를 사용할 때, Java 홈 디렉토리와 Spark 홈 디렉토리의 위치를 설정해야 함
- Java 홈 디렉토리(JAVA_HOME): Spark는 Java 가상 머신(Java Virtual Machine, JVM)에서 실행됩니다. 따라서 Java 개발 환경(JDK 또는 JRE)이 설치된 경로를 설정해야 합니다. 이를 위해 JAVA_HOME 환경 변수를 설정하여 Java 실행 파일의 경로를 지정합니다.
- Spark 홈 디렉토리(SPARK_HOME): Spark를 실행하기 위해서는 Spark의 실행 파일들이 있는 디렉토리의 경로를 설정해야 합니다. Spark 홈 디렉토리에는 Spark 실행 파일과 설정 파일들이 포함되어 있습니다. 따라서 이를 위해 SPARK_HOME 환경 변수를 설정합니다.
이러한 환경 변수를 설정함으로써 Python에서 Spark를 사용할 때 필요한 라이브러리와 실행 파일들을 올바르게 참조할 수 있습니다. 설정된 환경 변수는 Spark를 초기화하고 사용할 때 사용됩니다.
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.5.1-bin-hadoop3"
Pyspark 설치
Python 패키지 관리자를 사용하여 PySpark 패키지를 설치하는 방법
1. 패키지 설치
!pip install findspark -q
2. Spark가 설치된 경로를 찾아서 Python 환경에 설정
import findspark
findspark.init()
3. 버전 확인
import pyspark
spark_version = pyspark.__version__
print("Apache Spark 버전 확인: " + spark_version)
구글 코랩에서 spark 사용 전 위 과정을 모두 진행해주면 된다.
'Spark' 카테고리의 다른 글
Spark 문법 (0) | 2024.04.15 |
---|---|
[Spark] CSV 파일 불러오기, 데이터베이스 저장 (0) | 2024.04.12 |
Spark 세션 생성, 종료, 재실행 (0) | 2024.04.12 |