Spark 설치

2024. 4. 12. 13:47·Spark
728x90

Spark

클러스터 환경에서 대규모 데이터를 처리하고 분석하는 데 매우 유용한 도구

대부분의 대규모 데이터 처리 작업에 널리 사용

 

Apache Spark 설치

Apache Spark를 직접 다운로드하여 설치하는 것

이 경우에는 Spark를 사용하기 위해 별도의 환경 변수 설정이 필요하며, pyspark 패키지는 포함

1. apt-get을 사용하여 OpenJDK 8 JDK의 headless 모드를 설치

OpenJDK는 자바 개발 키트(JDK)의 오픈 소스 구현체 중 하나이며, headless 모드는 GUI를 사용하지 않고 자바 프로그램을 실행하는 환경을 제공

!apt-get install openjdk-8-jdk-headless

 

2. Apache Spark 설치

다운로드 사이트에서 원하는 release와 package type을 선택 후 아래 표시된 부분 클릭

 

 

다운로드 링크 복사

 

!wget -q 링크를 입력해서 apeche spark 다운로드

-q 플래그는 quiet 모드를 나타내며, 출력을 표시하지 않고 다운로드 진행 상황을 숨김!

!wget -q https://dlcdn.apache.org/spark/spark-3.5.1/spark-3.5.1-bin-hadoop3.tgz

 

tar 명령을 사용하여 주어진 파일을 해제하고 압축을 푸는 작업을 수행

  • -z: gzip 압축을 사용한다는 것을 나타냅니다.
  • -x: 파일을 추출하라는 것을 나타냅니다.
  • -f: 파일을 나타내며, 이후에 오는 인자는 압축을 해제할 파일의 이름입니다.

우리가 압축 해제할 파일의 이름은 spark-3.5.1-bin-hadoop3.tgz

!tar -zxf spark-3.5.1-bin-hadoop3.tgz

 

3. 환경변수 설정

(구글코랩)Python에서 Spark를 사용할 때, Java 홈 디렉토리와 Spark 홈 디렉토리의 위치를 설정해야 함

  1. Java 홈 디렉토리(JAVA_HOME): Spark는 Java 가상 머신(Java Virtual Machine, JVM)에서 실행됩니다. 따라서 Java 개발 환경(JDK 또는 JRE)이 설치된 경로를 설정해야 합니다. 이를 위해 JAVA_HOME 환경 변수를 설정하여 Java 실행 파일의 경로를 지정합니다.
  2. Spark 홈 디렉토리(SPARK_HOME): Spark를 실행하기 위해서는 Spark의 실행 파일들이 있는 디렉토리의 경로를 설정해야 합니다. Spark 홈 디렉토리에는 Spark 실행 파일과 설정 파일들이 포함되어 있습니다. 따라서 이를 위해 SPARK_HOME 환경 변수를 설정합니다.

이러한 환경 변수를 설정함으로써 Python에서 Spark를 사용할 때 필요한 라이브러리와 실행 파일들을 올바르게 참조할 수 있습니다. 설정된 환경 변수는 Spark를 초기화하고 사용할 때 사용됩니다.

import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.5.1-bin-hadoop3"

Pyspark 설치

Python 패키지 관리자를 사용하여 PySpark 패키지를 설치하는 방법

 

1. 패키지 설치

!pip install findspark -q

 

2. Spark가 설치된 경로를 찾아서 Python 환경에 설정

import findspark
findspark.init()

 

3. 버전 확인

import pyspark
spark_version = pyspark.__version__
print("Apache Spark 버전 확인: " + spark_version)

 

구글 코랩에서 spark 사용 전 위 과정을 모두 진행해주면 된다.

728x90

'Spark' 카테고리의 다른 글

Spark 문법  (0) 2024.04.15
[Spark] CSV 파일 불러오기, 데이터베이스 저장  (0) 2024.04.12
Spark 세션 생성, 종료, 재실행  (0) 2024.04.12
'Spark' 카테고리의 다른 글
  • Spark 문법
  • [Spark] CSV 파일 불러오기, 데이터베이스 저장
  • Spark 세션 생성, 종료, 재실행
GinaKim
GinaKim
안녕하세요! 반갑습니다 :)
  • GinaKim
    디디
    GinaKim
  • 전체
    오늘
    어제
    • 분류 전체보기 (91)
      • Python (43)
        • Python 기초문법 (25)
        • 데이터 시각화 (5)
        • 통계 (8)
        • 크롤링 (5)
      • git (5)
      • streamlit (5)
      • django (5)
      • 머신러닝 (18)
      • Spark (4)
      • Google Cloud Platform (8)
      • Tableau (0)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

  • 인기 글

  • 태그

  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.0
GinaKim
Spark 설치
상단으로

티스토리툴바