GCP에서 spark 설치하기

728x90

프로젝트 생성

- GCP 사이트에서 우측 상단에 있는 콘솔 클릭 후 새 프로젝트를 생성

VM 생성

- 메뉴 > Compute Engine > VM인스턴스

- 사용 누르기

- 인스턴스 만들기 클릭

이름은 test , 리전은 서울로 설정

머신 유형은 사전설정 > 표준 > 메모리 8GB로 설정

- 부팅 디스크는 Ubuntu로 설정

- 방화벽은 트래픽 허용

- 만들기 클릭

네트워크 보안

방화벽을 열어줘야 배포가 됨

- 네트워크 세부정보 보기 > 방화 (or 메뉴에서 VPC 네트워크 > 방화벽)

- 상단 방화벽 규칙 만들기 > 설정 다 하고 만들기 클릭

- 만들기 클릭하면 아래와 같이 방화벽이 새로 만들어 진 것을 확인할 수 있다.

개발환경 설정

- Compute Engine > VM 인스턴스에서 SSH 브라우저로 열기

Miniconda 설치

- opt 경로로 이동

cd ../../opt

- Miniconda 설치

Miniconda Documentation > Quick command line install > Linux 부분 참고

mkdir -p ~/miniconda3
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh -O ~/miniconda3/miniconda.sh
bash ~/miniconda3/miniconda.sh -b -u -p ~/miniconda3
rm -rf ~/miniconda3/miniconda.sh

~/miniconda3/bin/conda init bash
~/miniconda3/bin/conda init zsh

- 브라우저 끄고 다시 SSH 브라우저 열면 앞에 (base)가 활성화 됨

Java 설치

- opt로 이동 후 아래 코드 실행

(base) /opt$ sudo apt update
(base) /opt$ sudo apt install openjdk-8-jdk -y

- 환경변수 설정을 위해 아래 코드 실행

vi ~/.bashrc

- 페이지 맨 아래에서 i 를 누르면 insert가 뜸 > 아래와 같이 환경변수 설정

# JAVA ENV SET
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export PATH=$JAVA_HOME/bin:$PATH
export CLASS_PATH=$JAVA_HOME/lib:$CLASS_PATH

- Esc 누르고 INSERT 사라지면 :wq!로 빠져나가기

- 아래 코드 입력하여 저장

source ~/.bashrc

스칼라 설치

sudo apt-get install scala -y

- 아래와 같이 환경변수 설정

# SCALA ENV SET
export SCALA_HOME=/usr/bin/scala
export PATH=$SCALA_HOME/bin:$PATH

스파크 설치

- spark 설치

(base) /opt$ sudo wget -q https://dlcdn.apache.org/spark/spark-3.5.1/spark-3.5.1-bin-hadoop3.tgz

- 압축 파일 풀기

(base) /opt$ sudo tar -zxf spark-3.5.1-bin-hadoop3.tgz

- spark 파일 만들기

(base) /opt$ sudo mkdir spark

- 압축을 푼 파일을 모두 spark 파일로 이

(base) /opt$ sudo mv spark-3.5.1-bin-hadoop3/* /opt/spark/

- spark 폴더로 이동해서 파일 목록을 확인해보면 아래와 같이 파일이 모두 옮겨진 것을 확인할 수 있다.

- 환경변수 설정

** your_id 부분에 본인 아이디로 수정해야함

# SPARK ENV SET
export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
export PYSPARK_PYTHON=/home/your_id/miniconda3/bin/python

Pyspark 설치

- spark 폴더에서 빠져나와 opt에서 pyspark 설치

(base) /opt$ pip install pyspark==3.5.1

- pyspark 실행

(base) opt/spark$ cd $HOME
(base) $ ls
(base) wls9416@test:~$ pyspark
Python 3.12.2 | packaged by Anaconda, Inc. | (main, Feb 27 2024, 17:35:02) [GCC 11.2.0] on linux
Type "help", "copyright", "credits" or "license" for more information.
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
24/04/18 05:21:29 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 3.5.1
      /_/

Using Python version 3.12.2 (main, Feb 27 2024 17:35:02)
Spark context Web UI available at http://test.asia-northeast3-a.c.lofty-root-420608.internal:4040
Spark context available as 'sc' (master = local[*], app id = local-1713417691590).
SparkSession available as 'spark'.
>>>

- exit()으로 빠져나오기

Jupyter Notebook 설치

- jupyter notebook 설치

(base) $ conda install jupyter notebook

- Jupyter 설정을 하기 위해 config 파일 생성

jupyter notebook --generate-config

- vi 편집기 열기

(base) $ cd /home/your_id/
(base) $ vi ~/.jupyter/jupyter_notebook_config.py

- 아래와 같은 코드 찾아서 변경

/ 를 누르면 찾기가 활성화 됨

allow_root 검색해서 True로 변경, localhost 검색해서 0.0.0.0으로 변경

## Whether to allow the user to run the server as root.
#  Default: False
# c.ServerApp.allow_root = False
c.ServerApp.allow_root = True

## The IP address the Jupyter server will listen on.
#  Default: 'localhost'
# c.ServerApp.ip = 'localhost'
c.ServerApp.ip = '0.0.0.0'

- jupyter notebook 실행

(base) $ jupyter notebook

- 이후 vm인스턴스에 있는 외부IP:8888을 주소창에 입력하면 jupyer notebook이 뜸

- password or token은 빨간색 부분 복사해서 붙여넣어주면 됨

test 코드 실행

정상적으로 나오는 것을 확인할 수 있다!

728x90

'Google Cloud Platform' 카테고리의 다른 글

BigQuery Local 환경 연동 (0)	2024.04.22
BigQuery 구글코랩 연동 (0)	2024.04.22
github Actions (0)	2024.04.19
GCE + Git + Github 연동 (0)	2024.04.18
GCE Streamlit 설치 (0)	2024.04.18

프로젝트 생성

VM 생성

네트워크 보안

개발환경 설정

Miniconda 설치

Java 설치

스칼라 설치

스파크 설치

Pyspark 설치

Jupyter Notebook 설치

test 코드 실행

'Google Cloud Platform' 카테고리의 다른 글

티스토리툴바