GCP에서 spark 설치하기

2024. 4. 18. 15:02·Google Cloud Platform
728x90

프로젝트 생성

- GCP 사이트에서 우측 상단에 있는 콘솔 클릭 후 새 프로젝트를 생성

 

 

VM 생성

- 메뉴 > Compute Engine > VM인스턴스

 

- 사용 누르기

- 인스턴스 만들기 클릭

이름은 test , 리전은 서울로 설정

머신 유형은 사전설정 > 표준 > 메모리 8GB로 설정

 

- 부팅 디스크는 Ubuntu로 설정

 

- 방화벽은 트래픽 허용

 

- 만들기 클릭

네트워크 보안

방화벽을 열어줘야 배포가 됨

- 네트워크 세부정보 보기 > 방화 (or 메뉴에서 VPC 네트워크 > 방화벽)

 

- 상단 방화벽 규칙 만들기 > 설정 다 하고 만들기 클릭

 

- 만들기 클릭하면 아래와 같이 방화벽이 새로 만들어 진 것을 확인할 수 있다.

 

개발환경 설정

- Compute Engine > VM 인스턴스에서 SSH 브라우저로 열기

Miniconda 설치

- opt 경로로 이동

cd ../../opt

 

- Miniconda 설치

Miniconda Documentation > Quick command line install > Linux 부분 참고

mkdir -p ~/miniconda3
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh -O ~/miniconda3/miniconda.sh
bash ~/miniconda3/miniconda.sh -b -u -p ~/miniconda3
rm -rf ~/miniconda3/miniconda.sh
~/miniconda3/bin/conda init bash
~/miniconda3/bin/conda init zsh

 

- 브라우저 끄고 다시 SSH 브라우저 열면 앞에 (base)가 활성화 됨

 

Java 설치

- opt로 이동 후 아래 코드 실행

(base) /opt$ sudo apt update
(base) /opt$ sudo apt install openjdk-8-jdk -y

 

- 환경변수 설정을 위해 아래 코드 실행

vi ~/.bashrc

 

- 페이지 맨 아래에서 i 를 누르면 insert가 뜸 > 아래와 같이 환경변수 설정 

# JAVA ENV SET
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export PATH=$JAVA_HOME/bin:$PATH
export CLASS_PATH=$JAVA_HOME/lib:$CLASS_PATH

 

- Esc 누르고 INSERT 사라지면 :wq!로 빠져나가기

- 아래 코드 입력하여 저장

source ~/.bashrc

 

스칼라 설치

sudo apt-get install scala -y

 

- 아래와 같이 환경변수 설정 

# SCALA ENV SET
export SCALA_HOME=/usr/bin/scala
export PATH=$SCALA_HOME/bin:$PATH

 

스파크 설치

- spark 설치

(base) /opt$ sudo wget -q https://dlcdn.apache.org/spark/spark-3.5.1/spark-3.5.1-bin-hadoop3.tgz

 

- 압축 파일 풀기

(base) /opt$ sudo tar -zxf spark-3.5.1-bin-hadoop3.tgz

 

- spark 파일 만들기

(base) /opt$ sudo mkdir spark

 

- 압축을 푼 파일을 모두 spark 파일로 이

(base) /opt$ sudo mv spark-3.5.1-bin-hadoop3/* /opt/spark/

 

- spark 폴더로 이동해서 파일 목록을 확인해보면 아래와 같이 파일이 모두 옮겨진 것을 확인할 수 있다.

- 환경변수 설정 

** your_id 부분에 본인 아이디로 수정해야함 

# SPARK ENV SET
export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
export PYSPARK_PYTHON=/home/your_id/miniconda3/bin/python

Pyspark 설치

- spark 폴더에서 빠져나와 opt에서 pyspark 설치

(base) /opt$ pip install pyspark==3.5.1

 

- pyspark 실행

(base) opt/spark$ cd $HOME
(base) $ ls
(base) wls9416@test:~$ pyspark
Python 3.12.2 | packaged by Anaconda, Inc. | (main, Feb 27 2024, 17:35:02) [GCC 11.2.0] on linux
Type "help", "copyright", "credits" or "license" for more information.
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
24/04/18 05:21:29 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 3.5.1
      /_/

Using Python version 3.12.2 (main, Feb 27 2024 17:35:02)
Spark context Web UI available at http://test.asia-northeast3-a.c.lofty-root-420608.internal:4040
Spark context available as 'sc' (master = local[*], app id = local-1713417691590).
SparkSession available as 'spark'.
>>>

 

- exit()으로 빠져나오기

 

Jupyter Notebook 설치

- jupyter notebook 설치

 

(base) $ conda install jupyter notebook

 

- Jupyter 설정을 하기 위해 config 파일 생성

jupyter notebook --generate-config

 

- vi 편집기 열기 

(base) $ cd /home/your_id/
(base) $ vi ~/.jupyter/jupyter_notebook_config.py

 

- 아래와 같은 코드 찾아서 변경

/ 를 누르면 찾기가 활성화 됨

allow_root 검색해서 True로 변경, localhost 검색해서 0.0.0.0으로 변경

## Whether to allow the user to run the server as root.
#  Default: False
# c.ServerApp.allow_root = False
c.ServerApp.allow_root = True

## The IP address the Jupyter server will listen on.
#  Default: 'localhost'
# c.ServerApp.ip = 'localhost'
c.ServerApp.ip = '0.0.0.0'

 

- jupyter notebook 실행

(base) $ jupyter notebook

 

- 이후 vm인스턴스에 있는 외부IP:8888을 주소창에 입력하면 jupyer notebook이 뜸

 

- password or token은 빨간색 부분 복사해서 붙여넣어주면 됨

 

test 코드 실행

 

정상적으로 나오는 것을 확인할 수 있다! 

728x90

'Google Cloud Platform' 카테고리의 다른 글

BigQuery Local 환경 연동  (0) 2024.04.22
BigQuery 구글코랩 연동  (0) 2024.04.22
github Actions  (0) 2024.04.19
GCE + Git + Github 연동  (0) 2024.04.18
GCE Streamlit 설치  (0) 2024.04.18
'Google Cloud Platform' 카테고리의 다른 글
  • BigQuery 구글코랩 연동
  • github Actions
  • GCE + Git + Github 연동
  • GCE Streamlit 설치
GinaKim
GinaKim
안녕하세요! 반갑습니다 :)
  • GinaKim
    디디
    GinaKim
  • 전체
    오늘
    어제
    • 분류 전체보기 (91)
      • Python (43)
        • Python 기초문법 (25)
        • 데이터 시각화 (5)
        • 통계 (8)
        • 크롤링 (5)
      • git (5)
      • streamlit (5)
      • django (5)
      • 머신러닝 (18)
      • Spark (4)
      • Google Cloud Platform (8)
      • Tableau (0)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

  • 인기 글

  • 태그

  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.0
GinaKim
GCP에서 spark 설치하기
상단으로

티스토리툴바