프로젝트 생성
- GCP 사이트에서 우측 상단에 있는 콘솔 클릭 후 새 프로젝트를 생성
VM 생성
- 메뉴 > Compute Engine > VM인스턴스
- 사용 누르기
- 인스턴스 만들기 클릭
이름은 test , 리전은 서울로 설정
머신 유형은 사전설정 > 표준 > 메모리 8GB로 설정
- 부팅 디스크는 Ubuntu로 설정
- 방화벽은 트래픽 허용
- 만들기 클릭
네트워크 보안
방화벽을 열어줘야 배포가 됨
- 네트워크 세부정보 보기 > 방화 (or 메뉴에서 VPC 네트워크 > 방화벽)
- 상단 방화벽 규칙 만들기 > 설정 다 하고 만들기 클릭
- 만들기 클릭하면 아래와 같이 방화벽이 새로 만들어 진 것을 확인할 수 있다.
개발환경 설정
- Compute Engine > VM 인스턴스에서 SSH 브라우저로 열기
Miniconda 설치
- opt 경로로 이동
cd ../../opt
- Miniconda 설치
Miniconda Documentation > Quick command line install > Linux 부분 참고
mkdir -p ~/miniconda3
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh -O ~/miniconda3/miniconda.sh
bash ~/miniconda3/miniconda.sh -b -u -p ~/miniconda3
rm -rf ~/miniconda3/miniconda.sh
~/miniconda3/bin/conda init bash
~/miniconda3/bin/conda init zsh
- 브라우저 끄고 다시 SSH 브라우저 열면 앞에 (base)가 활성화 됨
Java 설치
- opt로 이동 후 아래 코드 실행
(base) /opt$ sudo apt update
(base) /opt$ sudo apt install openjdk-8-jdk -y
- 환경변수 설정을 위해 아래 코드 실행
vi ~/.bashrc
- 페이지 맨 아래에서 i 를 누르면 insert가 뜸 > 아래와 같이 환경변수 설정
# JAVA ENV SET
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export PATH=$JAVA_HOME/bin:$PATH
export CLASS_PATH=$JAVA_HOME/lib:$CLASS_PATH
- Esc 누르고 INSERT 사라지면 :wq!로 빠져나가기
- 아래 코드 입력하여 저장
source ~/.bashrc
스칼라 설치
sudo apt-get install scala -y
- 아래와 같이 환경변수 설정
# SCALA ENV SET
export SCALA_HOME=/usr/bin/scala
export PATH=$SCALA_HOME/bin:$PATH
스파크 설치
- spark 설치
(base) /opt$ sudo wget -q https://dlcdn.apache.org/spark/spark-3.5.1/spark-3.5.1-bin-hadoop3.tgz
- 압축 파일 풀기
(base) /opt$ sudo tar -zxf spark-3.5.1-bin-hadoop3.tgz
- spark 파일 만들기
(base) /opt$ sudo mkdir spark
- 압축을 푼 파일을 모두 spark 파일로 이
(base) /opt$ sudo mv spark-3.5.1-bin-hadoop3/* /opt/spark/
- spark 폴더로 이동해서 파일 목록을 확인해보면 아래와 같이 파일이 모두 옮겨진 것을 확인할 수 있다.
- 환경변수 설정
** your_id 부분에 본인 아이디로 수정해야함
# SPARK ENV SET
export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
export PYSPARK_PYTHON=/home/your_id/miniconda3/bin/python
Pyspark 설치
- spark 폴더에서 빠져나와 opt에서 pyspark 설치
(base) /opt$ pip install pyspark==3.5.1
- pyspark 실행
(base) opt/spark$ cd $HOME
(base) $ ls
(base) wls9416@test:~$ pyspark
Python 3.12.2 | packaged by Anaconda, Inc. | (main, Feb 27 2024, 17:35:02) [GCC 11.2.0] on linux
Type "help", "copyright", "credits" or "license" for more information.
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
24/04/18 05:21:29 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Welcome to
____ __
/ __/__ ___ _____/ /__
_\ \/ _ \/ _ `/ __/ '_/
/__ / .__/\_,_/_/ /_/\_\ version 3.5.1
/_/
Using Python version 3.12.2 (main, Feb 27 2024 17:35:02)
Spark context Web UI available at http://test.asia-northeast3-a.c.lofty-root-420608.internal:4040
Spark context available as 'sc' (master = local[*], app id = local-1713417691590).
SparkSession available as 'spark'.
>>>
- exit()으로 빠져나오기
Jupyter Notebook 설치
- jupyter notebook 설치
(base) $ conda install jupyter notebook
- Jupyter 설정을 하기 위해 config 파일 생성
jupyter notebook --generate-config
- vi 편집기 열기
(base) $ cd /home/your_id/
(base) $ vi ~/.jupyter/jupyter_notebook_config.py
- 아래와 같은 코드 찾아서 변경
/ 를 누르면 찾기가 활성화 됨
allow_root 검색해서 True로 변경, localhost 검색해서 0.0.0.0으로 변경
## Whether to allow the user to run the server as root.
# Default: False
# c.ServerApp.allow_root = False
c.ServerApp.allow_root = True
## The IP address the Jupyter server will listen on.
# Default: 'localhost'
# c.ServerApp.ip = 'localhost'
c.ServerApp.ip = '0.0.0.0'
- jupyter notebook 실행
(base) $ jupyter notebook
- 이후 vm인스턴스에 있는 외부IP:8888을 주소창에 입력하면 jupyer notebook이 뜸
- password or token은 빨간색 부분 복사해서 붙여넣어주면 됨
test 코드 실행
정상적으로 나오는 것을 확인할 수 있다!
'Google Cloud Platform' 카테고리의 다른 글
BigQuery Local 환경 연동 (0) | 2024.04.22 |
---|---|
BigQuery 구글코랩 연동 (0) | 2024.04.22 |
github Actions (0) | 2024.04.19 |
GCE + Git + Github 연동 (0) | 2024.04.18 |
GCE Streamlit 설치 (0) | 2024.04.18 |