BigQuery 구글코랩 연동

728x90

1. 데이터 세트 만들기

- 메뉴 > BigQuery

- 프로젝트 이름 옆에 있는 버튼 클릭 > 데이터 세트 만들기

- 데이터 세트 이름 설정 후 데이터 세트 만들기

원래 리전도 선택해야하지만, 지금은 우선 기본값으로 둠

- kaggle이라는 데이터 세트 생성 완료

2. 데이터 세트 안에 테이블 만들기

- Kaggle 옆 점 클릭 > 테이블 만들기

- 여기서는 테이블소스 업로드 방식으로 생성

- 파일 업로드 후, 테이블 이름 설정, 스키마 자동감지 설정 후 테이블 만들기

파티션은 원래 나누는걸 설정하는게 맞지만, 사이트 운영을 할 것이 아니기 때문에 그냥 두고 생성

3. 구글코랩에서 BigQuery와 연동

from google.colab import auth
auth.authenticate_user()
print('Authenticated')

4. BigQuery에서 데이터 불러오기

from google.cloud import bigquery

project_id = 'mulcamp-project'
client = bigquery.Client(project=project_id)

df = client.query('''
  SELECT *
  FROM `mulcamp-project.kaggle.train`;''').to_dataframe()
  
df.head()

5. 구글코랩에서 가공한 데이터 BigQuery로 저장

- 기존 데이터 프레임에서 3 컬럼만 추출

df2 = df.iloc[:, :3]
df2.head()

- 동일한 데이터세트에 filtered라는 테이블 명으로 저장

import pandas_gbq
pandas_gbq.__version__

project_id = 'mulcamp-project'
table_id = 'mulcamp-project.kaggle.filtered'
pandas_gbq.to_gbq(df2, table_id, project_id=project_id)

- 신규로 테이블 생성된 것을 확인

- 쿼리를 실행해보면 쿼리 결과가 잘 나오는 것을 볼 수 있다.

SELECT *
FROM `mulcamp-project.kaggle.filtered`

728x90

'Google Cloud Platform' 카테고리의 다른 글

Local환경 GCE 연동 (0)	2024.04.23
BigQuery Local 환경 연동 (0)	2024.04.22
github Actions (0)	2024.04.19
GCE + Git + Github 연동 (0)	2024.04.18
GCE Streamlit 설치 (0)	2024.04.18

1. 데이터 세트 만들기

2. 데이터 세트 안에 테이블 만들기

3. 구글코랩에서 BigQuery와 연동

4. BigQuery에서 데이터 불러오기

5. 구글코랩에서 가공한 데이터 BigQuery로 저장

'Google Cloud Platform' 카테고리의 다른 글

티스토리툴바