728x90
1. 데이터 세트 만들기
- 메뉴 > BigQuery
- 프로젝트 이름 옆에 있는 버튼 클릭 > 데이터 세트 만들기
- 데이터 세트 이름 설정 후 데이터 세트 만들기
원래 리전도 선택해야하지만, 지금은 우선 기본값으로 둠
- kaggle이라는 데이터 세트 생성 완료
2. 데이터 세트 안에 테이블 만들기
- Kaggle 옆 점 클릭 > 테이블 만들기
- 여기서는 테이블소스 업로드 방식으로 생성
- 파일 업로드 후, 테이블 이름 설정, 스키마 자동감지 설정 후 테이블 만들기
파티션은 원래 나누는걸 설정하는게 맞지만, 사이트 운영을 할 것이 아니기 때문에 그냥 두고 생성
3. 구글코랩에서 BigQuery와 연동
from google.colab import auth
auth.authenticate_user()
print('Authenticated')
4. BigQuery에서 데이터 불러오기
from google.cloud import bigquery
project_id = 'mulcamp-project'
client = bigquery.Client(project=project_id)
df = client.query('''
SELECT *
FROM `mulcamp-project.kaggle.train`;''').to_dataframe()
df.head()
5. 구글코랩에서 가공한 데이터 BigQuery로 저장
- 기존 데이터 프레임에서 3 컬럼만 추출
df2 = df.iloc[:, :3]
df2.head()
- 동일한 데이터세트에 filtered라는 테이블 명으로 저장
import pandas_gbq
pandas_gbq.__version__
project_id = 'mulcamp-project'
table_id = 'mulcamp-project.kaggle.filtered'
pandas_gbq.to_gbq(df2, table_id, project_id=project_id)
- 신규로 테이블 생성된 것을 확인
- 쿼리를 실행해보면 쿼리 결과가 잘 나오는 것을 볼 수 있다.
SELECT *
FROM `mulcamp-project.kaggle.filtered`
728x90
'Google Cloud Platform' 카테고리의 다른 글
Local환경 GCE 연동 (0) | 2024.04.23 |
---|---|
BigQuery Local 환경 연동 (0) | 2024.04.22 |
github Actions (0) | 2024.04.19 |
GCE + Git + Github 연동 (0) | 2024.04.18 |
GCE Streamlit 설치 (0) | 2024.04.18 |