Python/Python 기초문법
Python - Pandas DataFrame에서 일부 데이터 추출
GinaKim
2024. 1. 4. 22:47
728x90
head(n) : 처음 n개의 행 데이터 반환
tail(n) : 마지막 n개의 행 데이터 반환
n을 지정하지 않으면 기본적으로 5가 지정됨
import pandas as pd
import numpy as np
KTX_data = {'경부선 KTX': [39060, 39896, 42005, 43621, 41702, 41266, 32427],
'호남선 KTX': [7313, 6967, 6873, 6626, 8675, 10622, 9228],
'경전선 KTX': [3627, 4168, 4088, 4424, 4606, 4984, 5570],
'전라선 KTX': [309, 1771, 1954, 2244, 3146, 3945, 5766],
'동해선 KTX': [np.nan,np.nan, np.nan, np.nan, 2395, 3786, 6667]}
index_list = ['2011', '2012', '2013', '2014', '2015', '2016', '2017']
df_KTX = pd.DataFrame(KTX_data, index = index_list)
df_KTX
위의 데이터 프레임에서 데이터 추출
df_KTX.head(3)
df_KTX.tail(3)
행 추출
slicing과 동일한 문법으로 추출 가능
df_KTX[2:5]
랜덤 추출
reset_index(drop=True)는 기존 인덱스를 열로 추가하고, 새로운 정수 인덱스를 할당
drop=True는 기존 인덱스 열을 삭제하는 옵션
import pandas as pd
# 우선 원본 데이터 불러오기
df= pd.read_csv('./data/order_products__prior.csv')
# 원본데이터에서 10,000개의 행만 가져오기
sample_data = df.sample(n=10000).reset_index(drop=True)
sample_data.head(5)
df.sample(n=샘플개수)
sample은 동일한 코드를 실행할 때마다 무작위로 데이터를 불러오기 때문에 계속 값이 바뀜
그래서 sample 코드를 실행했을 때 동일한 값을 불러오기 위해 랜덤시드를 생성함!
df.sample(샘플개수, ramdom_state=1)
여기서는 ramdom_state = 1로 지정했지만 아무 숫자로 지정해도 무관하다
100, 48 등등.. 아무거나 설정 가능함
728x90