Python - Pandas DataFrame에서 일부 데이터 추출

GinaKim 2024. 1. 4. 22:47

728x90

head(n) : 처음 n개의 행 데이터 반환

tail(n) : 마지막 n개의 행 데이터 반환

n을 지정하지 않으면 기본적으로 5가 지정됨

import pandas as pd
import numpy as np

KTX_data = {'경부선 KTX': [39060, 39896, 42005, 43621, 41702, 41266, 32427],
            '호남선 KTX': [7313, 6967, 6873, 6626, 8675, 10622, 9228],
            '경전선 KTX': [3627, 4168, 4088, 4424, 4606, 4984, 5570],
            '전라선 KTX': [309, 1771, 1954, 2244, 3146, 3945, 5766],
            '동해선 KTX': [np.nan,np.nan, np.nan, np.nan, 2395, 3786, 6667]}
index_list = ['2011', '2012', '2013', '2014', '2015', '2016', '2017']

df_KTX = pd.DataFrame(KTX_data, index = index_list)
df_KTX

위의 데이터 프레임에서 데이터 추출

df_KTX.head(3)

df_KTX.tail(3)

행 추출

slicing과 동일한 문법으로 추출 가능

df_KTX[2:5]

랜덤 추출

reset_index(drop=True)는 기존 인덱스를 열로 추가하고, 새로운 정수 인덱스를 할당

drop=True는 기존 인덱스 열을 삭제하는 옵션

import pandas as pd

# 우선 원본 데이터 불러오기
df= pd.read_csv('./data/order_products__prior.csv')

# 원본데이터에서 10,000개의 행만 가져오기
sample_data = df.sample(n=10000).reset_index(drop=True)

sample_data.head(5)

df.sample(n=샘플개수)

sample은 동일한 코드를 실행할 때마다 무작위로 데이터를 불러오기 때문에 계속 값이 바뀜

그래서 sample 코드를 실행했을 때 동일한 값을 불러오기 위해 랜덤시드를 생성함!

df.sample(샘플개수, ramdom_state=1)

여기서는 ramdom_state = 1로 지정했지만 아무 숫자로 지정해도 무관하다

100, 48 등등.. 아무거나 설정 가능함

728x90