1. 파생변수 vs 요약변수
- 요약변수 : 수집된 데이터의 요약
ex ) 최근 1개월 삼품 구매 건수, 상품별 구매 횟수 등 ..
- 파생변수 : 주관적인 의미의 변수 (논리적 타당성을 갖출 필요가 있음)
ex ) 비만의 정도 (키와 몸무게 수집 후, 두 값을 활용하여 체지량 지수라는 새로운 변수를 만들어 냄)
2. 변수의 구간화
각 변수들을 구간화하여 점수를 적용하는 방식 ( ex. 소득 구간이 다양할 때, 구간을 정해 다시 소득 구간을 정하는것 )
- Binning : 연속형 변수를 범주형 변수로 구간화 하는데 쓰는 방법
ex) 신용점수 100~90점은 A, 신용점수 90~80점은 B ..)
- 의사결정나무 : 의사결정나무 모형을 통해 연속형 변수를 범주형 변수로 변환하는 법 (쉽게 말하면 여러번의 분리기준으로 구간화)
3. 자료의 측정방법
- 명목척도 : 성별, 시도, 혈액형
- 순서척도(서열척도) : 수능 1-9등급, 한우 등급
- 구간척도 : 설문조사 (매우 안좋음, 안좋음, 보통, 좋음)
- 비율척도 : 절대 영점이 있는 등간척도 (거리, 무게, 시간 등)
4. 확률 분포
확률함수를 그래프로 시각화 한 것
이산확률분포랑 연속확률분포로 나뉨
(확률함수: 확률변수에 의해 정의된 실수를 확률에 대응시키는 함수)
4 -1 ) 연속확률분포의 종류
- 균일분포 : 모든 확률변수 x가 균일한 확률을 가지는 확률분포
- 정규분포 : 평균이 μ이고, 표준편차가 σ인 x의 확률밀도함수, 좌우대칭 (표준정규분포 : 평균이 0이고 표준편차가 1인 정규분포)
- 지수분포 : 어떤 사건이 발생할 때까지 경과 시간에 대한 연속확률분포
- t - 분포 : 표준정규분포와 같이 평균이 0을 중심으로 좌우가 동일한 분포를 따름 (표본이 30개 이상이면 표준정규분포와 거의 같은 분포가 됨), 모표준편차를 모를때 모평균에 대해 추정/검정에 사용됨, 정규분포보다는 더 넓게 퍼져있고 꼬리부분이 더 평평
- 𝑥²분포 : 동질성 검정 통계량에 활용, 자유도가 커지면 정규분포가 됨
- F분포 : 두 집단 간 분산의 동질성 검정에 사용되는 검정 통계량의 분포 (두 모분산의 차이에 대한 추정/검정에 사용)
5. 가설검정
어떤 추측이나 가설에 대해 타당성을 조사하는 것
표본관찰 또는 실험을 통해 귀무가설과 대립가설 중 하나를 선택하는 과정
가설 수립 → 유의수준 설정 → 검정 통계량 산출 → 기각/채택 판단
- 귀무가설(𝐻0) : 비교하는 값과 차이가 없다, 동일하다를 기본 개념으로 하는 가설 (검정 방법에 따라 귀무가설의 내용이 달라짐)
- 대립가설(𝐻1) : 뚜렷한 증거가 있을 때 주장하는 가설
- 검정통계량 : 관찰된 표본으로부터 구하는 통계량, 검정 시 가설의 진위를 판단하는 기준
- 유의수준 : 귀무가설이 옳은데도 이를 기각하는 확률의 크기 (보통 5%, 1%로 설정)
- 기각역 : 귀무가설이 옳다는 전제하에 구한 검정통계량의 분포에서 확률이 유의수준인 부분(확률분포에서 귀무가설을 기각하는 영역)
- 유의확률 (p-value) : 귀무가설이 맞다고 가정할 때 얻을 수 있는 결과보다 실제값이 더 극단에 위치할 확률 (0.05보다 크면 귀무가설)
6. 모수검정
검정하고자 하는 모집단의 분포에 대한 가정을 하고, 그 가정하에서 검정통계량과 검정통계량의 분포를 유도해 검정을 실시하는 방법
모수 검정 방법
- T-검정 : 단일 집단의 검정 및 집단 간 비교
└ 일표본 t - test : 하나의 모집단의 평균을 특정값과 비교
└ 이표본 t - test : 서로 독립적인 두 개의 집단에서 모수(모평균)의 값이 같은지 비교 (등분산성을 먼저 만족해야 함) (평균차이 유무)
└ 대응표본 t - test : 동일한 대상에 대해 두가지 관측치가 있는 경우 비교 (전후 차의 값으로 정규성 검사를 함)
- 분산분석 : 두 집단 이상의 차이 분석
└ 일원분산분석 (ex.신형핸드폰 A,B,C의 속도 차이)
└ F- 통계량을 이용함
- 카이제곱 검정 : 관련성 분석
- 상관관계 분석 : 두 변수의 상관성 분석
- 회귀분석 : 독립변수가 종속변수에 미치는 영향 정도 분석
└ F-검정 : 회귀식(모형)에 대한 검증 (일반적으로 거의 유의함)
└ t-분포의 유의확률 (p-value)이 0.05 미만이면 해당 회귀계수가 통계적으로 유의하다고 볼 수 있다. (t- 검정 : 회귀계수에 대한 검증)
└ 결정계수 (R-squared)가 높은 값을 가질수록 추정된 회귀식의 설명력이 높다 (결정계수는 0~1)의 값을 가짐)
비모수검정
모집단의 분포에 대한 아무런 제약을 가하지 않고 검정을 실시
관측된 자료의 수가 30개 미만일 때, 정규성 검토해서 정규분포가 아니면 비모수 검정함 (개체 간 서열관계를 나타내는 경우에 이용)
검정 방법 : 순위나 두 관측값 차이의 부호를 이용해 검정
<단일표본 비모수 검정 방법>
- 카이제곱검정
- K-S Test
- Run Test
<종속표본 비모수 검정 방법>
- 부호 검정
- 윌콕슨부호순위검정
- 맥니마르 검정
<독립표본 비모수 검정 방법>
- 윌콕슨 순위 합 검정
- 맨휘트니 U 검정
- K-S Test
- 크루스칼 왈리스 검정
'Python > 통계' 카테고리의 다른 글
카이제곱 독립성검정 예시 (0) | 2024.01.14 |
---|---|
단순회귀분석 예시 (0) | 2024.01.14 |
비모수검정 - 윌콕슨의 부호순위검정 (0) | 2024.01.13 |
대응비교 t 검정, 독립비교 t 검정 stats.ttest_1samp, stats.ttest_rel, stats.ttest_ind (0) | 2024.01.13 |
t-test, One Sample T-test 양측검정과 단측검정 (1) | 2024.01.11 |