Python - VScode에서 가상환경 만들기
·
Python/Python 기초문법
1. 원하는 위치에 폴더 생성 2. VScode 실행 후, 생성한 폴더 열기 File > Open Folder 3. 터미널 열기 Terminal > New Terminal 터미널 종류는 powershell, gitbash, Command Prompt 등 다양하지만 여기서는 gitbash로 사용! 4. 가상환경 모듈 설치 가상환경 모듈 또한 여러가지가 있지만 여기서는 virtualenv를 설치! pip install virtualenv 5. 가상환경 라이브러리 폴더 생성 virtualenv venv 6. 가상환경에 접속 source venv/Scripts/activate 아래 이미지와 같이 (venv)가 생기면 가상환경에 접속된 것! 7. 필요한 라이브러리 설치 pip install numpy pandas..
[개인 프로젝트] 데이터 시각화 및 분석
·
Python/데이터 시각화
💻목표 : 이탈 원인 파악해보기 📝원본 데이터 출처 : https://www.kaggle.com/competitions/playground-series-s4e1/overview 1. 우선 고객의 성별 및 연령별 데이터 확인 f, ax = plt.subplots(1, 2, figsize=(19, 8)) # 성별에 따른 파이 차트 gender_counts = train_data['Gender'].value_counts() # 파이 차트 그리기 ax[0].pie(gender_counts, labels=gender_counts.index, autopct='%1.1f%%', startangle=90, colors=['skyblue', 'lightcoral']) ax[0].set_title('연령별 분포') # 연..
pingouin 라이브러리 활용한 다중회귀분석
·
Python/통계
1. 데이터 불러오기 import seaborn as sns iris = sns.load_dataset('iris') 2. 회귀분석 결과 요약 pg.linear_regression(독립변수, 종속변수) import pingouin as pg predictors = ['sepal_width', 'petal_length'] outcome = 'sepal_length' mod2 = pg.linear_regression(iris[predictors], iris[outcome]) mod2.round(2) [ 결과 해석 ] 1. p-value값 확인 (유의성 검증) 두 독립변수의 p_value값이 0으로 유의한 것으로 나타남 (0.05보다 작으면 귀무가설 기각 = 유의함) 두 독립변수는 모두 종속변수에 영향을 준다..
다중회귀분석 예시
·
Python/통계
문제 1. 선형회귀 모델을 만들어 독립변수 Ozone의 회귀계수(Regression coefficient)를 구하시오. 독립변수 : Solar(태양 에너지), Wind(바람의 세기), Ozone(오존 농도) 종속변수 : Temp(온도) 1. 데이터 불러오기 import pandas as pd df = pd.read_csv("data/data_6_3_2.csv") df.head() 2. 선형회귀모델 만들고, 독립변수 Ozone의 회귀계수(Regression coefficient) 뽑기 formula = "Temp ~ Solar + Wind + Ozone" model = ols(formula, data=df).fit() print(model.summary()) from statsmodels.formula.a..
카이제곱 독립성검정 예시
·
Python/통계
감기약의 부작용 비율과 항암제의 관찰값이 통계적으로 유의미하게 차이가 있는지 검정 감기약 투여 환자들의 부작용 발생 비율 (아픔 5% / 조금아픔 10% / 속쓰림 15% / 무증상 70%) 귀무가설 : 감기약의 부작용과 항암제의 부작용은 동일하다. 대립가설 : 감기약의 부작용과 항암제의 부작용은 다르다. 1. 우선 데이터를 불러옴 import pandas as pd df = pd.read_csv("data/data_6_3_1.csv") 2. 항암제의 부작용 데이터를 리스트 형태로 변환 value_counts() 메서드는 해당 열의 각 고유한 값의 빈도를 계산하여 시리즈 형태로 반환 to_list() 메서드는 이를 Python의 리스트로 변환 df['항암제'].value_counts() val1 = df..
단순회귀분석 예시
·
Python/통계
회귀분석은 독립변수가 종속변수에 영향을 미치는지 알아보고자 하는 인과관계 분석 귀무가설 : sepal_length가 sepal_width에 영향을 끼치지 않는다. 대립가설 : sepal_length가 sepal_width에 영향을 끼친다. 1. 우선 라이브러리 불러오기 import numpy as np import matplotlib.pyplot as plt import statsmodels import statsmodels.formula.api as smf 2. 데이터 불러오기 import seaborn as sns iris = sns.load_dataset('iris') iris.head(5) 3. 회귀분석 결과를 요약 출력하기 model = smf.ols(formula = 'sepal_length ..
비모수검정 - 윌콕슨의 부호순위검정
·
Python/통계
비모수는 데이터가 정규분포가 아니며, 데이터의 표본 수가 적거나 부족하고 데이터가 서로 독립적인 경우 stats.wilcoxon(before, after) t, p = stats.wilcoxon(training_rel['전'], training_rel['후']) t, p => p값이 0.036으로 유의수준 0.05보다 작기 때문에 귀무가설 기각!
대응비교 t 검정, 독립비교 t 검정 stats.ttest_1samp, stats.ttest_rel, stats.ttest_ind
·
Python/통계
대응비교 t 검정 귀무가설 : 운동 전후 집중력 평균의 차이가 없을 것이다. (전=후)(귀무가설은 무조건 차이가 없다) 대립가설 : 운동 전후 집중력 평균의 차이가 있을 것이이다. (전!=후) ** 1sample t test : 한 집단의 평균이 기대값과 같은지를 검정 1. 데이터 불러오기 우선 데이터를 불러오고 전후 차 값을 나타내는 열을 추가함 import pandas as pd training_rel = pd.read_csv('data/ch11_training_rel.csv') training_rel['차'] = training_rel['후'] - training_rel['전'] training_rel 2. scipy의 ttest_1sample 함수로 t 검정 통계량과 p 값을 구함 t_statis..