관련 개념
대립가설(alternative hypothesis) : 우리가 밝히고자 하는 가설 (차이가 있다, 효과가 있다)
귀무가설(null hypothesis) : 우리가 밝히고자 하는 가설과 반대되는 가정 (차이가 없다, 효과가 없다)
P-value : 귀무가설이 옳다는 가정 하에서 우리가 관찰한 결과 혹은 그 이상으로 귀무가설에 반하는 데이터가 나타날 확률
제1종 오류: 귀무가설이 옳은데 대립가설을 채택하는 경우. 위양성(false positive)
- 유의수준(significance level) : 제 1종 오류가 일어날 확률, α
- 2종 오류보다 치명적임
제2종 오류: 대립가설이 옳은데 귀무가설을 기각하지 않는 경우. 위음성(false negative)
- β : 제 2종 오류가 일어날 확률
- 검정력(power of test) : 1 - β
통계적 유의미성
- p값이 유의수준 아래이므로 귀무가설을 기각했다 = 통계적으로 유의미한 차이가 있다.

절차
가설 수립 : 모집단을 대상으로 가설 수립
- 추론통계의 본질은 표본집단으로 모집단을 추론하는 것
- ex) 인앱메시지 A안과 B안 사이에 클릭률 차이가 존재할 것이다.
수립한 가설(우리가 밝히고자 하는 가설, 대립가설)과 반대되는 가정을 생각하고, 이 가설을 옳다고 가정(귀무가설)
- ex) 인앱메시지 A안과 B안 사이에 클릭률 차이가 존재하지 않을 것이다.
표본 수집 후 데이터 관찰 후 귀무가설이 옳다고 할 때, 관찰한 데이터가 나타날 확률 측정
- ex) 만약 A,B안 사이에 차이가 없다고 하면, 우리가 관찰한 것과 같은 수치 차이가 존재할 확률은?
해당 확률(P-value)이 일정 수준(유의 수준, 알파)보다 낮다면 대립가설 채택 / 높다면 귀무가설 채택
요약 : 가설을 세우고 표본 데이터를 관찰한 후, p-value와 유의 수준 α와 비교하고 귀무가설의 기각 여부를 결정
가설 방법 선택
데이터 유형
양적 변수(quantitative variable): 키, 몸무게 등 양적 수치로 표현되는 변수
범주형 변수(categorical variable): 성별, 자동차 브랜드 등 몇 가지 그룹으로 구분되어 측정되는 변수
양적 변수 성질
정규성 가정 : 모집단이 정규분포를 따른다.
- 정규성 가정이 만족되면
모수 검정(parametric test)
방법 사용 - 정규성 가정이 만족되지 않으면
비모수 검정(nonparametric test)
방법 사용 - 정규성 판별 > Q-Q플롯, 샤피로-윌크 검정(Shapiro-Wilk test), 콜모고로프-스미르노프 검정(Kolmogorov-Smirnov test) 등
- 표본 크기가 충분히 크다면 모집단의 분포가 정규분포에서 아주 조금 벗어난 것만으로 정규성을 만족시키지 않는다는 결과 나옴
- 따라서 현업에서는 대부분 그냥 모수 검정 사용해서 큰 문제 없음
- 정규성 가정이 만족되면
등분산성 가정: 집단 간 분산이 동일하다.
- 등분산 > 스튜던트의 T검정(Student’s t-test)
- 이분산 > 웰치의 t검정(Welch’s t-test)
- 등분산성 판별 : 레빈 검정(Leven’s test) / 바틀렛 검정(Bartlett’s test)
'DA Study > Data Analytics' 카테고리의 다른 글
[머신러닝] 머신러닝 정의, 유형, 기본 개념, 수학적 기초 (3) | 2025.02.07 |
---|---|
[Python] 데이터 프레임 Boolean 인덱싱 VS query() 메서드 (0) | 2025.01.22 |
[통계] 통계 리터러시를 위한 기본 개념(정규분포, 오차, 표준오차, 신뢰구간) (1) | 2025.01.02 |
[통계] 모집단, 표준편차, 분산, 평균, 확률, 확률분포, 이산확률변수, 연속확률변수, 확률밀도함수 (1) | 2024.12.30 |
[통계] 피어슨 상관계수와 공분산 (2) | 2024.12.28 |