[통계] 통계적 가설 검정

DA Study/Data Analytics

[통계] 통계적 가설 검정

harrym8n 2025. 1. 3. 10:51

관련 개념

대립가설(alternative hypothesis) : 우리가 밝히고자 하는 가설 (차이가 있다, 효과가 있다)
귀무가설(null hypothesis) : 우리가 밝히고자 하는 가설과 반대되는 가정 (차이가 없다, 효과가 없다)
P-value : 귀무가설이 옳다는 가정 하에서 우리가 관찰한 결과 혹은 그 이상으로 귀무가설에 반하는 데이터가 나타날 확률
제1종 오류: 귀무가설이 옳은데 대립가설을 채택하는 경우. 위양성(false positive)
- 유의수준(significance level) : 제 1종 오류가 일어날 확률, α
- 2종 오류보다 치명적임
제2종 오류: 대립가설이 옳은데 귀무가설을 기각하지 않는 경우. 위음성(false negative)
- β : 제 2종 오류가 일어날 확률
- 검정력(power of test) : 1 - β
통계적 유의미성
- p값이 유의수준 아래이므로 귀무가설을 기각했다 = 통계적으로 유의미한 차이가 있다.

절차

가설 수립 : 모집단을 대상으로 가설 수립
- 추론통계의 본질은 표본집단으로 모집단을 추론하는 것
- ex) 인앱메시지 A안과 B안 사이에 클릭률 차이가 존재할 것이다.
수립한 가설(우리가 밝히고자 하는 가설, 대립가설)과 반대되는 가정을 생각하고, 이 가설을 옳다고 가정(귀무가설)
- ex) 인앱메시지 A안과 B안 사이에 클릭률 차이가 존재하지 않을 것이다.
표본 수집 후 데이터 관찰 후 귀무가설이 옳다고 할 때, 관찰한 데이터가 나타날 확률 측정
- ex) 만약 A,B안 사이에 차이가 없다고 하면, 우리가 관찰한 것과 같은 수치 차이가 존재할 확률은?
해당 확률(P-value)이 일정 수준(유의 수준, 알파)보다 낮다면 대립가설 채택 / 높다면 귀무가설 채택

요약 : 가설을 세우고 표본 데이터를 관찰한 후, p-value와 유의 수준 α와 비교하고 귀무가설의 기각 여부를 결정

가설 방법 선택

데이터 유형

양적 변수(quantitative variable): 키, 몸무게 등 양적 수치로 표현되는 변수
범주형 변수(categorical variable): 성별, 자동차 브랜드 등 몇 가지 그룹으로 구분되어 측정되는 변수

양적 변수 성질

정규성 가정 : 모집단이 정규분포를 따른다.
- 정규성 가정이 만족되면 모수 검정(parametric test) 방법 사용
- 정규성 가정이 만족되지 않으면 비모수 검정(nonparametric test) 방법 사용
- 정규성 판별 > Q-Q플롯, 샤피로-윌크 검정(Shapiro-Wilk test), 콜모고로프-스미르노프 검정(Kolmogorov-Smirnov test) 등
- 표본 크기가 충분히 크다면 모집단의 분포가 정규분포에서 아주 조금 벗어난 것만으로 정규성을 만족시키지 않는다는 결과 나옴
  - 따라서 현업에서는 대부분 그냥 모수 검정 사용해서 큰 문제 없음
등분산성 가정: 집단 간 분산이 동일하다.
- 등분산 > 스튜던트의 T검정(Student’s t-test)
- 이분산 > 웰치의 t검정(Welch’s t-test)
- 등분산성 판별 : 레빈 검정(Leven’s test) / 바틀렛 검정(Bartlett’s test)

'DA Study > Data Analytics' 카테고리의 다른 글

[머신러닝] 머신러닝 정의, 유형, 기본 개념, 수학적 기초 (3)	2025.02.07
[Python] 데이터 프레임 Boolean 인덱싱 VS query() 메서드 (0)	2025.01.22
[통계] 통계 리터러시를 위한 기본 개념(정규분포, 오차, 표준오차, 신뢰구간) (1)	2025.01.02
[통계] 모집단, 표준편차, 분산, 평균, 확률, 확률분포, 이산확률변수, 연속확률변수, 확률밀도함수 (1)	2024.12.30
[통계] 피어슨 상관계수와 공분산 (2)	2024.12.28

현재글[통계] 통계적 가설 검정

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

해리문의 데이터_log

[통계] 통계적 가설 검정

관련 개념

절차

가설 방법 선택

데이터 유형

양적 변수 성질

'DA Study > Data Analytics' 카테고리의 다른 글

'DA Study/Data Analytics'의 다른글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

[통계] 통계적 가설 검정

관련 개념

절차

가설 방법 선택

데이터 유형

양적 변수 성질

'DA Study > Data Analytics' 카테고리의 다른 글

'DA Study/Data Analytics'의 다른글

관련글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역