- 정규 분포 : 정규분포는 평균 μ와 표준 편차 σ라는 2개의 값으로 정해지는 확률분포
- 평균을 중심으로 한 좌우대칭 종형 분포
- 정규분포의 성질
- μ-σ ~ μ+σ 사이에 값이 있을 확률 -
68%
- μ-2σ ~ μ+2σ 사이에 값이 있을 확률 -
95%
- μ-3σ ~ μ+3σ 사이에 값이 있을 확률 -
99.7%
- μ-σ ~ μ+σ 사이에 값이 있을 확률 -
- 중심극한정리(CLT, Central Limit Theorem)
- 모집단의 분포와 관계없이, 이 모집단에서 추출된 표본의 크기가 충분히 크다면 반복적으로 추출된 표본 평균들의 분포는 정규분포에 가까워진다.
- ‘표본 평균’의 분포에 대한 말이지 특정 표본의 분포에 대한 말이 아니다.
- 모집단의 분포와 관계없이, 이 모집단에서 추출된 표본의 크기가 충분히 크다면 반복적으로 추출된 표본 평균들의 분포는 평균이 모평균 μ이고 표준편차가 σ/n**0.5 인 정규분포에 가까워짐
- 오차(편차, error)
- 표본을 통해 얻은 평균 또는 비율이
참값(모집단의 실제 값)
에서부터 어떤 확률과 정도로 벗어나 있는지 나타내는 지표 - 오차는 수집된 데이터의 수와 해당 데이터의 불규칙성에 따라 달라진다.
- 표본을 통해 얻은 평균 또는 비율이
$$ SE = \frac{s}{\sqrt{n}} $$
- 표준오차 : 여러 차례 뽑은 표본의 평균들로 만든 분포에서의 표준편차(표본 평균의 표준편차)
- 표준오차가 작을수록 표본 평균의 분포는 실제의 모평균 주위로 뾰족하게 모여 있는 구조 > 우리가 관찰한 표본의 평균이 모평균과 가까울 확률이 높아질 것
- 표준오차가 작을수록 우리는 표본조사를 통해 모집단의 참값과 근사해감
- 신뢰구간(CI, Confidence Interval) : 모집단의 값이 어느 범위에 있는지 확률적으로 보여주는 방법
- 95% 신뢰구간 = 모평균은 그대로이지만 우리가 추출하는 표본의 평균과 표준편차가 표본을 추출할 때마다 달라지기 때문에 신뢰구간도 각각 다르게 계산된다. 다르게 계산된
여러 개의 신뢰구간 중 95%만 모평균을 제대로 포함
한다는 뜻
- 95% 신뢰구간 = 모평균은 그대로이지만 우리가 추출하는 표본의 평균과 표준편차가 표본을 추출할 때마다 달라지기 때문에 신뢰구간도 각각 다르게 계산된다. 다르게 계산된
'DA Study > Data Analytics' 카테고리의 다른 글
[Python] 데이터 프레임 Boolean 인덱싱 VS query() 메서드 (0) | 2025.01.22 |
---|---|
[통계] 통계적 가설 검정 (0) | 2025.01.03 |
[통계] 모집단, 표준편차, 분산, 평균, 확률, 확률분포, 이산확률변수, 연속확률변수, 확률밀도함수 (0) | 2024.12.30 |
[통계] 피어슨 상관계수와 공분산 (1) | 2024.12.28 |
[데이터 시각화] Matplotlib으로 데이터 시각화하기 (2) | 2024.12.17 |