[ 통계값 관련 ]
모집단(population) : 통계에서 우리가 알고자 하는 대상
- 모집단의 두 분류:
- 유한 모집단: 구성원의 수가 유한한 경우. (ex.00중학교 2학년 1반)
- 무한 모집단: 모집단을 구성하는 요소가 무한에 가까운 경우. (ex. 남자, 여자 등)
- 모집단의 두 분류:
표본(sample) : 모집단의 일부를 뽑아 조사를 진행하는 경우 그 일부
추론 통계 : 표본의 특성을 통해 모집단의 특성을 추정해 내는 것
분산(Variance) : 각각의 값이 평균으로부터 얼마나 멀리 떨어져 있는지를 표현하는 개념 / 오차(해당값-평균)의 제곱합을 데이터 수로 나눠서 계산
표준편차(standard deviation, SD) : 분산에 제곱근을 씌운 값 (분산보다 이해하기 쉬움)
- 체비쇼프의 부등식(Chebyshev’s Inequility) - 데이터의 불규칙성과 관계없이 평균값±2SD의 범위에 반드시 전체의 3/4 이상의 데이터가 존재
다른 대표값(중앙값, 최빈값, 최대값, 최소값)보다 평균이 가장 중요하다.
평균은 비율과 같다.
데이터는 ‘점’이 아닌 ‘구간’으로 이해해야 한다.
- 최댓값, 최솟값을 함께 확인
- 사분위값 확인(중앙값의 한계와 마찬가지로, 사분위값 이외 값에서 발생하는 변화 포착 불가능)
- 사분위값 대신 ‘분산’을 사용하면 더 쉽게 데이터의 불규칙성 표현 가능
표본 추출 시 유의 사항
- 무작위 추출(random sampling) : 모집단에서 표본을 추출할 때 최대한 편향이 없도록 무작위로 추출하는 것
- 너무 작지도, 지나치게 크지도 않은 적정한 양의 표본을 선정해야 함
- 큰 수의 법칙(law of large numbers): 표본의 크기가 커지면 표본 평균은 모평균에 한없이 가까워짐
일정 수준 이상
의 표본 크기가 되면 표본 평균과 모평균 사이의 차이는 거의 무시할 수 있을 정도로 줄어들기 때문에 이일정 수준 이상
의 표본 크기를 잘 정의하는 것이 중요
표본을 통해 모집단을 추정할 때 확률적 사고(불확실성을 인정하고 가장 확률이 높은 쪽으로 추정하는 사고방식)가 필요하다.
[ 확률 관련 ]
확률(probability): 어떤 사건(X)이 일어날 가능성 => P(X)
확률변수(Random Variable) : 발생 가능한 사건의 결과를 실수로 나타낸 것 (ex. 주사위 1,2,3,4,5,6)
확률분포(Probability Distribution) : 가로축에 확률변수를, 세로축에 그 확률 변수의 발생 가능성을 표시한 분포
이산 확률 변수 : 값이 특정 개수로 제한된 경우 / 변수가 가질 수 있는 값이 이산적(뚜렷한 간격으로 구분)인 경우
연속 확률 변수 : 값이 연속적이고 셀 수 없는 경우 / 특정 구간 안에 무한히 많은 값을 가지는 경우
- 변수의 분포를 나타내는 함수 : 확률밀도함수 / (특정 구간의 면적이 곧 확률)
- 딱 정해진 하나의 값의 확률은 0 / 범위로만 확률을 구할 수 있다.
- 그래프 아래의 면적을 모두 더하면 1이 된다.
'DA Study > Data Analytics' 카테고리의 다른 글
[통계] 통계적 가설 검정 (0) | 2025.01.03 |
---|---|
[통계] 통계 리터러시를 위한 기본 개념(정규분포, 오차, 표준오차, 신뢰구간) (1) | 2025.01.02 |
[통계] 피어슨 상관계수와 공분산 (2) | 2024.12.28 |
[데이터 시각화] Matplotlib으로 데이터 시각화하기 (4) | 2024.12.17 |
[데이터 분석] 차원의 저주 , 차원 축소, PCA (1) | 2024.12.17 |