통계 10

[TIL] 윈도우 함수에서 ROWS로 특정 범위내 데이터 지정하기 #SQL #SQLite #solvesql

solvesql - 전력 소비량 이동 평균 구하기👉 문제 바로가기(solvesql)-- 2017년 1월 1일 0시부터 2017년 2월 1일 0시까지-- 10분 단위로 3개 발전소 전력 소비량의 1시간 범위 단순 이동 평균을 계산-- 이동 평균 값은 소수점 셋째 자리에서 반올림SELECT DATETIME(measured_at, '+10 minutes') AS end_at, ROUND((AVG(zone_quads) OVER(ORDER BY measured_at ROWS BETWEEN 5 PRECEDING AND CURRENT ROW)),2) AS zone_quads, ROUND((AVG(zone_smir) OVER(ORDER BY measured_at ROWS BETWEEN 5 PRECEDING A..

DA Study/TIL 2025.03.06

[TIL] 집단 간 비율 차이 통계적 유의미성 검증하기 - Z검정 # python # 부트캠프

부트캠프 프로젝트 - 구독 서비스 플랫폼 데이터 분석 프로젝트# 데이터 입력n1, x1 = '표본 크기', '첫번째 집단 크기'n2, x2 = '표본 크기', '두번째 집단 크기'# z-검정 수행count = np.array([x1, x2]) # 집단 크기nobs = np.array([n1, n2]) # 표본 크기z_stat, p_value = proportions_ztest(count, nobs)# 결과 출력print(f"z-statistic: {z_stat:.3f}")print(f"p-value: {p_value:.3f}")# 결과 해석alpha = 0.05if p_value 위 코드의 변수명, 데이터는 마스킹 처리하여 기재하였습니다.[ 문제 상황 ]A 이벤트 수에 따라 B 전환 비율이 증가하는..

DA Study/TIL 2025.01.15

[TIL] 특정 값으로 편향된 데이터 전처리하기 # python # 부트캠프

부트캠프 프로젝트 - 구독 서비스 플랫폼 데이터 분석 프로젝트# A와 B 컬럼이 모두 0인 행 필터링condition = (final_df['A'] == 0) & (final_df['B'] == 0)# 해당 조건을 만족하는 행들의 인덱스 중 50%를 무작위로 선택indices_to_remove = final_df[condition].sample(frac=0.5, random_state=42).index# 선택된 행 제거preprocessed_df = final_df.drop(index=indices_to_remove)위 코드의 컬럼명, 변수명은 본래 이름에서 마스킹 처리하여 기재하였습니다.[ 문제 상황 ]로지스틱 회귀분석을 하기위한 데이터 테이블을 생성하는데 각 독립변수 별로 변수에 해당하는 이벤트 자체..

DA Study/TIL 2025.01.14

[TIL] 로지스틱 회귀분석에서 오즈비 계산하기 # python # 부트캠프

부트캠프 프로젝트 - 구독 서비스 플랫폼 데이터 분석 프로젝트# 회귀계수에서 오즈비 계산odds_ratios = np.exp(result.params)# 오즈비 출력 odds_ratios_df = pd.DataFrame( { 'Feature': X.columns, 'Odds Ratio': odds_ratios })print(odds_ratios_df)[ 문제 상황 ]로지스틱 회귀분석 결과를 해석할 때 회귀 계수 만으로 해석하기 어렵다.[ 해결 ]오즈비를 통해 해석의 용이성을 챙길 수 있다.numpy 라이브러리에서 지수 함수 메서드인 np.exp() 를 통해 간단하게 오즈비를 구할 수 있다.로지스틱 회귀모델에서는 각 회귀계수가 로그 오즈(log-odds) 의 변화..

DA Study/TIL 2025.01.13

[통계] 통계적 가설 검정

관련 개념대립가설(alternative hypothesis) : 우리가 밝히고자 하는 가설 (차이가 있다, 효과가 있다)귀무가설(null hypothesis) : 우리가 밝히고자 하는 가설과 반대되는 가정 (차이가 없다, 효과가 없다)P-value : 귀무가설이 옳다는 가정 하에서 우리가 관찰한 결과 혹은 그 이상으로 귀무가설에 반하는 데이터가 나타날 확률제1종 오류: 귀무가설이 옳은데 대립가설을 채택하는 경우. 위양성(false positive)유의수준(significance level) : 제 1종 오류가 일어날 확률, α2종 오류보다 치명적임제2종 오류: 대립가설이 옳은데 귀무가설을 기각하지 않는 경우. 위음성(false negative)β : 제 2종 오류가 일어날 확률검정력(power of te..

[통계] 통계 리터러시를 위한 기본 개념(정규분포, 오차, 표준오차, 신뢰구간)

정규 분포 : 정규분포는 평균 μ와 표준 편차 σ라는 2개의 값으로 정해지는 확률분포평균을 중심으로 한 좌우대칭 종형 분포정규분포의 성질μ-σ ~ μ+σ 사이에 값이 있을 확률 - 68%μ-2σ ~ μ+2σ 사이에 값이 있을 확률 - 95%μ-3σ ~ μ+3σ 사이에 값이 있을 확률 - 99.7%중심극한정리(CLT, Central Limit Theorem)모집단의 분포와 관계없이, 이 모집단에서 추출된 표본의 크기가 충분히 크다면 반복적으로 추출된 표본 평균들의 분포는 정규분포에 가까워진다.‘표본 평균’의 분포에 대한 말이지 특정 표본의 분포에 대한 말이 아니다.모집단의 분포와 관계없이, 이 모집단에서 추출된 표본의 크기가 충분히 크다면 반복적으로 추출된 표본 평균들의 분포는 평균이 모평균 μ이고 표준편..

[통계] 모집단, 표준편차, 분산, 평균, 확률, 확률분포, 이산확률변수, 연속확률변수, 확률밀도함수

[ 통계값 관련 ]모집단(population) : 통계에서 우리가 알고자 하는 대상모집단의 두 분류:유한 모집단: 구성원의 수가 유한한 경우. (ex.00중학교 2학년 1반)무한 모집단: 모집단을 구성하는 요소가 무한에 가까운 경우. (ex. 남자, 여자 등)표본(sample) : 모집단의 일부를 뽑아 조사를 진행하는 경우 그 일부추론 통계 : 표본의 특성을 통해 모집단의 특성을 추정해 내는 것분산(Variance) : 각각의 값이 평균으로부터 얼마나 멀리 떨어져 있는지를 표현하는 개념 / 오차(해당값-평균)의 제곱합을 데이터 수로 나눠서 계산표준편차(standard deviation, SD) : 분산에 제곱근을 씌운 값 (분산보다 이해하기 쉬움)체비쇼프의 부등식(Chebyshev’s Inequility..

[통계] 피어슨 상관계수와 공분산

공분산 : 두 변수 간의 관계의 방향성과 강도를 측정할 때 사용할 수 있는 통계값수식상 하나의 변수가 증가할 때 다른 변수도 증가하는 경향이 있다면 공분산 값은 양수가 되고, 하나의 변수가 증가할 때 다른 변수는 감소한다면 공분산 값은 음수공분산 값의 크기는 변수의 단위에 큰 영향을 받는다는 한계가 있음(ex. 두 변수의 단위가 무게(kg), 길이(km)일 경우 이 단위에 따라 공분산 값의 범위가 크게 달라짐)-> 공분산 값이 크게 나왔을 때, 정말로 상관관계가 커서 그런 건지, 변수의 단위 때문에 숫자가 커서 그런 건지 판단 불가-> 공분산 만으로는 상관관계 강도 비교 해석이 어려움$$cov(X,Y) = \frac{\sum_{i=1}^{n}(X_i - \bar{X})(Y_i - \bar{Y}) }{n}..

[Weekly Paper 5] 사분위수, 기술통계와 추론통계

사분위수정의측정값을 낮은 순에서 높은 순으로 정렬한 후 4등분 했을 때 각 등위에 해당하는 값 (출처:Oracle Help Center)분위수1분위수(25% quantile)(1Q) : 데이터를 작은 수 부터 나열했을때 25%에 해당 하는 수2분위수(50% quantile)(2Q) : 데이터를 작은 수 부터 나열했을때 50%에 해당 하는 수(중앙값)3분위수(75% quantile)(3Q) : 데이터를 작은 수 부터 나열했을때 75%에 해당 하는 수4분위수(100% quantile)(4Q) : 데이터를 작은 수 부터 나열했을때 100%에 해당 하는 수IQR(사분위 범위) = Q3 - Q1의의사분위 범위가 클수록 자료의 분산 정도가 크다.IQR을 활용해서 이상치를 판별할 수 있다.Q1 - 1.5IQR 보다 ..

[Weekly Paper 3] 제 1종/2종 오류, p-value

가설(Hypothesis)1. 개념진실이라고 확증할 수는 없지만 아마도 그럴 것이라고 추정하는 잠정적인 주장2. 종류1) 귀무 가설(H0 : Null Hypothesis): 모집단의 특성에 대해 옳다고 주장하는 잠정적인 주장[예시]검증 주제 : 10월 마케팅 액션의 효과귀무 가설 : 10월 마케팅 액션은 효과가 없다. / 10월 마케팅 액션 전 후로 차이가 없다. 2) 대립 가설(H1 : Alternatie Hypothesis): 귀무 가설이 거짓이라면 대안으로 참이 되는 가설[예시]검증 주제 : 10월 마케팅 액션의 효과귀무 가설 : 10월 마케팅 액션은 효과가 있다. / 10월 마케팅 액션 전 후로 차이가 있다.3. 특이사항통계학에서는 귀무 가설이 옳다는 전제 하에 검증 시도귀무 가설을 기각하여 대립..