Q1. 데이터 간의 유사도를 계산할 때, feature의 수가 많다면(예: 100개 이상), 이러한 high-dimensional clustering 문제를 해결하기 위한 방법들을 설명해 주세요.
차원 축소를 통해 차원의 저주를 해결한다.
1. PCA(Principal Component Analysis) 주성분 분석
PCA는 고차원 데이터를 몇 개의 주요 성분(Principal Components)으로 변환하여 차원을 줄입니다. 이를 통해 고차원의 데이터를 선정한 주요 성분(주요 Feature)의 데이터로 더 낮은 차원에서 표현할 수 있으며, 클러스터링을 수행하기 전에 데이터의 잡음을 줄이고, 계산 비용을 절감할 수 있습니다.
2. t-SNE(t-Distributed Stochastic Neighbor Embedding)
매니폴드 학습의 하나로 복잡한 데이터의 시각화가 목적이다. 높은 차원의 데이터를 2차원 또는 3차원으로 축소시켜 시각화한다.
t-SNE를 사용하면 이웃 데이터 포인트에 대한 정보를 보전하려고 하며, 높은 차원 공간에서 비슷한 데이터 구조는 낮은 차원 공간에서 가깝게 대응하고, 비슷하지 않은 데이터 구조는 멀리 떨어져 대응된다.
단, 차원 축소의 시간이 너무 오래걸리고, 매번 실행할 때마다 다른 시각화 결과가 나오며(training과 prediction 동시 수행), 저차원 임베딩 시 정보손실 발생하여 데이터 왜곡의 가능성이 있다는 점이 단점이다.
3. UMAP(Uniform Manifold Approximation and Projection)
UMAP은 t-SNE와 유사하게 서로 먼 데이터는 더 멀리, 가까운 데이터는 더 가깝게 하려고 하지만 전혀 다른 더욱 적절한 수학적 원리를 기반으로 하여 더 빠르고 확장성이 뛰어나며 데이터의 전체 구조와 지역적 구조를 모두 잘 보존한다.
고차원 데이터의 graph 관계를 저차원으로 임베딩 했을 때도 잘 유지가 될 수 있도록 하는 학습이며 t-SNE보다 고차원 데이터 간의 graph 구조(전체 구조, global 구조)가 저차원에서 더 잘 유지된다.
Q2. 차원 축소 기법인 주성분 분석과 요인 분석의 차이는 무엇인지 설명해 주세요.
요인 분석과 주성분 분석 모두 고차원의 데이터를 분석하는 통계적 방법으로, 데이터의 복잡성을 줄이고 구조를 간소화하는 데 목적이 있다. 이런 분석 방법은 변수 간 관계를 이해하고 데이터 내 잠재적 패턴을 발견하는데 주로 사용된다.
요인 분석은 변수들 간의 상관관계로부터 공통 요인을 찾는 반면, 주성분 분석은 데이터의 분산을 최대한 설명할 수 있는 주성분을 찾는데 초점을 둔다. 또한 요인 분석은 주로 탐색적 분석에 사용되며, 변수들이 개념적으로 연결될 때 유용하다. 주성분 분석은 데이터 내 정보의 손실을 최소화하면서 차원의 축소를 목표로 시행된다.
Q3. 히스토그램의 주요 단점은 무엇이며, 이를 극복하기 위한 대안적인 시각화 방법을 설명해 주세요.
[ 단점 ]
- 계급 구간(bin)의 크기 및 시작 위치에 따라 히스토그램이 달라진다.
- 계급 구간(bin)의 경계에서 불연속성이 나타난다. (연속적인 데이터에서만 사용 가능하다.)
- 두 데이터셋을 비교하기 어렵다.
- 고차원 데이터에는 메모리 문제 등으로 사용하기 힘들다.
[ 대안 ]
커널 밀도 추정(KDE)
- 커널 함수와 데이터를 바탕으로 연속성 있는 확률 밀도 함수를 추정하는 비모수적 방법
- 각 데이터를 커널 함수로 대치하여 더함으로써 히스토그램의 단점을 보안하여 smooth한 확률밀도함수를 얻을 수 있는 장점을 가짐
박스 플롯(상자 수염 그래프)
- 데이터의 분포와 이상치를 동시에 보여주면서 서로 다른 데이터군을 쉽게 비교할 수 있는 데이터 시각화 유형으로 데이터를 그대로 보여주는 것보다는 최솟값(minimum), 최댓값(maximum) 그리고 제1사분위수(Q1), 제2사분위수(Q2, 중앙값), 제3사분위수(Q3)로 데이터를 가공하여 분포에 대한 통계치를 시각화한다.
바이올린 플롯
박스 플롯과 동일하게 연속형 데이터의 분포를 설명하기 위해 사용되는 그래프
대부분의 내용은 박스 플롯과 같으며, 커널 밀도 곡선(KDE, Kernel Density Curve)와 박스플롯을 합친 형태
카테고리값에 따른 각 분포의 실제 데이터, 전체 형상을 보여준다는 장점이 있음
'DA Study > Weekly Paper' 카테고리의 다른 글
[Weekly Paper 8] AARRR 프레임워크, 코호트와 세그먼트, RFM 분석 (3) | 2024.12.20 |
---|---|
[Weekly Paper 7] 장바구니 분석, 지지도, 신뢰도, 향상도 (8) | 2024.12.17 |
[Weekly Paper 5] 사분위수, 기술통계와 추론통계 (0) | 2024.12.17 |
[Weekly Paper 4] 데이터 전처리 방법(결측치, 이상치 처리 / 범주형 변수 처리)과 T-TEST (1) | 2024.12.17 |
[Weekly Paper 3] 제 1종/2종 오류, p-value (0) | 2024.12.17 |