pca 2

[Weekly Paper 6] 차원의 저주 해결, 주성분분석과 요인분석의 차이, 히스토그램의 단점과 대안

Q1. 데이터 간의 유사도를 계산할 때, feature의 수가 많다면(예: 100개 이상), 이러한 high-dimensional clustering 문제를 해결하기 위한 방법들을 설명해 주세요.차원 축소를 통해 차원의 저주를 해결한다.1. PCA(Principal Component Analysis) 주성분 분석PCA는 고차원 데이터를 몇 개의 주요 성분(Principal Components)으로 변환하여 차원을 줄입니다. 이를 통해 고차원의 데이터를 선정한 주요 성분(주요 Feature)의 데이터로 더 낮은 차원에서 표현할 수 있으며, 클러스터링을 수행하기 전에 데이터의 잡음을 줄이고, 계산 비용을 절감할 수 있습니다.2. t-SNE(t-Distributed Stochastic Neighbor Embe..

[데이터 분석] 차원의 저주 , 차원 축소, PCA

차원의 저주란차원 : 데이터에서 설명 변수(컬럼)를 의미, 변수가 많을수록 더 많은 정보 담음차원이 많은 데이터는 더 많은 정보를 포함하고 있어, 분석에 있어 결과 정확성 높여줄 수 있음차원의 저주 : 데이터의 차원이 높아질수록 분석 성능이 떨어지는 경우가 발생변수가 많을수록 모델이 과적합되거나 학습이 어려워질 수 있기 때문높아지는 차원에 비해 데이터의 밀도와 비중이 떨어지기에, 모델이 활용할 수 있는 데이터의 양이 상대적으로 모자라기 때문(데이터의 비중이 떨어지는 차원의 예측에 대해서는 심하게는 단 하나의 데이터를 그대로 암기해버릴 수도 있는 것)차원의 축소차원의 저주를 해결하기 위해 차원 축소(Dimensionality Reduction) 사용차원 축소는 데이터의 변수(차원) 수를 줄여 성능을 개선하..