Principal Component Anaysis(PCA)
hidden valuable 을 찾고 싶다
머신러닝 때도 유용
1. Descriptive 통계 : 어떤 특징을 설명 : center, variation, relationship
: mean, median, mode, midrange 등 Measures of Center <- sample data(불완전)
2. Inferential 통계 : 설명 << 새로운 것 뽑아냄 : ANOVA, relationship
- variation 이 클수록 의미있는 정보이다
Importance of Variance
=> Character of data
=> Entropy in nature
Covariance and Correlation
- 2개 Variance 가 a 가 변할 때 b 는 어떠한가? : 데이터의 성질
- quantity 를 알고 싶다
Variance, Covariance and Covariance Matrix
variable 2개 이상
What are the factors that affect a country's GDP?
variable 여러개 이상임
- Dimension 줄이면서 정확한 모델 <= 1. Variance of variable 2. Relaionships between variable
Identifying Important Variables
- Best 'Regression' 찾기 << Which variance 많나
- 어떤 Variance 가 더 크냐 <- 쉬운 계산 방법으로 계산하면 됨
- 1. Variance 를 원점에 정렬 한 후 x축, y축 에 나열함 : x 축에 점들의 길이가 더 크면 변동이 크다는 뜻 -> x 축의 데이터가 더 의미가 있다 (Principal Component)
- 2. Variance 의 best fitting line 을 찾음 : 변수 점 하나에 피타고라스 정리 -> 가장 가까운 거리의 선을 정하면 피타고라스의 정리로 옆선은 가장 긴 선이 형성됨 -> 가장 큰 선을 찾으면 Best fitting line 을 찾을 수 있다!
Direction of Vector 과 Magnitude of Vector 을 알고 싶다면?
- eigenvectors 와 eigenvariables(아이젠 벡터와 아이젠 베리어블) 을 찾는다~ (완존 중요개념~ 아이젠)
Principal Component Analysis (PCA)
1. linely Independent
2. transforms
- step : Standardize -> Covariance Matrix -> eigenvectors/eigenvaluables 구하면 방향을 알 수 있다 -> sort 됨
Linear Transformations
matrix : vector 를 transform 하겠다.
Linear Transformations with Square Matrix
: einenvector 와 eigenvariable 이 존재하여 가능함
Eigenvector and Eigenvaluable
- Aν = λν
- Aν - λν = 0, (A - λ)ν
- A : matrix , ν : eigenvector, λ : eigenvariable
- 1. original 유지 2. 데이터수 줄여줌 3. 알고리즘 구현 => 빨리 가능
Any matrix 에 적용되는 Matrix diagonalization
- A = νAν-¹
Singular Valuable Decompotion(SVD) for PCA
- any matrix A can be factorized as A = U ∑ V
Applications of PCA
데이터 수는 적게 필요하고
정확도는 높다
예) 5차원 -> 2차원 -> 2 eigenvector (아이젠벡터)
Transforming Data from Lower to Higher Dimesion for Classfication
2D -> 3D
Applications of that
- Images Compression : The space of all face images : classification
- First Impression(첫인상) : 윤곽을 catch
- 기본적인 raw 는 갖고 있고 싶다, 할 때 유용
미국 관련 질의사항
머신러닝 쪽으로 하고 싶다면, 길이 머신러닝, 머신러닝 엔지니어, 데이터 사이언티스트 3 분야로 나뉘는데
- Linear Regression
인터뷰 전에 공부 엄청 하고 간다. 기본적으로 Linear Regression 이 요구된다.