본문 바로가기
2021-1/Seminar

세미나 | PCA

by 이망고_ 2021. 10. 18.

Principal Component Anaysis(PCA)

hidden valuable 을 찾고 싶다

머신러닝 때도 유용

 

1. Descriptive 통계 : 어떤 특징을 설명 : center, variation, relationship 

   : mean, median, mode, midrange 등 Measures of Center   <- sample data(불완전)

2. Inferential 통계 : 설명 << 새로운 것 뽑아냄 : ANOVA, relationship

  • variation 이 클수록 의미있는 정보이다

Importance of Variance 

=> Character of data

=> Entropy in nature 

Covariance and Correlation 

  • 2개 Variance 가 a 가 변할 때 b 는 어떠한가? : 데이터의 성질
  • quantity 를 알고 싶다

Variance, Covariance and Covariance Matrix

variable 2개 이상 

What are the factors that affect a country's GDP?

variable 여러개 이상임

  • Dimension 줄이면서 정확한 모델 <= 1. Variance of variable 2. Relaionships between variable

Identifying Important Variables

  • Best 'Regression' 찾기 << Which variance 많나
  • 어떤 Variance 가 더 크냐 <- 쉬운 계산 방법으로 계산하면 됨
    • 1. Variance 를 원점에 정렬 한 후 x축, y축 에 나열함 : x 축에 점들의 길이가 더 크면 변동이 크다는 뜻 -> x 축의 데이터가 더 의미가 있다 (Principal Component)
    • 2. Variance 의 best fitting line 을 찾음 : 변수 점 하나에 피타고라스 정리 -> 가장 가까운 거리의 선을 정하면 피타고라스의 정리로 옆선은 가장 긴 선이 형성됨 -> 가장 큰 선을 찾으면 Best fitting line 을 찾을 수 있다! 

Direction of Vector 과 Magnitude of Vector 을 알고 싶다면?

  • eigenvectors 와 eigenvariables(아이젠 벡터와 아이젠 베리어블) 을 찾는다~ (완존 중요개념~ 아이젠)

Principal Component Analysis (PCA)

1. linely Independent 

2. transforms

  • step : Standardize -> Covariance Matrix -> eigenvectors/eigenvaluables 구하면 방향을 알 수 있다 -> sort 됨

Linear Transformations

matrix : vector 를 transform 하겠다.

Linear Transformations with Square Matrix 

: einenvector 와 eigenvariable 이 존재하여 가능함 

Eigenvector and Eigenvaluable

  • Aν = λν
  • Aν - λν = 0, (A - λ)ν 
  • A : matrix , ν : eigenvector, λ : eigenvariable 
  • 1. original 유지 2. 데이터수 줄여줌 3. 알고리즘 구현 => 빨리 가능 
Any matrix 에 적용되는 Matrix diagonalization 
    • A = νAν-¹   ­ ­

Singular Valuable Decompotion(SVD) for PCA 

  • any matrix A can be factorized as A = U ∑ V

Applications of PCA

데이터 수는 적게 필요하고

정확도는 높다

예) 5차원 -> 2차원 -> 2 eigenvector (아이젠벡터)

Transforming Data from Lower to Higher Dimesion for Classfication

2D -> 3D 

Applications of that

  • Images Compression : The space of all face images : classification
  • First Impression(첫인상) : 윤곽을 catch
  • 기본적인 raw 는 갖고 있고 싶다, 할 때 유용

미국 관련 질의사항

머신러닝 쪽으로 하고 싶다면, 길이 머신러닝, 머신러닝 엔지니어, 데이터 사이언티스트 3 분야로 나뉘는데

  • Linear Regression 
     인터뷰 전에 공부 엄청 하고 간다. 기본적으로 Linear Regression 이 요구된다.

'2021-1 > Seminar' 카테고리의 다른 글

학회 논문 제출  (0) 2021.11.17