본문 바로가기
Postech/Statistics

[포스코 청년 AI·Big Data] 데이터사이언스를 위한 통계학입문 7. 빅데이터 차원축소와 예측모형

by 나비스 2023. 6. 27.

POSTECH의 MOOC (https://pabi.smartlearn.io/ 청년 AI, BigData 아카데미 온라인 기초과정 중

데이터사이언스를 위한 통계학입문2를 수강하고 정리한 내용입니다.

 

1. 데이터 탐색과 정제

데이터 탐색

  • Basic Information: 분포, 평균, 최솟값, 최댓값, 분산 등
  • Variation: 변동성, 시계열
  • Outlier: 모든 데이터가 상식적인 범위 안에 존재하는가? → 이유를 찾아 분석에서 제외 (한 개의 데이터가 전체의 상관계수를 완전히 바꿀 수 있음)
  • Correlation: 변수 간 상관성, 변수 간 상호작용이 있는가?

→ 데이터 탐색을 통해 데이터의 특성을 이해하고 적절하게 정제함으로써 정확한 예측모형을 만들 수 있다.

2. 빅데이터의 차원축소

차원축소기법은 왜 필요한가

  • 현업 데이터의 특성 : 타겟변수 특성에 영향을 미치는 요인(x변수)이 매우 많음
  • 변수 간 다중공선성(높은 상관관계, 상호작용) → y변화에 대한 영향이 상쇄되거나 마스킹 될 가능성 有
  • 과적합 위험 증가
  • 타겟값 정보가 들어있는 구조 파악이 어려움

차원축소기법- 주성분분석

  • 주성분분석(Principal Component Analysis; PCA)
    • 가장 대표적인 차원 축소 방법
    • 첫 번째 변수가 전체 분산을 가장 많이 설명하고, 다음 변수가 나머지 분산을 가장 많이 설명하는 방식으로 변수 생성
    • 새로 구성된 변수는 서로 독립(상관성이 없어서 회귀분석에 문제가 되지 않는다.)
  • 주성분분석 시행 방법
    1. 데이터 공간에서 분산이 최대인 축을 찾는다. (첫 번째 주성분: PC1)
    2. 첫 번째 축과 직교하며 분산이 최대인 두 번째 축을 찾는다. (두 번째 주성분: PC2)
  • 최적 주성분 찾기
    • 전체 변동에 대한 기여도: 전체 변동의 약 90%를 설명하는 차원까지
    • Scree plot 활용: 기울기가 갑자기 줄어드는 차원까지
  • 주성분분석의 수학적 이해
    • 주성분의 weight 산정방법
      • 공분산 행렬이 eigenvalue, eigenvector의 기하학적 의미
        • 가장 큰 eigenvalue = 타원 최대축의 길이의 제곱
        • 가장 작은 eigenvalue = 타원 최소축의 길이의 제곱
        • 1st eigenvector = 타원 최대축의 방향
        • k번째 eigenvector = 타원 최소축의 방향
    • 최적 주성분은 몇개일까?
      1. 전체 변동에 대한 기여도 : 전체 변동 중 처음 m개의 주성분에 의해 설명되는 변동의 비율
        1. 전체 변동의 약 90%를 설명하는 차원까지 감소
        2. $$ \frac{\lambda_1 + \lambda_2 + ... \lambda_m}{\lambda_1+\lambda_2+...+\lambda_k} $$
      2. Scree plot : 기울기가 갑자기 줄어드는 차원까지 감소
    요약
    • 현업 데이터를 탐색해보면 연관관계 요인들(변수들)이 많음
    • 상호 관련성 있는 변수들이 많으면 원데이터(raw data)보다는 데이터 변환 또는 차원 축소가 필요
    • 차원축소 효과는 raw data의 정보를 보존하면서 노이즈를 제거하는 기능

3. 데이터 변환에 의한 저차원 시각화

고차원데이터의 차원축소

  • 데이터 유형 파악
    • Classification(Y: 범주형)
    • Prediction(Y: 연속형)
  • 변수 선택(feature selection) 기법
    • 특정 변수를 선택하여 모델링
    • 다중공선성 존재하는 변수는 그 중 하나의 변수만 선택
  • 특징 추출(feature extraction) 기법 (차원축소)
    • 새로운 축을 생성했을 때 생기는 변화
    • 고차원 데이터 정보를 보존하며 노이즈를 제거하는 방식으로 특징 추출
    • 비선형 기법 : Isomap, Locally-linear Embedding LLE, Neighborhood Preserving Embedding NPE

고차원데이터의 저차원 시각화

  • 주성분분석: 선형 추출 기법
  • 인접보존기법: 비선형 추출 기법

차원축소와 예측모형

  • Feature Ectraction
    • 인접보존기법
    • 제한적 볼츠만머신
    • 오토인코더
  • Classifier

4. 데이터와 예측모형

데이터와 예측모형

  • 데이터 정제 → 데이터 탐색 → 통계적 모델링(통계모형, 기계학습, 인공지능)
  • 데이터 분석목적
    • 예측(prediction) → 회귀분석, 선형모형, 비선형모형
    • 분류(classification) → 의사결정나무, 서포트벡터머신, 판별분석, 로지스틱회귀모형
    요약비선형추출기법, 인공지능기법에 의한 특징추출의 유용성이 많이 보고되고 있다.
  • 에측모형의 신뢰성을 위해 충분히 훈련, 검증 데이터 반복이 필요하다.
  • 차원축소, 특징추출 사용 : 데이터가 고차원이고 물리적 정보를 갖고 있는 경우