[포스코 청년 AI·Big Data] 데이터사이언스를 위한 통계학입문 7. 빅데이터 차원축소와 예측모형

POSTECH의 MOOC (https://pabi.smartlearn.io/) 청년 AI, BigData 아카데미 온라인 기초과정 중

데이터사이언스를 위한 통계학입문2를 수강하고 정리한 내용입니다.

1. 데이터 탐색과 정제

데이터 탐색

Basic Information: 분포, 평균, 최솟값, 최댓값, 분산 등
Variation: 변동성, 시계열
Outlier: 모든 데이터가 상식적인 범위 안에 존재하는가? → 이유를 찾아 분석에서 제외 (한 개의 데이터가 전체의 상관계수를 완전히 바꿀 수 있음)
Correlation: 변수 간 상관성, 변수 간 상호작용이 있는가?

→ 데이터 탐색을 통해 데이터의 특성을 이해하고 적절하게 정제함으로써 정확한 예측모형을 만들 수 있다.

2. 빅데이터의 차원축소

차원축소기법은 왜 필요한가

현업 데이터의 특성 : 타겟변수 특성에 영향을 미치는 요인(x변수)이 매우 많음
변수 간 다중공선성(높은 상관관계, 상호작용) → y변화에 대한 영향이 상쇄되거나 마스킹 될 가능성 有
과적합 위험 증가
타겟값 정보가 들어있는 구조 파악이 어려움

차원축소기법- 주성분분석

주성분분석(Principal Component Analysis; PCA)
- 가장 대표적인 차원 축소 방법
- 첫 번째 변수가 전체 분산을 가장 많이 설명하고, 다음 변수가 나머지 분산을 가장 많이 설명하는 방식으로 변수 생성
- 새로 구성된 변수는 서로 독립(상관성이 없어서 회귀분석에 문제가 되지 않는다.)
주성분분석 시행 방법
1. 데이터 공간에서 분산이 최대인 축을 찾는다. (첫 번째 주성분: PC1)
2. 첫 번째 축과 직교하며 분산이 최대인 두 번째 축을 찾는다. (두 번째 주성분: PC2)
최적 주성분 찾기
- 전체 변동에 대한 기여도: 전체 변동의 약 90%를 설명하는 차원까지
- Scree plot 활용: 기울기가 갑자기 줄어드는 차원까지
주성분분석의 수학적 이해
- 주성분의 weight 산정방법
  - 공분산 행렬이 eigenvalue, eigenvector의 기하학적 의미
    - 가장 큰 eigenvalue = 타원 최대축의 길이의 제곱
    - 가장 작은 eigenvalue = 타원 최소축의 길이의 제곱
    - 1st eigenvector = 타원 최대축의 방향
    - k번째 eigenvector = 타원 최소축의 방향
- 최적 주성분은 몇개일까?
  1. 전체 변동에 대한 기여도 : 전체 변동 중 처음 m개의 주성분에 의해 설명되는 변동의 비율
    1. 전체 변동의 약 90%를 설명하는 차원까지 감소
    2. $$ \frac{\lambda_1 + \lambda_2 + ... \lambda_m}{\lambda_1+\lambda_2+...+\lambda_k} $$
  2. Scree plot : 기울기가 갑자기 줄어드는 차원까지 감소
요약
- 현업 데이터를 탐색해보면 연관관계 요인들(변수들)이 많음
- 상호 관련성 있는 변수들이 많으면 원데이터(raw data)보다는 데이터 변환 또는 차원 축소가 필요
- 차원축소 효과는 raw data의 정보를 보존하면서 노이즈를 제거하는 기능

3. 데이터 변환에 의한 저차원 시각화

고차원데이터의 차원축소

데이터 유형 파악
- Classification(Y: 범주형)
- Prediction(Y: 연속형)
변수 선택(feature selection) 기법
- 특정 변수를 선택하여 모델링
- 다중공선성 존재하는 변수는 그 중 하나의 변수만 선택
특징 추출(feature extraction) 기법 (차원축소)
- 새로운 축을 생성했을 때 생기는 변화
- 고차원 데이터 정보를 보존하며 노이즈를 제거하는 방식으로 특징 추출
- 비선형 기법 : Isomap, Locally-linear Embedding LLE, Neighborhood Preserving Embedding NPE

고차원데이터의 저차원 시각화

주성분분석: 선형 추출 기법
인접보존기법: 비선형 추출 기법

차원축소와 예측모형

Feature Ectraction
- 인접보존기법
- 제한적 볼츠만머신
- 오토인코더
Classifier

4. 데이터와 예측모형

데이터와 예측모형

데이터 정제 → 데이터 탐색 → 통계적 모델링(통계모형, 기계학습, 인공지능)
데이터 분석목적
- 예측(prediction) → 회귀분석, 선형모형, 비선형모형
- 분류(classification) → 의사결정나무, 서포트벡터머신, 판별분석, 로지스틱회귀모형
요약비선형추출기법, 인공지능기법에 의한 특징추출의 유용성이 많이 보고되고 있다.
에측모형의 신뢰성을 위해 충분히 훈련, 검증 데이터 반복이 필요하다.
차원축소, 특징추출 사용 : 데이터가 고차원이고 물리적 정보를 갖고 있는 경우

'Postech > Statistics' 카테고리의 다른 글

[포스코 청년 AI·Big Data] 데이터사이언스를 위한 통계학입문 8. 회귀분석을 이용한 예측모형 (0)	2023.06.27
[포스코 청년 AI·Big Data] 데이터사이언스를 위한 통계학입문 6. 현업 데이터 특성과 예측모형 (0)	2023.06.26
[포스코 청년 AI·Big Data] 데이터사이언스를 위한 통계학입문 5. 통계검정방법 (0)	2023.06.26
[포스코 청년 AI·Big Data] 데이터사이언스를 위한 통계학입문 4. 빅데이터 분석에서 확률과 분포 (1)	2023.06.13
[포스코 청년 AI·Big Data] 데이터사이언스를 위한 통계학입문 3. 데이터 시각화와 통계적 해석 (0)	2023.06.13

NABI's eunioa

[포스코 청년 AI·Big Data] 데이터사이언스를 위한 통계학입문 7. 빅데이터 차원축소와 예측모형

1. 데이터 탐색과 정제

데이터 탐색

2. 빅데이터의 차원축소

차원축소기법은 왜 필요한가

차원축소기법- 주성분분석

3. 데이터 변환에 의한 저차원 시각화

고차원데이터의 차원축소

고차원데이터의 저차원 시각화

차원축소와 예측모형

4. 데이터와 예측모형

데이터와 예측모형

'Postech > Statistics' 카테고리의 다른 글

티스토리툴바

[포스코 청년 AI·Big Data] 데이터사이언스를 위한 통계학입문 7. 빅데이터 차원축소와 예측모형

1. 데이터 탐색과 정제

데이터 탐색

2. 빅데이터의 차원축소

차원축소기법은 왜 필요한가

차원축소기법- 주성분분석

3. 데이터 변환에 의한 저차원 시각화

고차원데이터의 차원축소

고차원데이터의 저차원 시각화

차원축소와 예측모형

4. 데이터와 예측모형

데이터와 예측모형

'Postech > Statistics' 카테고리의 다른 글

관련글

티스토리툴바