POSTECH의 MOOC (https://pabi.smartlearn.io/) 청년 AI, BigData 아카데미 온라인 기초과정 중
데이터사이언스를 위한 통계학입문2를 수강하고 정리한 내용입니다.
1. 데이터 탐색과 정제
데이터 탐색
- Basic Information: 분포, 평균, 최솟값, 최댓값, 분산 등
- Variation: 변동성, 시계열
- Outlier: 모든 데이터가 상식적인 범위 안에 존재하는가? → 이유를 찾아 분석에서 제외 (한 개의 데이터가 전체의 상관계수를 완전히 바꿀 수 있음)
- Correlation: 변수 간 상관성, 변수 간 상호작용이 있는가?
→ 데이터 탐색을 통해 데이터의 특성을 이해하고 적절하게 정제함으로써 정확한 예측모형을 만들 수 있다.
2. 빅데이터의 차원축소
차원축소기법은 왜 필요한가
- 현업 데이터의 특성 : 타겟변수 특성에 영향을 미치는 요인(x변수)이 매우 많음
- 변수 간 다중공선성(높은 상관관계, 상호작용) → y변화에 대한 영향이 상쇄되거나 마스킹 될 가능성 有
- 과적합 위험 증가
- 타겟값 정보가 들어있는 구조 파악이 어려움
차원축소기법- 주성분분석
- 주성분분석(Principal Component Analysis; PCA)
- 가장 대표적인 차원 축소 방법
- 첫 번째 변수가 전체 분산을 가장 많이 설명하고, 다음 변수가 나머지 분산을 가장 많이 설명하는 방식으로 변수 생성
- 새로 구성된 변수는 서로 독립(상관성이 없어서 회귀분석에 문제가 되지 않는다.)
- 주성분분석 시행 방법
- 데이터 공간에서 분산이 최대인 축을 찾는다. (첫 번째 주성분: PC1)
- 첫 번째 축과 직교하며 분산이 최대인 두 번째 축을 찾는다. (두 번째 주성분: PC2)
- 최적 주성분 찾기
- 전체 변동에 대한 기여도: 전체 변동의 약 90%를 설명하는 차원까지
- Scree plot 활용: 기울기가 갑자기 줄어드는 차원까지
- 주성분분석의 수학적 이해
- 주성분의 weight 산정방법
- 공분산 행렬이 eigenvalue, eigenvector의 기하학적 의미
- 가장 큰 eigenvalue = 타원 최대축의 길이의 제곱
- 가장 작은 eigenvalue = 타원 최소축의 길이의 제곱
- 1st eigenvector = 타원 최대축의 방향
- k번째 eigenvector = 타원 최소축의 방향
- 공분산 행렬이 eigenvalue, eigenvector의 기하학적 의미
- 최적 주성분은 몇개일까?
- 전체 변동에 대한 기여도 : 전체 변동 중 처음 m개의 주성분에 의해 설명되는 변동의 비율
- 전체 변동의 약 90%를 설명하는 차원까지 감소
- $$ \frac{\lambda_1 + \lambda_2 + ... \lambda_m}{\lambda_1+\lambda_2+...+\lambda_k} $$
- Scree plot : 기울기가 갑자기 줄어드는 차원까지 감소
- 전체 변동에 대한 기여도 : 전체 변동 중 처음 m개의 주성분에 의해 설명되는 변동의 비율
- 현업 데이터를 탐색해보면 연관관계 요인들(변수들)이 많음
- 상호 관련성 있는 변수들이 많으면 원데이터(raw data)보다는 데이터 변환 또는 차원 축소가 필요
- 차원축소 효과는 raw data의 정보를 보존하면서 노이즈를 제거하는 기능
- 주성분의 weight 산정방법
3. 데이터 변환에 의한 저차원 시각화
고차원데이터의 차원축소
- 데이터 유형 파악
- Classification(Y: 범주형)
- Prediction(Y: 연속형)
- 변수 선택(feature selection) 기법
- 특정 변수를 선택하여 모델링
- 다중공선성 존재하는 변수는 그 중 하나의 변수만 선택
- 특징 추출(feature extraction) 기법 (차원축소)
- 새로운 축을 생성했을 때 생기는 변화
- 고차원 데이터 정보를 보존하며 노이즈를 제거하는 방식으로 특징 추출
- 비선형 기법 : Isomap, Locally-linear Embedding LLE, Neighborhood Preserving Embedding NPE
고차원데이터의 저차원 시각화
- 주성분분석: 선형 추출 기법
- 인접보존기법: 비선형 추출 기법
차원축소와 예측모형
- Feature Ectraction
- 인접보존기법
- 제한적 볼츠만머신
- 오토인코더
- Classifier
4. 데이터와 예측모형
데이터와 예측모형
- 데이터 정제 → 데이터 탐색 → 통계적 모델링(통계모형, 기계학습, 인공지능)
- 데이터 분석목적
- 예측(prediction) → 회귀분석, 선형모형, 비선형모형
- 분류(classification) → 의사결정나무, 서포트벡터머신, 판별분석, 로지스틱회귀모형
- 에측모형의 신뢰성을 위해 충분히 훈련, 검증 데이터 반복이 필요하다.
- 차원축소, 특징추출 사용 : 데이터가 고차원이고 물리적 정보를 갖고 있는 경우
'Postech > Statistics' 카테고리의 다른 글
[포스코 청년 AI·Big Data] 데이터사이언스를 위한 통계학입문 8. 회귀분석을 이용한 예측모형 (0) | 2023.06.27 |
---|---|
[포스코 청년 AI·Big Data] 데이터사이언스를 위한 통계학입문 6. 현업 데이터 특성과 예측모형 (0) | 2023.06.26 |
[포스코 청년 AI·Big Data] 데이터사이언스를 위한 통계학입문 5. 통계검정방법 (0) | 2023.06.26 |
[포스코 청년 AI·Big Data] 데이터사이언스를 위한 통계학입문 4. 빅데이터 분석에서 확률과 분포 (1) | 2023.06.13 |
[포스코 청년 AI·Big Data] 데이터사이언스를 위한 통계학입문 3. 데이터 시각화와 통계적 해석 (0) | 2023.06.13 |