POSTECH의 MOOC (https://pabi.smartlearn.io/) 청년 AI, BigData 아카데미 온라인 기초과정 중
데이터사이언스를 위한 통계학입문2를 수강하고 정리한 내용입니다.
1. 데이터 수집- random의 의미
데이터 수집
- 데이터 수집에서는 양질의 데이터(대표성, 랜덤)를 확보하는 것이 중요
- 나쁜 데이터로는 나쁜 모델밖에 만들 수 없음
- 많이 있다고 해서 무조건 좋은 것은 아님
- 예제 : 스마트공정
- 분석용 데이터와 현장 데이터의 차이
- 측정 혹은 조업조건 차이
- 측정의 재현성 : 반복측정의 편차
- 분석용 데이터와 현장 데이터의 차이
표본추출
- 좋은 표본: 모집단의 특성을 가능한 정확하게 반영한 표본
- 표본추출에서 가장 중요한 문제는 대표성 있는 표본을 확보하는 것
전수조사 vs 표본조사
- 전수조사: 연구대상집단의 모든 데이터 수집
- 표본조사: 연구대상집단 일부 데이터 추출
- 전수조사 불가능한 경우 존재
- 비용과 시간의 절약
- 전수조사 시 비표본 오류 가능성 증가
랜덤의 의미
- 무작위 추출(Random sampling)
- 모집단에서 표본을 뽑을 때 각 개체가 선택될 확률은 동일
- 무작위로 추출된 표본은 편의가 최대한 배제됨
군집표본추출 vs 층화표본추출
- 군집표본추출(cluster sampling)
- 각 군집(cluster)이 동일한 특성을 갖고 있다면, 그 중 무작위로 cluster 선택
- e.g. 학급, ##구, ##동
- 각 군집(cluster)이 동일한 특성을 갖고 있다면, 그 중 무작위로 cluster 선택
- 층화표본추출(stratified sampling)
- 모집단 내 하위집단 특성이 다를 때, 하위집단을 기반으로 표본 선택
- e.g. 정치적 의견(연령별, 지역별)
- 모집단 내 하위집단 특성이 다를 때, 하위집단을 기반으로 표본 선택
복원추출 vs 비복원추출
- 복원추출: 표본추출 시 뽑은 표본의 데이터를 다시 넣고 추출
- 비복원추출: 표본추출 시 추출된 표본을 제외하고 다음 추출
요약 : 데이터사이언스에서 유용한 데이터추출
관심대상인 모든 데이터를 사용하는 것은 실제로 불가능
모집단의 특성을 대표할 수 있는 분석용 데이터가 중요
2. 예측모형에서 training과 test set
예측모형을 구현할 때
- e.g. 영화 추천, 음악 추천 : 추천시스템 알고리즘
- 어떻게 원하는 콘텐츠를 예측하여 추천하는가?
- 과거 구매패턴을 분석하여 미래 구매를 예측(추천)
- 과거 데이터 → 분석 → 예측 모형 → 예측
- 과거 구매패턴을 분석하여 미래 구매를 예측(추천)
- 주어진 데이터 → 예측모형
- 모형이 적절한지 어떻게 판단하는가?
예측모형: 좋은 예측모형
- 좋은 예측모형이란 = 새로운 데이터가 들어왔을 때 정확하게 예측하는 모형
- 주어진 데이터 : DB에 저장되어 있는 데이터를 훈련, 검증 데이터로 나눈다.(데이터에 따라 80/20, 70/30 비율로)
- 훈련데이터(Training set): 모형을 만들기 위해 사용
- 검증데이터(Test set): 만들어진 모형 성능 평가에 사용
- 데이터를 나누는 방법 : k-fold cross-validation (k=3, 5, 10) 교차타당성
- 주어진 데이터를 몇 개로 나눌 것인지
- k-1/k는 훈련데이터로, 1/k는 검증데이터로 사용
- 데이터 나누는 것은 random split으로
3. 예측모형의 과적합(overfitting)
예측모형의 과적합
- 과적합(overfitting): 주어진 데이터에 과하게 적합하여, 새로운 데이터가 들어왔을 때 정확도를 보장할 수 없는 경우
- 훈련 데이터에는 잘 맞지만 새로운 데이터에는 잘 맞지 않는 모형
- 적정한 수준의 예측모형 : 잠재변수 수에 따른 훈련데이터와 검증데이터 오차간 차이가 최소를 보여주는 그래프를 통해 잠재변수 수를 결정
- 과소적합(Under-fitted)
- 적정적합(Generalized-fitted)
- 과잉적합(Over-fitted)
요약
과적합을 주의하여 안정성있는 예측모형 개발 : training set, test set 기반한 예측 모형 구현과 평가가 필요하다.
4. over & under sampling 문제
데이터 기반 예측 모형
- 데이터를 기반으로 모델을 생성하여 새로운 데이터 예측 가능
데이터 불균형 문제
- 집단 간 데이터 비율 차이가 크면 다수 집단의 정확도를 기준으로 예측모형이 결정될 수 있음
- e.g. 보험 사기 건 수
- 전체 데이터 25개 중, 범주 1인 22개만 정확히 분류하고 범주 2인 3개는 모두 오분류된다고 해도 전체 정확도는 88%로 높음
- 분류예측모형에서 특정 범주의 집단이 매우 소수인 경우 : 전체정확도 기준 이외 소수집단의 오분류율에 위험비용을 주고 최적 모형이 바람직
데이터 균형 맞추기
- Over-sampling: 소수범주에서 다수범주 수만큼 복원 반복추출
- 장) 정보 손실 없음
- 단) 소수 데이터가 단순 복사되어 과적합 가능성 있음
- Under-sampling: 다수범주에서 소수범주 수만큼 랜덤하게 추출(데이터를 제거)
- 장) 데이터 저장 용량 감소, 데이터가 적어 실행 속도 향상
- 단) 중요 정보 누락될 가능성 있음
→ 혼합형 방식의 sampling 사용
요약
데이터 불균형은 성능이 낮은 예측모델 가능성을 가진다.
소수 범주의 분류를 예측하지 못했을 때 위험비용이 발생할 수 있다.
따라서 hybrid sampling을 통해 데이터 불균형 문제를 해결하자!
'Postech > Statistics' 카테고리의 다른 글
[포스코 청년 AI·Big Data] 데이터사이언스를 위한 통계학입문 8. 회귀분석을 이용한 예측모형 (0) | 2023.06.27 |
---|---|
[포스코 청년 AI·Big Data] 데이터사이언스를 위한 통계학입문 7. 빅데이터 차원축소와 예측모형 (0) | 2023.06.27 |
[포스코 청년 AI·Big Data] 데이터사이언스를 위한 통계학입문 5. 통계검정방법 (0) | 2023.06.26 |
[포스코 청년 AI·Big Data] 데이터사이언스를 위한 통계학입문 4. 빅데이터 분석에서 확률과 분포 (1) | 2023.06.13 |
[포스코 청년 AI·Big Data] 데이터사이언스를 위한 통계학입문 3. 데이터 시각화와 통계적 해석 (0) | 2023.06.13 |