본문 바로가기
Postech/Statistics

[포스코 청년 AI·Big Data] 데이터사이언스를 위한 통계학입문 6. 현업 데이터 특성과 예측모형

by 나비스 2023. 6. 26.

POSTECH의 MOOC (https://pabi.smartlearn.io/ 청년 AI, BigData 아카데미 온라인 기초과정 중

데이터사이언스를 위한 통계학입문2를 수강하고 정리한 내용입니다.

 

1. 데이터 수집- random의 의미

데이터 수집

  • 데이터 수집에서는 양질의 데이터(대표성, 랜덤)를 확보하는 것이 중요
    • 나쁜 데이터로는 나쁜 모델밖에 만들 수 없음
    • 많이 있다고 해서 무조건 좋은 것은 아님
  • 예제 : 스마트공정
    • 분석용 데이터와 현장 데이터의 차이
      • 측정 혹은 조업조건 차이
      • 측정의 재현성 : 반복측정의 편차

표본추출

  • 좋은 표본: 모집단의 특성을 가능한 정확하게 반영한 표본
  • 표본추출에서 가장 중요한 문제는 대표성 있는 표본을 확보하는 것

전수조사 vs 표본조사

  • 전수조사: 연구대상집단의 모든 데이터 수집
  • 표본조사: 연구대상집단 일부 데이터 추출
    • 전수조사 불가능한 경우 존재
    • 비용과 시간의 절약
    • 전수조사 시 비표본 오류 가능성 증가

랜덤의 의미

  • 무작위 추출(Random sampling)
    • 모집단에서 표본을 뽑을 때 각 개체가 선택될 확률은 동일
    • 무작위로 추출된 표본은 편의가 최대한 배제됨

군집표본추출 vs 층화표본추출

  • 군집표본추출(cluster sampling)
    • 각 군집(cluster)이 동일한 특성을 갖고 있다면, 그 중 무작위로 cluster 선택
      • e.g. 학급, ##구, ##동
  • 층화표본추출(stratified sampling)
    • 모집단 내 하위집단 특성이 다를 때, 하위집단을 기반으로 표본 선택
      • e.g. 정치적 의견(연령별, 지역별)

복원추출 vs 비복원추출

  • 복원추출: 표본추출 시 뽑은 표본의 데이터를 다시 넣고 추출
  • 비복원추출: 표본추출 시 추출된 표본을 제외하고 다음 추출

요약 : 데이터사이언스에서 유용한 데이터추출

관심대상인 모든 데이터를 사용하는 것은 실제로 불가능

모집단의 특성을 대표할 수 있는 분석용 데이터가 중요

2. 예측모형에서 training과 test set

예측모형을 구현할 때

  • e.g. 영화 추천, 음악 추천 : 추천시스템 알고리즘
  • 어떻게 원하는 콘텐츠를 예측하여 추천하는가?
    • 과거 구매패턴을 분석하여 미래 구매를 예측(추천)
      • 과거 데이터 → 분석 → 예측 모형 → 예측
  • 주어진 데이터 → 예측모형
    • 모형이 적절한지 어떻게 판단하는가?

예측모형: 좋은 예측모형

  • 좋은 예측모형이란 = 새로운 데이터가 들어왔을 때 정확하게 예측하는 모형
  • 주어진 데이터 : DB에 저장되어 있는 데이터를 훈련, 검증 데이터로 나눈다.(데이터에 따라 80/20, 70/30 비율로)
    • 훈련데이터(Training set): 모형을 만들기 위해 사용
    • 검증데이터(Test set): 만들어진 모형 성능 평가에 사용
  • 데이터를 나누는 방법 : k-fold cross-validation (k=3, 5, 10) 교차타당성
    • 주어진 데이터를 몇 개로 나눌 것인지
    • k-1/k는 훈련데이터로, 1/k는 검증데이터로 사용
    • 데이터 나누는 것은 random split으로

출처 : https://www.researchgate.net/figure/Diagram-of-the-5-fold-cross-validation-method-blocks-in-blue-represent-the-testing-folds_fig1_337447405

 

3. 예측모형의 과적합(overfitting)

예측모형의 과적합

  • 과적합(overfitting): 주어진 데이터에 과하게 적합하여, 새로운 데이터가 들어왔을 때 정확도를 보장할 수 없는 경우
    • 훈련 데이터에는 잘 맞지만 새로운 데이터에는 잘 맞지 않는 모형
    • 적정한 수준의 예측모형 : 잠재변수 수에 따른 훈련데이터와 검증데이터 오차간 차이가 최소를 보여주는 그래프를 통해 잠재변수 수를 결정
  • 과소적합(Under-fitted)
  • 적정적합(Generalized-fitted)
  • 과잉적합(Over-fitted)

요약

과적합을 주의하여 안정성있는 예측모형 개발 : training set, test set 기반한 예측 모형 구현과 평가가 필요하다.

4. over & under sampling 문제

데이터 기반 예측 모형

  • 데이터를 기반으로 모델을 생성하여 새로운 데이터 예측 가능

데이터 불균형 문제

  • 집단 간 데이터 비율 차이가 크면 다수 집단의 정확도를 기준으로 예측모형이 결정될 수 있음
    • e.g. 보험 사기 건 수
    • 전체 데이터 25개 중, 범주 1인 22개만 정확히 분류하고 범주 2인 3개는 모두 오분류된다고 해도 전체 정확도는 88%로 높음
  • 분류예측모형에서 특정 범주의 집단이 매우 소수인 경우 : 전체정확도 기준 이외 소수집단의 오분류율에 위험비용을 주고 최적 모형이 바람직

데이터 균형 맞추기

  • Over-sampling: 소수범주에서 다수범주 수만큼 복원 반복추출
    • 장) 정보 손실 없음
    • 단) 소수 데이터가 단순 복사되어 과적합 가능성 있음
  • Under-sampling: 다수범주에서 소수범주 수만큼 랜덤하게 추출(데이터를 제거)
    • 장) 데이터 저장 용량 감소, 데이터가 적어 실행 속도 향상
    • 단) 중요 정보 누락될 가능성 있음

→ 혼합형 방식의 sampling 사용

요약

데이터 불균형은 성능이 낮은 예측모델 가능성을 가진다.

소수 범주의 분류를 예측하지 못했을 때 위험비용이 발생할 수 있다.

따라서 hybrid sampling을 통해 데이터 불균형 문제를 해결하자!