본문 바로가기
Postech/Statistics

[포스코 청년 AI·Big Data] 데이터사이언스를 위한 통계학입문 2. 빅데이터 탐색의 첫걸음

by 나비스 2023. 6. 12.

POSTECH의 MOOC (https://pabi.smartlearn.io/ 청년 AI, BigData 아카데미 온라인 기초과정 중

데이터사이언스를 위한 통계학입문1을 수강하고 정리한 내용입니다.

1. 데이터의 평균(중심위치)

평균

  • 평균은 데이터를 하나의 값으로 표현한 요약된 정보: 추정치
  • 평균 = 데이터 값의 총합 / 데이터 개수
  • n개의 데이터의 평균

$$ \bar{x} = (x_1 + x_2 + ... + x_n)/n = \sum_{i=1}^{n}x_i/n $$

평균 다룰 때 주의할 점

  • 평균은 혼자 존재하는 개념이 아님
    • 표본선정에 따라 평균값에 영향을 미친다.
    • ex. 대기업 평균 연봉 조사
      • 표본 A: 연령대별로 각 50명씩 선정
      • 표본 B: 50대에서 200명을 선정
    • 조사된 평균값이 모집단을 대표하는 통계치라고 할 수 있는가?
    • 표본이 적합하게 추출되었는지 평가하는 법
    • 편의(bias)가 적은가: 표본으로부터 얻어지는 통계치(표본평균)의 기대값이 모수의 참값과 유사한가?
    • 정확도(precision)가 높은가: 반복해서 표본 추출 시, 얼마나 유사한 값이 나오는가?평균과 표본선정
  1. 평균과 분산
    • 같은 평균이라도 분산이 다르면 데이터 특성이 달라짐
  2. 평균값은 그 집단에서 가장 많이 존재하는 것이 아님(중심위치는 아닐 수도 있다는 의미)
    • 데이터: 1, 2, 2, 7
    • 평균: 3

출처 :  https://wiki.socr.umich.edu/index.php/SMHS_BiasPrecision

데이터의 중심척도

  • 평균(mean)
    • 표본이 적은 경우, 아주 큰 값이나 작은 값(outlier)에 민감한 추정치
    • 중앙값이 평균보다 더 적합한 중심척도인 경우도 있음
  • 중앙값(median)
    • n개의 관측치를 크기순으로 배열했을 때, 중앙 위치에 놓이는 값
    • 데이터 수가 작고 이상치(outlier)가 있을 때, 평균보다 더 정확한 모집단의 중심값이 됨
  • 최빈값(mode)
    • 전체 데이터 중, 가장 빈도(frequency)가 높은 값
    • 데이터 수가 많아질수록 평균과 가까워짐

2. 데이터의 분산(산포정도)

어느 집단 분산이 클까?

  • 평균만 아는 사람 vs 평균과 표준편차를 아는 사람
  • 평균 연봉은 같지만 편차가 큰 경우, 편차가 적은 기업에 비해 초봉이 낮고 승진 시 월급이 높아짐

분산 공식

  • 데이터의 산포정도가 크다
    • 데이터가 중간에 몰려있지 않고 멀리 퍼져있다
    • 데이터가 중심위치로부터 멀리 퍼져있다
    • 데이터의 평균과 데이터들의 차이가 크다
  • 데이터 평균과 데이터간 거리 합으로 분산 계산
    • 데이터:
    • $$ x_1, x_2, ..., x_n $$
    • 평균:
    $$ \bar{x} $$
    • 편차:
    $$ (x_1-\bar{x}), (x_2-\bar{x}), ..., (x_n-\bar{x}) $$
    • 편차들의 합:
    • $$ (x_1-\bar{x})+ (x_2-\bar{x})+ ...+ (x_n-\bar{x}) $$
    • 분산 :
    $$ \frac{(x_1-\bar{x})^2+ (x_2-\bar{x})^2+ ...+ (x_n-\bar{x})^2}{n-1} $$
  • 데이터가 평균으로부터 대칭적으로 존재할 경우, 편차들의 합이 0 → 편차를 제곱하여 더함 - 분산 = 편차들의 제곱합을 (n-1)*로 나눔 - (n-1)로 나누는 이유: 자유도와 관련, 평균값으로 표본평균을 사용하므로 1개의 자유도를 잃게 되어 (n-1)로 나눔

표준편차

  • (개별데이터값 - 평균값) 차이를 제곱하여 더하였으므로 값이 커지고 단위가 달라짐→ 분산에 제곱근을 취하여 원래 단위로 복원 → 표준편차라고 부름

분산의 의미

  • 분산: 데이터가 분포되어있는 정도
    • 데이터에 대한 요약 정보 보완
    • 평균값만으로는 데이터 상상이 어려움
  • 예제 : 행복지수
    • 우리나라 행복지수의 평균은157개 국 중 57위로 비교적 높은 편
    • 행복지수의 표준편차(행복 불평등도)는 96위로 행복의 격차가 매우 심각한 사회로 조사됨

3. 데이터와 빅데이터

데이터란?

  • 모든 숫자를 데이터라고 할 수 있을까? No
  • 데이터: 구조화된 데이터
    • 다차원 배열(매트릭스)
    • 각 열의 형식이 다른 표 or 스프레드시트
    • 탭이나 텍스트파일 형식으로 저장(txt, csv)

데이터화(Datafication)

  • 기계가 읽어들일 수 있는 모든 것(숫자, 이미지, 텍스트)을 데이터로 변환하는 것
  • 개인의 활동을 실시간으로 추적해 이를 예측분석이 가능한 수량화된 온라인 데이터로 변환하는 것을 의미

빅데이터란

  • Volume(양) 많은 양의 데이터
  • Velocity(속도) 빠르게 생성
  • Variety(다양성) 다양한 형태의 데이터

빅데이터 활용 사례

  • 아마존 추천 상품
    • 모든 고객들의 구매 내역을 데이터베이스에 기록
    • 분석으로 소비자의 취향과 관심사를 파악
    • 고객 별로 추천 상품 recommendation을 표시
  • MLB 머니볼이론
    • 머니볼 이론 : 경기 데이터를 분석해 데이터를 기반으로 선수들을 배정하여 승률을 높인다는 게임 이론
    • 최하위 팀을 4년 연속 포스트시즌에 진출시키고 메이저리그 최초로 20연승

4. 데이터 탐색의 첫걸음

통계치로 인사이트 얻기

  • ㅇㅇ회사 공채에 합격하기 위해 합격자 평균 분석(스펙 분석)
  • 사람들이 선호하는 기업 문화 알아보기(연봉, 복리후생 등)

최적의 의사결정: 데이터탐색

  • 공정에 대한 평균, 산포, 불량률 추정
    • 품질 변동상황을 관리도(control chart)로 표현
    • 공정에 발생하는 이상요인을 빨리 탐지하여 수정조치 → 불량 사전 예방
    • 공정에서 정상범위 관리도 차트 : 정상일 때는 관리도 차트 내부에, 이상이 있을 때 벗어남 → 알람기능(공정 관리자의 조정)
    • 중심선, 관리상한선(UCL), 관리하한선(LCL)을 어떻게 정할 것인가?
      • 관리상한선
      • $$ \bar{\bar{x}} +z\sigma_{\bar{x}} $$
      • 관리하한선
      • $$ \bar{\bar{x}} -z\sigma_{\bar{x}} $$

숨겨진 패턴 분석: 분류

  • 암과 정상 뇌 영상을 숫자화(데이터화)함
    • 분류(암/정상)를 가장 잘 구분하는 변수를 찾고, 범주간 차이를 가장 잘 표현하는 새로운 함수를 구함
    • 새로운 환자 영상을 보고 어느 범주에 더 가까운지를 판별하여 암 여부를 진단
  • 각 경상은 p개의 변수들로 이루어지며, 범주1(암) 또는 범주2(정상) 중 하나에 속함
  • 변수들의 선형조합으로 새로운 변수 z를 형성 후 이를 바탕으로 분류규칙을 만듬 (판별분석)

$$ Z=w_1X_1 + w_2X_2 + ... +w_pX_p = w^tx $$

  • 두 범주가 잘 분류된다는 것: 두 범주가 겹치지 않으면서 두 범주 중심위치가 가능한 먼 것
    • 범주간의 z의 람다 값이 최대화되는 w값을 찾는 것이 목적
    $$ \lambda = \frac{범주간의 Z의 평균차이} {Z의 분산} $$

트렌드 분석: 웹 마이닝

  • 1년간 검색어 트렌드 분석 : 롱패딩 vs 숏패딩
  • Weighted Moving Average를 통한 트렌드 파악 : 과거 트렌드를 반영하되 먼 과거의 데이터보다 가까운 시점의 데이터를 더 중요시함

$$ WMA = \frac{\sum((Weight_n)(Demand _ n))}{\sum Weights} $$

요약

  • 제대로 된 데이터가 있다면
    • 통계치를 도출하여 대상에 대한 인사이트를 얻을 수 있다.
    • 미래 데이터를 예측하여 의사결정을 할 수 있다.
    • 통계적 개념을 바탕으로 유용한 차트를 만들어낼 수 있다.
    • 분류 분석, 트렌드 분석 등에 활용할 수 있다.