POSTECH의 MOOC (https://pabi.smartlearn.io/) 청년 AI, BigData 아카데미 온라인 기초과정 중
데이터사이언스를 위한 통계학입문1을 수강하고 정리한 내용입니다.
1. 데이터의 평균(중심위치)
평균
- 평균은 데이터를 하나의 값으로 표현한 요약된 정보: 추정치
- 평균 = 데이터 값의 총합 / 데이터 개수
- n개의 데이터의 평균
$$ \bar{x} = (x_1 + x_2 + ... + x_n)/n = \sum_{i=1}^{n}x_i/n $$
평균 다룰 때 주의할 점
- 평균은 혼자 존재하는 개념이 아님
-
- 표본선정에 따라 평균값에 영향을 미친다.
- ex. 대기업 평균 연봉 조사
- 표본 A: 연령대별로 각 50명씩 선정
- 표본 B: 50대에서 200명을 선정
- 조사된 평균값이 모집단을 대표하는 통계치라고 할 수 있는가?
- 표본이 적합하게 추출되었는지 평가하는 법
- 편의(bias)가 적은가: 표본으로부터 얻어지는 통계치(표본평균)의 기대값이 모수의 참값과 유사한가?
- 정확도(precision)가 높은가: 반복해서 표본 추출 시, 얼마나 유사한 값이 나오는가?평균과 표본선정
- 평균과 분산
- 같은 평균이라도 분산이 다르면 데이터 특성이 달라짐
- 평균값은 그 집단에서 가장 많이 존재하는 것이 아님(중심위치는 아닐 수도 있다는 의미)
- 데이터: 1, 2, 2, 7
- 평균: 3
데이터의 중심척도
- 평균(mean)
- 표본이 적은 경우, 아주 큰 값이나 작은 값(outlier)에 민감한 추정치
- 중앙값이 평균보다 더 적합한 중심척도인 경우도 있음
- 중앙값(median)
- n개의 관측치를 크기순으로 배열했을 때, 중앙 위치에 놓이는 값
- 데이터 수가 작고 이상치(outlier)가 있을 때, 평균보다 더 정확한 모집단의 중심값이 됨
- 최빈값(mode)
- 전체 데이터 중, 가장 빈도(frequency)가 높은 값
- 데이터 수가 많아질수록 평균과 가까워짐
2. 데이터의 분산(산포정도)
어느 집단 분산이 클까?
- 평균만 아는 사람 vs 평균과 표준편차를 아는 사람
- 평균 연봉은 같지만 편차가 큰 경우, 편차가 적은 기업에 비해 초봉이 낮고 승진 시 월급이 높아짐
분산 공식
- 데이터의 산포정도가 크다
- 데이터가 중간에 몰려있지 않고 멀리 퍼져있다
- 데이터가 중심위치로부터 멀리 퍼져있다
- 데이터의 평균과 데이터들의 차이가 크다
- 데이터 평균과 데이터간 거리 합으로 분산 계산
- 데이터:
- $$ x_1, x_2, ..., x_n $$
- 평균:
- 편차:
- 편차들의 합:
- $$ (x_1-\bar{x})+ (x_2-\bar{x})+ ...+ (x_n-\bar{x}) $$
- 분산 :
- 데이터가 평균으로부터 대칭적으로 존재할 경우, 편차들의 합이 0 → 편차를 제곱하여 더함 - 분산 = 편차들의 제곱합을 (n-1)*로 나눔 - (n-1)로 나누는 이유: 자유도와 관련, 평균값으로 표본평균을 사용하므로 1개의 자유도를 잃게 되어 (n-1)로 나눔
표준편차
- (개별데이터값 - 평균값) 차이를 제곱하여 더하였으므로 값이 커지고 단위가 달라짐→ 분산에 제곱근을 취하여 원래 단위로 복원 → 표준편차라고 부름
분산의 의미
- 분산: 데이터가 분포되어있는 정도
- 데이터에 대한 요약 정보 보완
- 평균값만으로는 데이터 상상이 어려움
- 예제 : 행복지수
- 우리나라 행복지수의 평균은157개 국 중 57위로 비교적 높은 편
- 행복지수의 표준편차(행복 불평등도)는 96위로 행복의 격차가 매우 심각한 사회로 조사됨
3. 데이터와 빅데이터
데이터란?
- 모든 숫자를 데이터라고 할 수 있을까? No
- 데이터: 구조화된 데이터
- 다차원 배열(매트릭스)
- 각 열의 형식이 다른 표 or 스프레드시트
- 탭이나 텍스트파일 형식으로 저장(txt, csv)
데이터화(Datafication)
- 기계가 읽어들일 수 있는 모든 것(숫자, 이미지, 텍스트)을 데이터로 변환하는 것
- 개인의 활동을 실시간으로 추적해 이를 예측분석이 가능한 수량화된 온라인 데이터로 변환하는 것을 의미
빅데이터란
- Volume(양) 많은 양의 데이터
- Velocity(속도) 빠르게 생성
- Variety(다양성) 다양한 형태의 데이터
빅데이터 활용 사례
- 아마존 추천 상품
- 모든 고객들의 구매 내역을 데이터베이스에 기록
- 분석으로 소비자의 취향과 관심사를 파악
- 고객 별로 추천 상품 recommendation을 표시
- MLB 머니볼이론
- 머니볼 이론 : 경기 데이터를 분석해 데이터를 기반으로 선수들을 배정하여 승률을 높인다는 게임 이론
- 최하위 팀을 4년 연속 포스트시즌에 진출시키고 메이저리그 최초로 20연승
4. 데이터 탐색의 첫걸음
통계치로 인사이트 얻기
- ㅇㅇ회사 공채에 합격하기 위해 합격자 평균 분석(스펙 분석)
- 사람들이 선호하는 기업 문화 알아보기(연봉, 복리후생 등)
최적의 의사결정: 데이터탐색
- 공정에 대한 평균, 산포, 불량률 추정
- 품질 변동상황을 관리도(control chart)로 표현
- 공정에 발생하는 이상요인을 빨리 탐지하여 수정조치 → 불량 사전 예방
- 공정에서 정상범위 관리도 차트 : 정상일 때는 관리도 차트 내부에, 이상이 있을 때 벗어남 → 알람기능(공정 관리자의 조정)
- 중심선, 관리상한선(UCL), 관리하한선(LCL)을 어떻게 정할 것인가?
- 관리상한선
- $$ \bar{\bar{x}} +z\sigma_{\bar{x}} $$
- 관리하한선
- $$ \bar{\bar{x}} -z\sigma_{\bar{x}} $$
숨겨진 패턴 분석: 분류
- 암과 정상 뇌 영상을 숫자화(데이터화)함
- 분류(암/정상)를 가장 잘 구분하는 변수를 찾고, 범주간 차이를 가장 잘 표현하는 새로운 함수를 구함
- 새로운 환자 영상을 보고 어느 범주에 더 가까운지를 판별하여 암 여부를 진단
- 각 경상은 p개의 변수들로 이루어지며, 범주1(암) 또는 범주2(정상) 중 하나에 속함
- 변수들의 선형조합으로 새로운 변수 z를 형성 후 이를 바탕으로 분류규칙을 만듬 (판별분석)
$$ Z=w_1X_1 + w_2X_2 + ... +w_pX_p = w^tx $$
- 두 범주가 잘 분류된다는 것: 두 범주가 겹치지 않으면서 두 범주 중심위치가 가능한 먼 것
- 범주간의 z의 람다 값이 최대화되는 w값을 찾는 것이 목적
트렌드 분석: 웹 마이닝
- 1년간 검색어 트렌드 분석 : 롱패딩 vs 숏패딩
- Weighted Moving Average를 통한 트렌드 파악 : 과거 트렌드를 반영하되 먼 과거의 데이터보다 가까운 시점의 데이터를 더 중요시함
$$ WMA = \frac{\sum((Weight_n)(Demand _ n))}{\sum Weights} $$
요약
- 제대로 된 데이터가 있다면
- 통계치를 도출하여 대상에 대한 인사이트를 얻을 수 있다.
- 미래 데이터를 예측하여 의사결정을 할 수 있다.
- 통계적 개념을 바탕으로 유용한 차트를 만들어낼 수 있다.
- 분류 분석, 트렌드 분석 등에 활용할 수 있다.
'Postech > Statistics' 카테고리의 다른 글
[포스코 청년 AI·Big Data] 데이터사이언스를 위한 통계학입문 6. 현업 데이터 특성과 예측모형 (0) | 2023.06.26 |
---|---|
[포스코 청년 AI·Big Data] 데이터사이언스를 위한 통계학입문 5. 통계검정방법 (0) | 2023.06.26 |
[포스코 청년 AI·Big Data] 데이터사이언스를 위한 통계학입문 4. 빅데이터 분석에서 확률과 분포 (1) | 2023.06.13 |
[포스코 청년 AI·Big Data] 데이터사이언스를 위한 통계학입문 3. 데이터 시각화와 통계적 해석 (0) | 2023.06.13 |
[포스코 청년 AI·Big Data] 데이터사이언스를 위한 통계학입문 1. 데이터과학과 통계 (0) | 2023.06.12 |