본문 바로가기
Postech/Statistics

[포스코 청년 AI·Big Data] 데이터사이언스를 위한 통계학입문 3. 데이터 시각화와 통계적 해석

by 나비스 2023. 6. 13.

1. 데이터 시각화

데이터 분석단계

  • 수집 → 정제 → 시각화 → 예측모형/분석

데이터 시각화 종류

  • 인포그래픽
  • 히스토그램
  • 상자그림
  • 산점도

효과적인 데이터 시각화의 조건

  • 어떤 메시지를 전달할 것인지 결정 What
  • 핵심 내용을 제외한 나머지는 생략 What
  • 최선의 표현 방법을 선택 How
  • 단순, 명료하게 디자인 How
  • 데이터를 토대로 어떤 의사결정을 해야 하는지에 대해 설명 Why

→ 데이터 분석에 대한 전문성이 없어도 누구나 데이터를 직관적으로 이해할 수 있어야 한다.

→ 효과적으로 인사이트 도출

2. 그래프의 유용성과 오류

그래프의 유용성

  • 그래프는 데이터 시각화의 일종
  • 그래프의 올바른 해석은 데이터사이언티스트의 필수 능력이자 커뮤니케이션 도구
  • 히스토그램으로 보면,
    • 같은 분산이라도 데이터 분포를 더 잘 파악할 수 있음(skewed 정도 파악할 수 있기 때문)
    • 이상치(outlier)의 존재도 파악 가능
    • 계급 구간 설정에 따라 히스토그램 그래프가 완전히 달라짐

데이터 시각화 주의할 점

  • 그래프 목적은 데이터를 분명하게 표현하는 것
    1. 그래프 작성 시, 축의 범위와 간격 등을 잘 정해야 함
    2. 그래프를 보는 사람의 수준을 고려해야 함
    3. 그래프 종류별 장단점을 정확히 파악하고 사용해야 함

3. 상자그림이 주는 정보와 해석

출처 :  https://www.kdnuggets.com/2019/11/understanding-boxplots.html

 

상자그림이 필요한 이유?

  • 평균과 분산(기술통계치)만으로는 부족함
    • 평균, 분산을 안다고 데이터가 어느 쪽에 더 많이 분포하는지 알 수 없음
    • 이상치 존재 여부를 알 수 없음
    • 데이터 분포 범위(최대값, 최소값)를 한눈에 알기 어려움

상자그림이 주는 정보

  • 한눈에 5가지 정보를 제공
    • 중앙값, 일사분위수, 삼사분위수, 최대값, 최소값
    • 데이터 분포의 대칭성, 치우침, 이상치를 쉽게 파악할 수 있음

상자그림 그리는 방법

  1. 데이터의 중앙값(median)을 찾는다.
    • 중앙값이란?
      • n개의 관측치를 오름차순으로 배열했을 때, 중앙 위치에 놓이는 값
      • 데이터 수가 작고 이상치가 있을 때, 평균보다 더 정확한 모집단의 중심값이 됨
  2. 일사분위수(Q1)와 삼사분위수(Q3)을 찾는다.
    • 일사분위수(Q1)
      • 데이터를 크기 순서로 배열했을 때, 25% 지점 값
    • 삼사분위수(Q3)
      • 데이터를 크기 순서로 배열했을 때, 75% 지점 값
  3. 일사분위수 ~ 삼사분위수를 상자로 그린다. (사분위범위)
  4. 최소값 ~ 일사분위수, 삼사분위수 ~ 최대값을 그린다.
  5. 이상치를 표시한다.
    • 일사분위로부터 -(1.5)*사분위범위를 넘는 관측치는 이상치로 표시
    • 삼사분위로부터 +(1.5)*사분위범위를 넘는 관측치는 이상치로 표시

요약

  • 상자그림은 다섯 가지 숫자로 데이터를 요약한 그래프
    • 가운데 상자는 Q1에서 Q3까지 그림
    • 상자 안의 선은 중앙값을 나타냄
    • 상자 밖 선은 최대값과 최소값까지 이어짐
    • 상자와 수염 밖 데이터는 이상치

4. 산점도와 상관관계: 트렌드 분석

산점도 필요 이유

  • 지금까지 히스토그램, 상자그림으로 변수 1개의 데이터 분포를 살펴봄(일변량)
  • 두 변수 사이 관계를 아는 방법은?(이변량)

산점도(Scatter plot)

  • 변수 간 관계 방향, 트렌드, 강도를 알 수 있음
  • 산점도의 x축과 y축은 독립변수와 종속변수로 이루어짐
    • 독립변수(independent, explanatory): 원인 역할을 하는 변수, X
    • 종속변수(dependent, response): 결과 관측 변수, Y
    • ex. 학점 - 공부 시간
  • 산점도로부터 알 수 있는 3가지
    • 트렌드: linear, curved, clusters, no pattern
    • 방향: positie, negative, no direction
    • 강도: how closely the points fit the trend 얼마나 선형관계가 강한지

산점도 해석: 방향

  • 양의 상관관계(Positively associated)
    • 두 변수 X와 Y가 X값이 클 때 Y값도 큰 경향이 있고, X값이 작을 때 Y값도 작은 경향
  • 음의 상관관계(Negatively associated)
    • 두 변수 X와 Y가 X값이 클 때 Y값은 작은 경향이 있고, X값이 작을 때 Y값은 큰 경향

산점도 해석: 강도

  • 상관계수(Correlation, r)
    • r은 -1부터 +1까지 존재
    • +1에 가까울수록 강한 양의 상관관계
    • 1에 가까울수록 강한 음의 상관관계
    • 0은 가장 약한 상관관계(상관관계가 없음)

$$ r=\frac{1}{n-1} \sum(\frac{x-\bar{x}}{s_x})(\frac{y-\bar{y}}{s_y}) $$

  • 산점도에서 의미하는 상관관계: 선형적인 상관관계만을 말함

정리

  • 산점도는 두 변수간 관계 방향, 형태, 강도를 살펴볼 수 있는 그래프
  • 상관계수(r)는 두 변수간 선형적인 상관관계의 강도를 나타냄
  • 산점도에서 선형모형(선형함수식)을 구현할 수 있음