1. 데이터 시각화
데이터 분석단계
- 수집 → 정제 → 시각화 → 예측모형/분석
데이터 시각화 종류
- 인포그래픽
- 히스토그램
- 상자그림
- 산점도
효과적인 데이터 시각화의 조건
- 어떤 메시지를 전달할 것인지 결정 What
- 핵심 내용을 제외한 나머지는 생략 What
- 최선의 표현 방법을 선택 How
- 단순, 명료하게 디자인 How
- 데이터를 토대로 어떤 의사결정을 해야 하는지에 대해 설명 Why
→ 데이터 분석에 대한 전문성이 없어도 누구나 데이터를 직관적으로 이해할 수 있어야 한다.
→ 효과적으로 인사이트 도출
2. 그래프의 유용성과 오류
그래프의 유용성
- 그래프는 데이터 시각화의 일종
- 그래프의 올바른 해석은 데이터사이언티스트의 필수 능력이자 커뮤니케이션 도구
- 히스토그램으로 보면,
- 같은 분산이라도 데이터 분포를 더 잘 파악할 수 있음(skewed 정도 파악할 수 있기 때문)
- 이상치(outlier)의 존재도 파악 가능
- 계급 구간 설정에 따라 히스토그램 그래프가 완전히 달라짐
데이터 시각화 주의할 점
- 그래프 목적은 데이터를 분명하게 표현하는 것
- 그래프 작성 시, 축의 범위와 간격 등을 잘 정해야 함
- 그래프를 보는 사람의 수준을 고려해야 함
- 그래프 종류별 장단점을 정확히 파악하고 사용해야 함
3. 상자그림이 주는 정보와 해석
상자그림이 필요한 이유?
- 평균과 분산(기술통계치)만으로는 부족함
- 평균, 분산을 안다고 데이터가 어느 쪽에 더 많이 분포하는지 알 수 없음
- 이상치 존재 여부를 알 수 없음
- 데이터 분포 범위(최대값, 최소값)를 한눈에 알기 어려움
상자그림이 주는 정보
- 한눈에 5가지 정보를 제공
- 중앙값, 일사분위수, 삼사분위수, 최대값, 최소값
- 데이터 분포의 대칭성, 치우침, 이상치를 쉽게 파악할 수 있음
상자그림 그리는 방법
- 데이터의 중앙값(median)을 찾는다.
- 중앙값이란?
- n개의 관측치를 오름차순으로 배열했을 때, 중앙 위치에 놓이는 값
- 데이터 수가 작고 이상치가 있을 때, 평균보다 더 정확한 모집단의 중심값이 됨
- 중앙값이란?
- 일사분위수(Q1)와 삼사분위수(Q3)을 찾는다.
- 일사분위수(Q1)
- 데이터를 크기 순서로 배열했을 때, 25% 지점 값
- 삼사분위수(Q3)
- 데이터를 크기 순서로 배열했을 때, 75% 지점 값
- 일사분위수(Q1)
- 일사분위수 ~ 삼사분위수를 상자로 그린다. (사분위범위)
- 최소값 ~ 일사분위수, 삼사분위수 ~ 최대값을 그린다.
- 이상치를 표시한다.
- 일사분위로부터 -(1.5)*사분위범위를 넘는 관측치는 이상치로 표시
- 삼사분위로부터 +(1.5)*사분위범위를 넘는 관측치는 이상치로 표시
요약
- 상자그림은 다섯 가지 숫자로 데이터를 요약한 그래프
- 가운데 상자는 Q1에서 Q3까지 그림
- 상자 안의 선은 중앙값을 나타냄
- 상자 밖 선은 최대값과 최소값까지 이어짐
- 상자와 수염 밖 데이터는 이상치
4. 산점도와 상관관계: 트렌드 분석
산점도 필요 이유
- 지금까지 히스토그램, 상자그림으로 변수 1개의 데이터 분포를 살펴봄(일변량)
- 두 변수 사이 관계를 아는 방법은?(이변량)
산점도(Scatter plot)
- 변수 간 관계 방향, 트렌드, 강도를 알 수 있음
- 산점도의 x축과 y축은 독립변수와 종속변수로 이루어짐
- 독립변수(independent, explanatory): 원인 역할을 하는 변수, X
- 종속변수(dependent, response): 결과 관측 변수, Y
- ex. 학점 - 공부 시간
- 산점도로부터 알 수 있는 3가지
- 트렌드: linear, curved, clusters, no pattern
- 방향: positie, negative, no direction
- 강도: how closely the points fit the trend 얼마나 선형관계가 강한지
산점도 해석: 방향
- 양의 상관관계(Positively associated)
- 두 변수 X와 Y가 X값이 클 때 Y값도 큰 경향이 있고, X값이 작을 때 Y값도 작은 경향
- 음의 상관관계(Negatively associated)
- 두 변수 X와 Y가 X값이 클 때 Y값은 작은 경향이 있고, X값이 작을 때 Y값은 큰 경향
산점도 해석: 강도
- 상관계수(Correlation, r)
- r은 -1부터 +1까지 존재
- +1에 가까울수록 강한 양의 상관관계
- 1에 가까울수록 강한 음의 상관관계
- 0은 가장 약한 상관관계(상관관계가 없음)
$$ r=\frac{1}{n-1} \sum(\frac{x-\bar{x}}{s_x})(\frac{y-\bar{y}}{s_y}) $$
- 산점도에서 의미하는 상관관계: 선형적인 상관관계만을 말함
정리
- 산점도는 두 변수간 관계 방향, 형태, 강도를 살펴볼 수 있는 그래프
- 상관계수(r)는 두 변수간 선형적인 상관관계의 강도를 나타냄
- 산점도에서 선형모형(선형함수식)을 구현할 수 있음
'Postech > Statistics' 카테고리의 다른 글
[포스코 청년 AI·Big Data] 데이터사이언스를 위한 통계학입문 6. 현업 데이터 특성과 예측모형 (0) | 2023.06.26 |
---|---|
[포스코 청년 AI·Big Data] 데이터사이언스를 위한 통계학입문 5. 통계검정방법 (0) | 2023.06.26 |
[포스코 청년 AI·Big Data] 데이터사이언스를 위한 통계학입문 4. 빅데이터 분석에서 확률과 분포 (1) | 2023.06.13 |
[포스코 청년 AI·Big Data] 데이터사이언스를 위한 통계학입문 2. 빅데이터 탐색의 첫걸음 (0) | 2023.06.12 |
[포스코 청년 AI·Big Data] 데이터사이언스를 위한 통계학입문 1. 데이터과학과 통계 (0) | 2023.06.12 |