Processing math: 2%

본문 바로가기

Postech/Statistics

[포스코 청년 AI·Big Data] 데이터사이언스를 위한 통계학입문 5. 통계검정방법

by 나비스 2023. 6. 26.

POSTECH의 MOOC (https://pabi.smartlearn.io/) 청년 AI, BigData 아카데미 온라인 기초과정 중

데이터사이언스를 위한 통계학입문2을 수강하고 정리한 내용입니다.

1. 신뢰구간의 의미

신뢰구간

여론조사 : 신뢰수준 95%에서 오차범위 3.1%
신뢰구간: 구간추정
- 실제 모수가 존재할 가능성이 높은 구간으로 추정
- 모평균, 모비율 등 모수를 포함할 확률
- 신뢰수준 $Confidence level$ : 구간에 모수 μ가 포함될 확률
- 일반적으로 100 $1-α$ %로 나타냄

95% 신뢰구간의 의미

100번의 반복샘플링으로 얻은 평균과 편차로 계산한 100개의 신뢰구간 중, 5개는 실제 모평균 $μ$ 을 포함하고 있지 않는다.
표본을 통해 얻은 95% 신뢰구간에 실제 모평균이 포함되지 않을 확률은 5%이다
표본 조사는 전체 집단 $즉, 모집단 전체$ 을 조사할 수 없기 때문에 이용한다
신뢰구간은 고정된 단일 값이 아닌 움직이는 여러 값이다.

적당한 신뢰구간은?

90% 신뢰구간: zα/2 = z0.5 = 1.65
95% 신뢰구간: zα/2 = z0.25 = 1.96
99% 신뢰구간: zα/2 = z0.05 = 2.57

표본사이즈와 허용오차

99 신뢰구간은 정확도가 떨어짐
허용오차를 일정수준으로 정하면 그에 따른 표본크기가 정해짐
신뢰구간에서 허용오차에 영향을 미치는 요소
- 표본의 크기, 유의수준, 표준편차 $표본평균은 X$

요약

실험 및 조사설계를 할 때 허용오차 및 신뢰수준을 고려해야 정확한 분석이 가능

2. 통계적 검정은 왜 필요한가

통계적 검정이란?

법적 근거자료 : 시민단체 vs 담배회사
가설의 진위 여부를 판단, 증명, 검정하는 통계적 추론 방식
- 귀무가설 $Null Hypothesis, H0$
  - 검정 대상이 되는 가설
  - 기각 $reject$ 을 목표로 함
- 대립가설 $Alternative Hypothesis, H1$
  - 귀무가설이 기각될 때 받아들여지는 가설
  - 채택 $accept$ 을 목표로 함
가설 검정 절차
- 가설 설정 → 유의수준 설정 → 검정통계량 산출 → 가설 기각/채택

검정 예시: T-test

단측검정 $one-sided test$ : 기각역이 왼쪽 또는 오른쪽 $크다 또는 작다$
양측검정 $two-sided test$ : 기각역이 양측 $같지 않다$

단측검정

소비자 주장) 카페에서 파는 커피 용량이 200ml보다 작다.
- 귀무가설 $H0$ : 커피 용량은 200ml다
- 대립가설 $H1$ : 커피 용량은 200ml보다 적다

t-분포를 이용한 검정

한 집단 혹은 두 집단 간 평균 차이에 대한 통계적 검정 방법
모집단의 표준편차를 모를 때 표본표준편차 사용
- T-distribution
  - 사회 현상은 평균 데이터가 많으므로 정규 분포 $normal distribution$ 형태
  - 정규 분포는 표본의 데이터 수가 많아야 신뢰도가 향상됨 $일반적으로 30개 이상$
  - 데이터가 적은 경우, 예측 범위가 더 넓은 T-distribution 사용
- T-test의 가정
  - 독립성: 두 집단 변수는 서로 독립
  - 정규성: 두 집단 데이터는 정규분포를 만족
  - 등분산성: 두 집단 분산은 동일

통계적 검정의 계산 예시

t = 표본평균 - μ / $표본표준편차(s$ /표본의 수 루트)

요약

급속한 사회발전으로 사회의 복잡성 증가
방대한 데이터에 대한 올바른 해석과 분석의 필요성
경험이나 직관이 아닌 데이터기반 통계검정을 근거로 의사결정

3. 두 집단 t-검정

두 집단 간 평균 비교

두 모집단 평균 비교를 위한 t-검정 계산 과정 익히기
예제
- 목적 : 수면장애가 있는 환자들에게 a, b약제를 투여하여 그 효과를 비교하고자 한다. 투약했을 때 수면시간 증가에 유의한 차이가 있는지 조사
- 가설 : 약물종류에 따라 환자의 평균 수면시간 증가에 차이가 있는지 유의수준 5%에서 검정
- 결론 : p-value=0.0867
  - 유의수준 0.05에서는 귀무가설을 기각할 수 없고 약물 간 수면시간 증가에 유의한 차이가 없다고 결론
  - 유의수준 0.1에서는 귀무가설을 기각하고 약물 간 수면시간 증가에 유의한 차이가 있다고 결론

t-검정 검정통계량과 기각역

가설 → 조사 → 데이터 → 검정통계량 → 가설에 대한 결정 유의수준 α
- 검정통계량이 기각역 안에 있으면 귀무가설 기각 → 대립가설 인정

4. p-value의 실제 의미

p-value

데이터 결과 자료에서 보게 되는 값
변수의 통계적 유의도를 나타내는 값 $유의확률$

p-value 찾기

예제 : 25개 표본의 과자 한 팩 평균 무게가 87g이다. 모표준편차 = 15g 유의수준 α = 0.05에서 과자 한 팩이 80g 이상이라고 할 수 있는가?
- 귀무가설: μ = 80, 대립가설: μ > 80
- 검정통계량 Z = 2.33
- 검정통계량이 기각역 하에 있으면 귀무가설을 기각
결과: 과자 한 팩 무게는 80g이라는 주장을 인정
- p-value는 변수의 유의성 정도 혹은 검정의 유의도를 나타내준다.
통계검정에서 p-value는?
- p-value는 유의확률: 대립가설에 대한 증거의 정도
- p-value가 작다는 것은 그 검정이 매우 유의하다는 증거→ p-value는 변수의 유의성 정도 혹은 검정의 유의도를 나타냄

검정의 오류

통계적 추정을 해석할 때 발생하는 오차
- Type 1 error: H0이 참인데 기각하는 오류
- Type 2 error: H0이 거짓인데 채택하는 오류

https://www.scribbr.com/statistics/type-i-and-type-ii-errors/

1. 신뢰구간의 의미

신뢰구간

여론조사 : 신뢰수준 95%에서 오차범위 3.1%
신뢰구간: 구간추정
- 실제 모수가 존재할 가능성이 높은 구간으로 추정
- 모평균, 모비율 등 모수를 포함할 확률
- 신뢰수준 $Confidence level$ : 구간에 모수 μ가 포함될 확률
- 일반적으로 100 $1-α$ %로 나타냄

95% 신뢰구간의 의미

100번의 반복샘플링으로 얻은 평균과 편차로 계산한 100개의 신뢰구간 중, 5개는 실제 모평균 $μ$ 을 포함하고 있지 않는다.
표본을 통해 얻은 95% 신뢰구간에 실제 모평균이 포함되지 않을 확률은 5%이다
표본 조사는 전체 집단 $즉, 모집단 전체$ 을 조사할 수 없기 때문에 이용한다
신뢰구간은 고정된 단일 값이 아닌 움직이는 여러 값이다.

적당한 신뢰구간은?

90% 신뢰구간: zα/2 = z0.5 = 1.65
95% 신뢰구간: zα/2 = z0.25 = 1.96
99% 신뢰구간: zα/2 = z0.05 = 2.57

표본사이즈와 허용오차

99 신뢰구간은 정확도가 떨어짐
허용오차를 일정수준으로 정하면 그에 따른 표본크기가 정해짐
신뢰구간에서 허용오차에 영향을 미치는 요소
- 표본의 크기, 유의수준, 표준편차 $표본평균은 X$

요약

실험 및 조사설계를 할 때 허용오차 및 신뢰수준을 고려해야 정확한 분석이 가능

2. 통계적 검정은 왜 필요한가

통계적 검정이란?

법적 근거자료 : 시민단체 vs 담배회사
가설의 진위 여부를 판단, 증명, 검정하는 통계적 추론 방식
- 귀무가설 $Null Hypothesis, H0$
  - 검정 대상이 되는 가설
  - 기각 $reject$ 을 목표로 함
- 대립가설 $Alternative Hypothesis, H1$
  - 귀무가설이 기각될 때 받아들여지는 가설
  - 채택 $accept$ 을 목표로 함
가설 검정 절차
- 가설 설정 → 유의수준 설정 → 검정통계량 산출 → 가설 기각/채택

검정 예시: T-test

단측검정 $one-sided test$ : 기각역이 왼쪽 또는 오른쪽 $크다 또는 작다$
양측검정 $two-sided test$ : 기각역이 양측 $같지 않다$

단측검정

소비자 주장) 카페에서 파는 커피 용량이 200ml보다 작다.
- 귀무가설 $H0$ : 커피 용량은 200ml다
- 대립가설 $H1$ : 커피 용량은 200ml보다 적다

t-분포를 이용한 검정

한 집단 혹은 두 집단 간 평균 차이에 대한 통계적 검정 방법
모집단의 표준편차를 모를 때 표본표준편차 사용
- T-distribution
  - 사회 현상은 평균 데이터가 많으므로 정규 분포 $normal distribution$ 형태
  - 정규 분포는 표본의 데이터 수가 많아야 신뢰도가 향상됨 $일반적으로 30개 이상$
  - 데이터가 적은 경우, 예측 범위가 더 넓은 T-distribution 사용
- T-test의 가정
  - 독립성: 두 집단 변수는 서로 독립
  - 정규성: 두 집단 데이터는 정규분포를 만족
  - 등분산성: 두 집단 분산은 동일

통계적 검정의 계산 예시

t = 표본평균 - μ / $표본표준편차(s$ /표본의 수 루트)

요약

급속한 사회발전으로 사회의 복잡성 증가
방대한 데이터에 대한 올바른 해석과 분석의 필요성
경험이나 직관이 아닌 데이터기반 통계검정을 근거로 의사결정

3. 두 집단 t-검정

두 집단 간 평균 비교

두 모집단 평균 비교를 위한 t-검정 계산 과정 익히기
예제
- 목적 : 수면장애가 있는 환자들에게 a, b약제를 투여하여 그 효과를 비교하고자 한다. 투약했을 때 수면시간 증가에 유의한 차이가 있는지 조사
- 가설 : 약물종류에 따라 환자의 평균 수면시간 증가에 차이가 있는지 유의수준 5%에서 검정
- 결론 : p-value=0.0867
  - 유의수준 0.05에서는 귀무가설을 기각할 수 없고 약물 간 수면시간 증가에 유의한 차이가 없다고 결론
  - 유의수준 0.1에서는 귀무가설을 기각하고 약물 간 수면시간 증가에 유의한 차이가 있다고 결론

출처 : 포스텍

t-검정 검정통계량과 기각역

가설 → 조사 → 데이터 → 검정통계량 → 가설에 대한 결정 유의수준 α
- 검정통계량이 기각역 안에 있으면 귀무가설 기각 → 대립가설 인정

4. p-value의 실제 의미

p-value

데이터 결과 자료에서 보게 되는 값
변수의 통계적 유의도를 나타내는 값 $유의확률$

p-value 찾기

예제 : 25개 표본의 과자 한 팩 평균 무게가 87g이다. 모표준편차 = 15g 유의수준 α = 0.05에서 과자 한 팩이 80g 이상이라고 할 수 있는가?
- 귀무가설: μ = 80, 대립가설: μ > 80
- 검정통계량 Z = 2.33
- 검정통계량이 기각역 하에 있으면 귀무가설을 기각
결과: 과자 한 팩 무게는 80g이라는 주장을 인정
- p-value는 변수의 유의성 정도 혹은 검정의 유의도를 나타내준다.
통계검정에서 p-value는?
- p-value는 유의확률: 대립가설에 대한 증거의 정도
- p-value가 작다는 것은 그 검정이 매우 유의하다는 증거→ p-value는 변수의 유의성 정도 혹은 검정의 유의도를 나타냄

검정의 오류

통계적 추정을 해석할 때 발생하는 오차
- Type 1 error: H0이 참인데 기각하는 오류
- Type 2 error: H0이 거짓인데 채택하는 오류
- 표

https://www.scribbr.com/statistics/type-i-and-type-ii-errors/

'Postech > Statistics' 카테고리의 다른 글

[포스코 청년 AI·Big Data] 데이터사이언스를 위한 통계학입문 7. 빅데이터 차원축소와 예측모형 $0$	2023.06.27
[포스코 청년 AI·Big Data] 데이터사이언스를 위한 통계학입문 6. 현업 데이터 특성과 예측모형 $0$	2023.06.26
[포스코 청년 AI·Big Data] 데이터사이언스를 위한 통계학입문 4. 빅데이터 분석에서 확률과 분포 $1$	2023.06.13
[포스코 청년 AI·Big Data] 데이터사이언스를 위한 통계학입문 3. 데이터 시각화와 통계적 해석 $0$	2023.06.13
[포스코 청년 AI·Big Data] 데이터사이언스를 위한 통계학입문 2. 빅데이터 탐색의 첫걸음 $0$	2023.06.12

티스토리툴바

단축키

내 블로그

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

블로그 게시글

글 수정 $권한 있는 경우$	`E` `E`
댓글 영역으로 이동	`C` `C`

모든 영역

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.