[지역사회건강조사 SPSS 분석] 1. 통계 추정방법 : 가중치, 연령 표준화, 표본가중평균 및 표본오차
지역사회건강조사는 표본설계를 통해 표본을 추출하였기 때문에 모집단을 대표하는 값을 추정하기 위해서는 가중치가 필요합니다.
무응답은 대체하지 않으며 즉, 지역사회건강조사의 지표를 산출할 때는 무응답은 제외합니다. 무응답의 종류는 개체 무응답과 항목 무응답으로 나눌 수 있습니다. 개체 무응답은 가구원으로 선정된 사람이 응답을 하지 않은 경우를 나타내며, 이와 같은 경우는 가중치에서 응답하지 않은 사람의 비율로 고려됩니다. 항목 무응답은 가구원이 특정 문항만 답을 하지 않은 경우를 나타내며, 이와 같은 경우에는 중앙값, 최빈값을 도출하는 등 통계기법을 사용하여 결측치를 추정하여 대체하거나 무시하기도 합니다.
특정 조사 지역, 특정 조사 시점 마다 건강지표에 영향을 주는 연령별 인구구조가 다르기 때문에 연령별 인구구조에 따른 변화인지 알 수 없습니다. 따라서 다른 조사 지역, 여러 조사 시점을 비교하고 싶다면 연령 표준화를 사용해야 합니다.
지역사회건강조사에서는 직접 연령 표준화를 사용하여 분석합니다. 표본 데이터셋으로 평균 및 분산을 추정하면 표본오차 및 비표본오차가 발생됩니다. 해당 표본 오차는 분산추정에 의해 측정될 수 있습니다.
정리하면, 표본 데이터셋을 이용하기 때문에 1) 가중치를 고려해야 하며, 특정 조사 지역 및 시점에서 비교 분석하기 위해서는 2) 연령 표준화를 해야 하며, 표본 추출로 인한 3) 표본오차 및 비표본오차는 분산추정에 의해 측정될 수 있습니다. 더 자세한 내용은 아래 내용을 참고해주십시오.
[가중치]
2024 지역건강통계 한눈에 보기에서는 가구가중치 → 개인가중치 → 보정가중치 순으로 설명됩니다.
1. 가구가중치
가구가중치는 가구추출률, 조사적격가구율, 주택유형별 가구 비율을 보정합니다.
1. 1. 표본추출률 보정 ; 가구추출률 보정
- 목적:
표본으로 추출된 가구가 전체 모집단(동·읍·면, 주택유형별)의 가구를 얼마나 대표하는지 보정합니다. - 방법:
각 구분(동·읍·면, 주택유형)의 전체 가구 수(③)를 표본으로 조사된 가구 수(④)로 나눕니다. - 공식
- 의미:
표본으로 뽑힌 가구가 전체에서 차지하는 비율을 반영하여, 표본이 모집단을 대표하도록 가중치를 조정합니다.
1. 2. 조사적격 가구율 보정
- 목적:
조사 과정에서 실제로 조사에 적합한(적격) 가구의 비율을 반영합니다.
(예: 표본으로 뽑혔지만 실제로 조사할 수 없는 가구가 있을 수 있음) - 방법:
조사적격 가구 수(⑥)를 조사접촉 가구 수(⑤)로 나눕니다. - 공식:
- 의미:
조사에 실제로 응한 가구의 비율을 반영하여, 무응답이나 비적격 가구로 인한 대표성의 왜곡을 보정합니다.
1. 3. 주택유형별 가구비율 보정; 전체 가구수와의 일치 보정
- 목적:
표본조사로 산출된 가구가중치의 총합(⑧)이 실제 모집단의 전체 가구수(⑨)와 일치하도록 최종적으로 가중치를 보정합니다. - 방법:
각 구분별로 산출된 가구가중치(⑦)에 전체 ②의 가구 수 합(⑨)을 전체 가구가중치 합(⑧)으로 나눈 값을 곱합니다. - 공식 :
- 의미:
실제 모집단의 가구수와 표본가중치 합이 같아지도록 조정하여, 표본조사 결과가 모집단 전체를 더 정확하게 대표하게 만듭니다.
2. 개인가중치
개인가중치는 가구가중치에 개인 응답률을 보정합니다.
- 목적:
가구 내에서 실제로 조사에 응답한 만 19세 이상 가구원의 비율을 반영하여, 표본의 대표성을 높입니다. - 공식:
- 설명:
한 가구에 여러 명의 만 19세 이상 가구원이 있을 수 있는데, 실제로 조사에 응한 인원이 적을 수 있습니다. 이 차이를 보정하여, 조사에 응답하지 않은 가구원도 통계적으로 반영합니다.
3. 보정가중치; 성·연령별 인구구조 보정
- 목적:
조사 결과가 실제 인구구조(성별, 연령별)와 일치하도록 보정하여, 표본의 대표성을 한 번 더 높입니다. - 공식:
- 설명:
성별(남/여), 연령별(19-29, 30-39, 40-49, 50-59, 60+)로 나누어, 각 집단의 실제 인구수와 표본의 가중치 합이 일치하도록 보정합니다.
예시에서 1.208은 해당 성·연령 집단의 실제 인구수(14,693명)를 표본의 가중치 합(12,157.23)으로 나눈 값입니다.
4. 가중치 이상치 제거; Raking Ratio 방법
- 목적:
일부 조사대상자의 보정가중치가 지나치게 커서 결과에 편향(bias)을 줄 수 있으므로, 이상치를 조정합니다. - 방법:
- 가중치 값 중 3사분위수(Q3) + 3×IQR(사분위범위)보다 큰 값을 이상치로 정의합니다.
- 이상치로 판단된 가중치는 Q3 + 3×IQR 값으로 대체합니다.
- 설명:
이 과정을 통해 극단적으로 큰 가중치가 전체 분석 결과에 미치는 영향을 최소화합니다.
가중치 정리: 단계별 보정의 흐름
단계 | 주요 내용 | 공식/방법 | 보정 목적 |
1 | 표본추출률(가구추출률) 보정 | 전체 가구수 ÷ 조사된 가구수 | 표본의 대표성 확보 |
2 | 조사적격 가구율 보정 | 적격 가구수 ÷ 접촉 가구수 | 무응답·비적격 보정 |
3 | 주택유형별 가구비율(전체 가구수 일치) 보정 | 가구가중치 × (전체 가구수 합 ÷ 전체 가구가중치 합) | 표본가중치 합과 모집단 일치 |
4 | 개인가중치 산출 | 가구가중치 × (가구 내 만 19세 이상 가구원 수 ÷ 조사 가구원 수) | 가구 내 응답률 반영 |
5 | 보정가중치(성·연령별 인구구조 보정) | 개인가중치 × (성·연령별 인구수 ÷ 해당 집단 가중치 합) | 인구구조 반영 |
6 | 가중치 이상치 제거 | Q3 + 3×IQR 초과 가중치 조정 | 편향 방지 |
[연령 표준화]
2024년 지역사회건강조사 결과는 주요 지표에 대해 성/연령별 인구비율을 동일하게 하여 비교 가능하도록 직접 표준화하였습니다.
직접 표준화하는 방법은 3단계로 진행됩니다.
- 먼저, 표준집단 인구를 선정합니다.
2024년 지역사회건강조사에서는 2017년 12월에 통계청에서 공표한 2005년 추계인구를 표준인구로 사용하였고, 연령 구분은 19세부터 10세 단위로 구분하였습니다. - 각 집단의 연령별 특수율을 표준 인구의 해당 연령 인구수에 곱해 기대 사건 수를 구합니다.
- 표준 인구 전체에서의 기대 사건 수를 표준 인구의 전체 인구수로 나누어 산출합니다.
[분산추정]
먼저, 지역사회건강조사 맥락에서 층화(Stratification)와 집락(Cluster)을 설명드리겠습니다.
- 층화
- 모집단을 집단 내에서는 동질적인 특성을 가지고 집단 간에는 이질적인 특성을 갖도록하는 여러 하위집단(층)으로 나누고, 각 층에서 표본을 추출하는 방법
- 지역사회건강조사에서는 보건소별로 관할 지역을 동/읍-면 단위로 1차 층화하고 그 아래에서 주택 유형(아파트, 주택 등)을 2차 층화 변수로 사용
- 조사 결과에 영향을 줄 수 있는 인구사회학적요인 (지역, 주택유형)을 반영해 표본의 대표성을 높입니다.
- 아래 나오는 첨자를 기준으로 h가 층화를 의미합니다.
- 집락
- 모집단을 집단 내에서는 이질적이고, 집단 간에는 동질적인 특성을 갖도록 여러 개의 집락(군집, cluster)으로 나누고, 그 중 일부 집락만 무작위로 뽑아 그 집락 내 모든 혹은 일부 대상을 조사하는 방법
- 지역사회건강조사에서는 통-반/리(행정구역의 소단위)를 1차 추출단위인 집락으로 사용.
- 아래 나오는 첨자를 기준으로 j가 집락을 의미합니다.
표본가중평균은 표본 내 각 응답값이 동일하게 취급되는 단순평균과 달리, 각 표본의 대표성을 반영한 가중치를 곱해 평균을 계산하는 방식입니다.
표본평균 값은 모든 조사대상의 응답값에 해다아는 가중치를 곱한 뒤, 이를 전부 더한 값을 가중치의 합으로 나누어 계산됩니다.
분자의 $n_{hj}$ 은 분산 추정에서 표본 수를 반영하기 위함입니다. 그리고 $1-f_{hj}$는 표본비에 따른 유한모집단 보정입니다. 이 보정은 표본이 모집단에 비해 클수록 분산이 줄어드는 효과를 반영합니다. 또한 $n_{hj}-1$ 라는 자유도로 보정하여 표본분산의 불편추정량을 만들기위함입니다.
이처럼 지역사회건강조사는 복합표본으로 구성되어있기 때문에 해당 데이터셋을 사용하여 분석을 할 때는 이와 같은 통계추정 방식을 따라야 합니다.