2025-11-15T01:58:11.277924

Accounting for Missing Data in Public Health Research Using a Synthesis of Statistical and Mathematical Models

Zivich, Shook-Sa, Cole et al.
Introduction: Accounting for missing data by imputing or weighting conditional on covariates relies on the variable with missingness being observed at least some of the time for all unique covariate values. This requirement is referred to as positivity and positivity violations can result in bias. Here, we review a novel approach to addressing positivity violations in the context of systolic blood pressure. Methods: To illustrate the proposed approach, we estimate the mean systolic blood pressure among children and adolescents aged 2-17 years old in the United States using data from the 2017-2018 National Health and Nutrition Examination Survey (NHANES). As blood pressure was not measured for those aged 2-7, there exists a positivity violation by design. Using a recently proposed synthesis of statistical and mathematical models, we integrate external information with NHANES to address our motivating question. Results: With the synthesis model, the estimated mean systolic blood pressure was 100.5 (95% confidence interval: 99.9, 101.0), which is notably lower than either a complete-case analysis or extrapolation from a statistical model. The synthesis results were supported by a diagnostic comparing the performance of the mathematical model in the positive region. Discussion: Positivity violations pose a threat to quantitative medical research, and standard approaches to addressing nonpositivity rely on restrictive untestable assumptions. Using a synthesis model, like the one detailed here, offers a viable alternative.
academic

공중보건 연구에서 통계 및 수학 모델의 종합을 이용한 결측 데이터 처리

기본 정보

  • 논문 ID: 2503.02789
  • 제목: Accounting for Missing Data in Public Health Research Using a Synthesis of Statistical and Mathematical Models
  • 저자: Paul N Zivich, Bonnie E Shook-Sa, Stephen R Cole, Eric T Lofgren, Jessie K Edwards
  • 분류: stat.AP (응용통계), stat.ME (통계방법론)
  • 발표 시간: 2025년 10월 16일
  • 논문 링크: https://arxiv.org/abs/2503.02789

초록

본 연구는 공중보건 연구에서 결측 데이터 처리 시 양의 성질(positivity) 위반 문제를 다루기 위해 통계 모델과 수학 모델을 결합한 종합적 방법을 제안한다. 본 연구는 2017-2018년 국가건강영양조사(NHANES) 데이터를 이용하여 미국 2-17세 아동청소년의 수축기 혈압 평균값 추정을 사례로 제시한다. NHANES 설계에서 2-7세 아동의 혈압을 측정하지 않아 설계상 양의 성질 위반이 발생한다. 외부 정보와 NHANES 데이터를 통합하여, 종합 모델로 추정한 평균 수축기 혈압은 100.5 mmHg (95% CI: 99.9, 101.0)로, 완전 사례 분석이나 통계 모델 외삽 결과보다 유의하게 낮다.

연구 배경 및 동기

핵심 문제 식별

  1. 양의 성질 가정의 중요성: 결측 데이터 처리에서 공변량을 통한 대체 또는 가중치 부여는 양의 성질 가정에 의존한다. 즉, 모든 고유 공변량 값에 대해 결측 변수가 최소한 일부 경우에는 관측되어야 한다.
  2. 양의 성질 위반의 보편성: 특정 공변량 조합에서 목표 변수의 관측값이 완전히 결측되면 양의 성질 위반이 발생하여 편향을 초래한다.
  3. 기존 방법의 한계: 비양의 성질을 다루는 전통적 방법은 연구 문제를 수정하거나 제한적이고 검증 불가능한 모델링 가정에 의존한다.

연구의 의의

  • 이론적 의의: 양의 성질 위반을 처리하기 위한 새로운 이론적 틀을 제공하며, 전통적 방법의 제한적 가정을 회피한다.
  • 실제 가치: 공중보건 및 임상 연구의 결측 데이터 문제에 대한 실행 가능한 해결책을 제시한다.
  • 방법론적 혁신: 비양의 성질 문제를 처리하기 위해 통계 모델과 수학 모델을 체계적으로 결합한 최초의 시도이다.

핵심 기여

  1. 종합 모델 프레임워크 제안: 데이터를 양의 성질 만족 영역과 위반 영역으로 분할하여 각각 통계 모델과 수학 모델로 처리한다.
  2. 재표본 추출 알고리즘 개발: 두 모델의 불확실성을 고려한 분산 추정 방법을 제공한다.
  3. 모델 진단 절차 구축: 양의 성질 영역 내에서 통계 모델과 수학 모델의 성능을 비교하여 방법의 타당성을 검증한다.
  4. 완전한 구현 방안 제공: R 및 Python 코드를 포함하여 방법의 재현성과 실용성을 향상시킨다.

방법론 상세 설명

과제 정의

매개변수 μ=E[Y]\mu = E[Y]를 추정하되, 여기서 YY는 수축기 혈압이고 특정 공변량 값 XX에서 완전히 결측되어 양의 성질 가정 Pr(R=1X=x)>0Pr(R = 1 | X = x) > 0을 위반한다.

모델 구조

1. 데이터 분할 전략

데이터를 두 영역으로 분할한다:

  • 양의 성질 영역 (X=1X^* = 1): 연령 8-17세, 수축기 혈압 관측값 존재
  • 비양의 성질 영역 (X=0X^* = 0): 연령 2-7세, 수축기 혈압 완전 결측

매개변수는 다음과 같이 재작성된다: E[Y]=E[YX=1]Pr(X=1)+E[YX=0]Pr(X=0)E[Y] = E[Y | X^* = 1]Pr(X^* = 1) + E[Y | X^* = 0]Pr(X^* = 0)

2. 통계 모델(양의 성질 영역)

양의 성질 영역에서 포화 모델을 사용한다: E[YX,R=1,X=1;β]=β8I(X=8)+β9I(X=9)++β17I(X=17)E[Y | X, R = 1, X^* = 1; \beta] = \beta_8 I(X = 8) + \beta_9 I(X = 9) + \cdots + \beta_{17} I(X = 17)

g-계산 방법을 적용한다:

  • 완전 데이터를 기반으로 회귀 모델을 적합한다.
  • 모든 관측값에 대해 수축기 혈압을 예측한다.
  • 표본 가중 평균값을 계산한다.

3. 수학 모델(비양의 성질 영역)

외부 발표된 미국 아동청소년 수축기 혈압 분포 정보를 기반으로 한다:

  • 연령, 성별, 신장 백분위수별 분포를 사용한다.
  • 정규분포를 가정하며, 평균은 중앙값과 같다.
  • 표준편차는 90 백분위수로 근사한다.

기술적 혁신점

  1. 외삽 가정 회피: 전통적 선형 외삽과 달리, 8-17세의 관계가 2-7세로 확장된다고 가정할 필요가 없다.
  2. 유연한 모델 선택: 양의 성질 영역에서는 비모수 방법을 사용할 수 있으며, 비양의 성질 영역에서는 외부 정보를 통합한다.
  3. 불확실성 정량화: 재표본 추출 알고리즘은 통계 모델 매개변수 추정과 수학 모델 분포의 불확실성을 동시에 고려한다.

실험 설정

데이터셋

  • 주요 데이터: 2017-2018년 NHANES, n=2,572명의 2-17세 아동청소년
  • 외부 정보: Flynn 등이 발표한 미국 아동청소년 수축기 혈압 분포 데이터
  • 결측 패턴: 2-7세 아동의 수축기 혈압 완전 결측(설계상 결측), 8-17세에서 8% 결측

변수 정의

  • 결과 변수: 수축기 혈압(mmHg), 최대 3회 측정값의 평균
  • 공변량: 연령(년), 신장(센티미터), 체중(킬로그램), 성별
  • 표본 가중치: 미국 인구 추론을 위해 NHANES 표본 가중치 적용

비교 방법

  1. 완전 사례 분석: 수축기 혈압 측정값이 있는 관측값만 사용
  2. 선형 외삽: 8-17세 데이터를 기반으로 선형 모델을 적합하고 2-7세로 외삽
  3. 민감도 분석: 2-7세 평균 수축기 혈압을 70-120 mmHg 범위로 설정하여 경계 분석 수행

구현 세부사항

  • 재표본 추출 횟수: 10,000회
  • 신뢰 구간: 2.5% 및 97.5% 분위수를 사용하여 95% 신뢰 구간 구성
  • 점 추정값: 중앙값을 점 추정값으로 사용

실험 결과

주요 결과

방법평균 수축기 혈압 (mmHg)95% 신뢰 구간
완전 사례 분석104.7(104.1, 105.3)
선형 외삽101.6(100.8, 102.4)
종합 모델100.5(99.9, 101.0)
경계 분석92.7-109.9(91.9, 110.5)

주요 발견

  1. 종합 모델 결과가 가장 낮음: 선형 외삽보다 1.1 mmHg 낮으며, 그 차이는 외삽 방법 표준오차의 2.9배이다.
  2. 방법 간 차이가 통계학적으로 유의함: 종합 모델과 다른 방법의 차이가 추정된 불확실성 범위를 초과한다.
  3. 경계 분석이 결과를 지지함: 종합 모델 추정값이 합리적인 경계 범위 내에 있다.

모델 검증

양의 성질 영역 내에서 통계 모델과 수학 모델의 성능을 비교한다:

  • 두 모델이 예측한 수축기 혈압 분포가 합리적으로 겹친다.
  • 연령별 평균값의 차이가 거의 0에 가깝지만, 15-17세에서 통계 모델 결과가 수학 모델보다 약간 낮다.
  • 전반적으로 양의 성질 영역에서 수학 모델의 타당성을 지지한다.

확장 분석 결과

더 많은 공변량(성별, 신장, 체중)을 고려한 부록의 결과:

  • 종합 모델 결과가 안정적으로 유지됨: 100.5 (99.9, 101.0)
  • 외삽 방법 결과가 종합 모델에 접근: 100.8 (97.7, 103.8)
  • 증강 역확률 가중 추정기 결과가 유사함

관련 연구

전통적 결측 데이터 방법

  1. 대체 방법: 다중 대체, 최대우도 추정
  2. 가중치 방법: 역확률 가중치 부여
  3. 이중 견고성 방법: 증강 역확률 가중 추정기

비양의 성질 처리 방법

  1. 문제 수정: 양의 성질이 만족되는 영역으로 연구 인구 제한
  2. 매개변수 외삽: 제한적 모델링 가정을 사용한 외삽
  3. 경계 분석: 민감도 분석 범위 제공

본 논문의 고유한 기여

  • 통계 및 수학 모델을 체계적으로 결합한 최초의 시도
  • 연구 문제 수정이나 강한 매개변수 가정 회피
  • 실용적인 불확실성 정량화 방법 제공

결론 및 논의

주요 결론

  1. 종합 모델의 타당성: 비양의 성질 영역을 포함한 모집단 매개변수를 성공적으로 추정한다.
  2. 방법의 장점: 전통적 방법의 제한적 가정을 회피하고 더 합리적인 추정을 제공한다.
  3. 실제 가치: 설계상 결측이나 체계적 결측을 처리하기 위한 실행 가능한 방안을 제공한다.

제한사항

  1. 분산 추정: NHANES의 군집 표본 추출 설계를 고려하지 않아 불확실성을 저평가할 수 있다.
  2. 수학 모델의 복잡성: 현재 상대적으로 단순한 모델을 사용하며, 복잡한 경우 중간 과정 모델링이 필요할 수 있다.
  3. 외부 정보 의존성: 방법의 타당성은 외부 정보의 정확성과 적용 가능성에 의존한다.
  4. 다변량 비양의 성질: 여러 변수가 동시에 비양의 성질을 나타내는 경우의 적용은 추가 연구가 필요하다.

향후 방향

  1. 복잡한 수학 모델: 약물 농도, 생리 반응 등 복잡한 과정을 처리하는 모델 개발
  2. 분산 추정 개선: 군집 등 복잡한 표본 추출 설계를 고려하도록 재표본 추출 알고리즘 확장
  3. 다차원 비양의 성질: 여러 변수가 동시에 비양의 성질을 나타내는 경우 연구
  4. 진단 방법 완성: 모델 타당성의 더욱 포괄적인 진단 절차 개발

심층 평가

장점

  1. 방법론적 혁신성이 강함: 비양의 성질을 처리하기 위해 통계 및 수학 모델을 체계적으로 결합한 최초의 시도이다.
  2. 이론적 기초가 견고함: 인과 추론 및 결측 데이터 이론의 견고한 기초 위에 기반한다.
  3. 실용성이 두드러짐: 완전한 구현 코드와 상세한 알고리즘 설명을 제공한다.
  4. 검증이 충분함: 다양한 비교 방법과 진단 절차를 통해 방법의 타당성을 검증한다.

부족한 점

  1. 외부 정보 요구: 방법의 성공은 고품질 외부 정보의 가용성에 의존한다.
  2. 계산 복잡성: 재표본 추출 절차가 계산 부담을 증가시킨다.
  3. 적용 범위 제한: 주로 신뢰할 수 있는 외부 정보가 있는 경우에 적용 가능하다.
  4. 이론적 보장 부족: 방법의 점근적 성질에 관한 이론적 분석이 부족하다.

영향력 평가

  1. 학술적 기여: 통계학 및 역학 분야에 중요한 방법론적 기여를 제공한다.
  2. 실제 가치: 공중보건 연구에서 흔한 설계상 결측 문제에 직접 적용 가능하다.
  3. 재현성: 제공된 코드와 상세한 설명이 방법의 재현성을 보장한다.
  4. 확산 가능성: 방법 프레임워크는 비양의 성질이 있는 다른 연구 분야로 확대 가능하다.

적용 시나리오

  1. 설계상 결측: 연령 제한, 윤리적 고려로 인한 체계적 결측
  2. 외부 정보 풍부: 신뢰할 수 있는 외부 연구 또는 사전 지식 존재
  3. 매개변수 추정: 주로 모집단 매개변수 추정에 적용되며 개인 예측이 아님
  4. 공중보건 연구: 특히 대규모 역학 조사의 결측 데이터 문제에 적합

참고문헌

본 논문은 관련 분야의 중요 문헌을 인용하고 있으며, 다음을 포함한다:

  • Cole 등의 역학 연구에서 결측 결과 데이터에 관한 종설
  • Westreich와 Cole의 양의 성질 실제 적용에 관한 논평
  • Petersen 등의 양의 성질 가정 위반 진단 및 대응에 관한 논문
  • Flynn 등의 아동청소년 혈압 선별 및 관리 임상 실제 지침