2025-11-14T03:28:11.408670

Statistical methods: Basic concepts, interpretations, and cautions

Greenland

The study of associations and their causal explanations is a central research activity whose methodology varies tremendously across fields. Even within specialized subfields, comparisons across textbooks and journals reveals that the basics are subject to considerable variation and controversy. This variation is often obscured by the singular viewpoints presented within textbooks and journal guidelines, which may be deceptively written as if the norms they adopt are unchallenged. Furthermore, human limitations and the vastness within fields imply that no one can have expertise across all subfields and that interpretations will be severely constrained by the limitations of studies of human populations. The present chapter outlines an approach to statistical methods that attempts to recognize these problems from the start, rather than assume they are absent as in the claims of 'statistical significance' and 'confidence' ordinarily attached to statistical tests and interval estimates. It does so by grounding models and statistics in data description, and treating inferences from them as speculations based on assumptions that cannot be fully validated or checked using the analysis data.

academic

통계 방법: 기본 개념, 해석 및 주의사항

기본 정보

논문 ID: 2508.10168
제목: Statistical methods: Basic concepts, interpretations, and cautions
저자: Sander Greenland (UCLA 역학 및 통계학과 명예교수)
분류: stat.ME math.ST stat.TH
발표 시간: 2025년 8월 25일
논문 성질: 《역학 핸드북》 제3판 장
논문 링크: https://arxiv.org/abs/2508.10168

초록

본 논문은 관련성 연구 및 인과 해석에서 통계 방법의 적용 문제를 다루며, 서로 다른 분야 간에 방법론상 거대한 차이가 존재하고, 전문 하위 분야 내에서도 상당한 변동과 논쟁이 있음을 지적한다. 전통적 통계 방법은 이상적 조건(예: 순수 무작위 표본 추출, 완전 무작위화 실험)을 가정하지만, 실제 인구 연구에서는 이러한 가정이 종종 충족되지 않는다. 저자는 통계 추론을 완전히 검증할 수 없는 가정에 기반한 추측으로 보는 새로운 통계 방법 해석 틀을 제시하여, "통계적 유의성"과 "신뢰"라는 개념의 오용을 피한다.

연구 배경 및 동기

문제 배경

방법론적 불일치 심각: 서로 다른 분야, 교과서 및 학술지 간에 통계 기초 개념에 대한 현저한 차이와 논쟁 존재
가정 조건의 이상화: 전통적 통계 방법은 이상적인 무작위 표본 추출 또는 무작위 배정 조건을 가정하지만, 실제 연구에서는 이러한 조건을 충족하기 어려움
오해의 광범위한 존재: 조사에 따르면 대부분의 사용자는 P값, 유의성 검정 및 신뢰 구간을 올바르게 정의하거나 해석할 수 없음
과도한 확신 문제: 통계 결과가 종종 가정에 기반한 추측이 아닌 확정적 답변으로 오해됨

연구 동기

더욱 현실적이고 신중한 통계 방법 해석 틀 제공
통계 추론에서의 과도한 확신 및 오해 감소
통계 방법을 과학적 추론의 권위 있는 중재자가 아닌 데이터 기술 도구로 재정의
가정 검증 및 불확실성 평가의 중요성 강조

핵심 기여

통계 추론의 재정의: P값을 가정의 확률이 아닌 데이터와 가정 모형의 양립성 측도로 재해석
양립성 구간 개념 제시: "신뢰 구간"을 대신하여 "양립성 구간"(compatibility interval)을 사용하여 오도적인 "신뢰" 개념 회피
S값(놀람값) 도입: 이진 놀람값(-log₂(p))을 정보 측도로 사용하여 P값의 더욱 직관적인 해석 제공
가정 의존성 강조: 통계 결과의 보조 가정에 대한 민감성 및 불확실성을 체계적으로 설명
다양한 방법론 통합: 빈도주의 및 베이지안 방법을 증거 종합의 서로 다른 관점으로 옹호

방법 상세 설명

핵심 이론 틀

1. 모형의 재정의

전통적 정의: 모형은 일반적으로 측정 변수와 다른 변수의 함수 관계를 나타내는 방정식
본 논문의 정의: 모형 M은 데이터 생성 과정의 행동에 관한 전체 가정 집합으로, 목표 가정 H와 보조 가정 A를 포함

2. P값의 양립성 해석

전통적 P값 정의:

p = Pr(T ≥ t | H, A)

여기서 T는 차이 통계량, t는 관측값, H는 목표 가정, A는 보조 가정.

재해석: P값은 데이터와 모형의 양립성 정도를 나타내며, 범위는 0(완전 불양립)에서 1(완전 양립)까지.

3. S값(놀람값)

S = -log₂(p)

S값은 정보 비트(bits) 단위로 제공되며, 더욱 직관적인 해석을 제공:

S = 4.6은 동전 5번 던져 모두 앞면이 나올 정도의 놀람을 의미
S = 0은 정보 없음을 의미하며, S값이 클수록 양립성이 낮음

4. 양립성 구간

유의 수준 α에 대해, 양립성 구간은 p > α를 만족하는 모든 모수값을 포함하여 "신뢰" 개념의 오도를 회피.

기술적 혁신점

의미론적 전환: 결정적 언어에서 기술적 언어로의 전환
정보론적 관점: 정보론 개념을 도입하여 통계 증거 정량화
가정의 투명화: 목표 가정과 보조 가정을 명확히 구분
다중 방법 통합: 서로 다른 통계학파를 상호보완적 관점으로 간주

실험 설정

가상 사례 연구

저자는 대마초 사용과 정신 건강 관계의 가상 데이터셋을 사용하여 방법을 시연:

데이터 구조:

표본 크기: 600명(미사용 480명, 사용 120명)
결과 변수: 정신질환 진단(이분 분류)
관찰된 관련성: 사용자 진단률 8.3%, 미사용자 3.3%

계산 결과:

위험 차이(RD) = 0.050 (5%)
위험 비(RR) = 2.5
오즈비(OR) = 2.6
Pearson χ² = 5.79
근사 P값 = 0.016, 정확 P값 = 0.041

평가 지표

양립성 측도: P값을 데이터와 가정의 양립성 지표로 사용
정보 함량: S값이 통계 증거의 정보량을 정량화
구간 추정: 양립성 구간이 모수 범위 추정 제공
가정 비교: 서로 다른 가정값의 P값 함수 비교

실험 결과

주요 발견

1. P값 함수 분석

H₀: OR = 1의 정확 P값 = 0.041 (S = 4.6 bits)
H₁: OR = 2의 정확 P값 = 0.644 (S = 0.6 bits)
95% 양립성 구간: 1.04, 6.36

2. 해석 비교

전통적 해석: OR = 1이 α = 0.05 수준에서 "기각"되며, 결과는 "통계적으로 유의" 새로운 틀 해석:

OR = 1은 데이터와의 양립성이 낮음(p = 0.041)
OR = 2는 데이터와 높은 양립성(p = 0.644)
OR = 6이 OR = 1보다 데이터와 더 양립(p = 0.070 > 0.041)

3. 방법 비교

방법	P값	S값	해석
Pearson χ²	0.016	5.97	근사 방법
Fisher 정확	0.041	4.61	정확 방법
Wald 근사	편차 큼	-	희소 데이터에서 부정확

사례 분석

대마초 사용 사례를 통해 저자는 다음을 시연:

가정 의존성: 결과는 보조 가정(예: 무작위 표본 추출, 간섭 없음 등)에 심각하게 의존
혼동 인자: 연령, 과거 병력, 기타 약물 사용 등이 실제 관련성을 혼동할 수 있음
측정 오류: 자가 보고 사용 상황 및 진단 정확성의 영향
선택 편향: 조사 참여의 선택성이 결과의 일반화 가능성에 영향

통계 방법의 한계: 전통 방법은 엄격한 가정에 기반하며, 실제 적용에서 종종 위반됨
언어의 중요성: "유의성"과 "신뢰" 등의 용어가 체계적 오해 야기
추론의 신중성: 통계 결과는 확정적 결론이 아닌 가정에 기반한 추측으로 간주되어야 함
방법 통합: 서로 다른 통계 방법을 상호보완적 도구로 사용

실무 권장사항

보고 개선:
- P값 함수 제공 (단일 P값 대신)
- 신뢰 구간 대신 양립성 구간 사용
- 핵심 가정을 명시적으로 나열
해석 틀:
- "수용/기각" 이분 언어 회피
- 결과의 가정 의존성 강조
- 통계적 유의성뿐 아닌 실무적 유의성 고려
방법 선택:
- 대표본 근사 대신 정확 방법 사용
- 민감도 분석 수행
- 다양한 증거 출처 통합

한계

학습 곡선: 새로운 틀은 통계 교육의 근본적 개혁 필요
계산 복잡성: 일부 권장 방법이 더 복잡한 계산 요구
학술지 저항: 기존 출판 관례가 채택을 방해할 수 있음
소통 과제: 비통계 전문가에게 설명하기 더 어려움

향후 방향

교육 개혁: 통계 교육이 기초 개념부터 개혁 필요
소프트웨어 개발: 새로운 해석 틀을 지원하는 통계 소프트웨어 필요
표준 제정: 학술지 및 규제 기관 표준 업데이트
학제 간 협력: 통계학자와 분야 전문가 간 협력 촉진

심층 평가

장점

이론적 깊이: 통계 추론에 대한 깊은 철학적 성찰 제공
실용성: 구체적인 방법 및 해석 권장사항 제시
충분한 증거: 관점을 지지하는 다량의 문헌 인용
명확한 저술: 복잡한 개념을 명확하게 설명하고 생생한 예시 제공

기술적 혁신

S값 도입: P값의 정보론적 관점 해석 혁신
양립성 틀: 체계적인 용어 및 개념 개혁
다중 방법 통합: 서로 다른 통계학파의 관점 통일
가정 계층화: 목표 가정과 보조 가정의 명확한 구분

부족한 점

실행 과제: 기존 통계 실무 개혁이 거대한 저항에 직면
계산 부담: 일부 권장 방법이 계산 복잡성 증가
전환의 어려움: 새로운 틀과 기존 틀의 공존이 혼란 야기 가능
보급 난제: 대규모 교육 및 훈련 투자 필요

영향력 평가

학술적 영향

패러다임 전환: 통계학 기초 개념의 주요 변혁 추진 가능
학제 간 영향: 통계 방법을 사용하는 모든 학과에 영향
교육 혁신: 통계 교육의 근본적 개혁 추진

실무적 가치

오해 감소: 통계 결과의 오독 감소에 도움
품질 향상: 더욱 신중하고 정확한 과학적 추론 촉진
정책 결정: 통계 증거에 기반한 의사결정 품질 개선

적용 장면

과학 연구: 통계 추론에 기반한 모든 연구 분야
의학 연구: 임상 시험 및 역학 연구
사회과학: 심리학, 경제학 등 경험적 연구
규제 결정: 약물 승인, 정책 평가 등

참고문헌

본 논문은 다량의 중요 참고문헌을 인용하며, 다음을 포함:

고전 문헌:

Pearson, K. (1900). 통계 검정의 초기 이론적 기초
Fisher, R.A. (1934). 현대 통계 추론 이론의 기초 마련
Neyman, J. (1977). 빈도주의 통계 이론

현대적 비판:

Amrhein, V., et al. (2019). 통계적 유의성 폐지 운동
Wasserstein, R.L., et al. (2019). P값에 관한 ASA 성명
McShane, B.B., et al. (2019, 2024). 이분 통계 결정 초월

방법론적 발전:

Pearl, J. (2009). 인과 추론 이론
Hernán, M.A., Robins, J.M. (2025). 현대 역학 방법
Gelman, A., et al. (2013). 베이지안 데이터 분석

요약: 본 논문은 중요한 이론적 및 실무적 의의를 지닌 통계 방법론 논문으로, 저자는 깊은 통계학 조예와 풍부한 적용 경험을 바탕으로 전통적 통계 추론 틀의 문제점을 체계적으로 비판하고 더욱 신중하고 현실적인 대안을 제시한다. 실행이 도전에 직면하지만, 그 이념은 과학 연구 품질 향상에 중요한 가치를 지닌다.