2025-11-12T20:37:10.312937

Bayesian forecasting of electoral outcomes with new parties' competition

Montalvo, Papaspiliopoulos, Stumpf-Fétizon
This paper proposed a methodology to forecast electoral outcomes using the result of the combination of a fundamental model and a model-based aggregation of polls. We propose a Bayesian hierarchical structure for the fundamental model that synthesises data at the provincial, regional and national level. We use a Bayesian strategy to combine the fundamental model with the information coming for recent polls. This model can naturally be updated every time new information, for instance a new poll, becomes available. This methodology is well suited to deal with increasingly frequent situations in which new political parties enter an electoral competition, although our approach is general enough to accommodate any other electoral situation. We illustrate the advantages of our method using the 2015 Spanish Congressional Election in which two new parties ended up receiving 30\% of the votes. We compare the predictive performance of our model versus alternative models. In general the predictions of our model outperform the alternative specifications, including hybrid models that combine fundamental and polls models. Our predictions are, in relative terms, particularly accurate in predicting the seats obtained by each political party.
academic

새로운 정당 경쟁을 고려한 선거 결과의 베이지안 예측

기본 정보

  • 논문 ID: 1612.03073
  • 제목: Bayesian forecasting of electoral outcomes with new parties' competition
  • 저자: Jose Garcia Montalvo, Omiros Papaspiliopoulos, Timothee Stumpf-Fetizon
  • 분류: stat.AP (통계학 응용)
  • 발표 시간: 2019년 2월 4일
  • 논문 링크: https://arxiv.org/abs/1612.03073

초록

본 논문은 기초 모형(fundamental model)과 전국 여론조사를 결합하여 증거 종합 프레임워크 내에서 통합하는 선거 결과 예측의 새로운 방법을 제시한다. 이 방법은 특히 새로운 정당의 경쟁이 있는 선거 예측에 적합하며, 이는 2008년 이후 유럽 정치 환경에서 점점 더 일반적이다. 저자들은 2015년 스페인 국회 선거를 사례 연구로 사용하여 다른 경쟁 방법에 비한 이 방법의 우월성을 보여주며, 특히 각 정당이 획득한 의회 의석 예측에서 우수한 성능을 나타낸다.

연구 배경 및 동기

핵심 문제

  1. 신흥 정당의 도전: 전통적인 선거 예측 방법은 주로 양당제 또는 오랜 역사를 가진 정당을 대상으로 하며, 신흥 정당이 참여하는 선거를 처리하기 어렵다
  2. 의석 배분의 복잡성: 대부분의 여론조사는 전국 수준의 결과를 예측하지만, 의석 배분은 지역 수준에서 이루어지며 비선형 변환 관계가 존재한다
  3. 역사적 데이터 부족: 신규 정당은 역사적 선거 데이터가 부족하여 전통적인 시계열 회귀 방법이 작동하지 않는다

연구의 중요성

  • 2008년 금융 위기 이후 유럽에서 45개의 "반란군" 정당이 나타났으며, 27개 EU 국가 의회 의석의 18.3%를 차지했다
  • 2015년 스페인 선거에서 두 개의 신규 정당(Podemos와 Ciudadanos)이 의회 의석의 30% 이상을 획득했다
  • 전통적인 예측 방법은 정치 지형의 급격한 변화에 직면했을 때 성능이 좋지 않다

기존 방법의 한계

  1. 기초 모형: 역사적 데이터와 사회경제적 변수에 의존하며, 신규 정당에는 무효하다
  2. 여론조사 집계: 일반적으로 전국 수준의 예측만 제공하며, 지역 차이를 무시한다
  3. 혼합 모형: 기존 방법은 회귀를 위한 충분한 역사적 데이터가 필요하며, 신규 정당 시나리오에 적합하지 않다

핵심 기여

  1. 혁신적인 혼합 프레임워크: 역사적 데이터 없이도 신규 정당을 처리할 수 있는 베이지안 증거 종합 기반의 새로운 혼합 모형 제시
  2. 다층 모델링: 지역, 지방 및 전국 수준의 데이터를 결합하는 베이지안 계층 구조 개발
  3. 의석 예측 최적화: 의회 의석 배분을 위해 특별히 모델링하며, D'Hondt 배분 방법의 비선형 특성을 고려
  4. 실증적 검증: 2015년 스페인 선거에서 방법의 유효성을 검증하였으며, 의석 예측 오류가 대체 방법보다 현저히 낮다

방법론 상세 설명

작업 정의

입력:

  • 선거 전 조사의 개별 응답 데이터
  • 발표된 여론조사 결과
  • 인구 조사 데이터

출력:

  • 각 지역별 정당별 득표율 예측
  • 의회 의석 배분 예측
  • 예측의 불확실성 구간

제약 조건:

  • 신규 정당의 역사적 데이터 부족 상황 처리
  • D'Hondt 의석 배분 규칙 고려
  • 각 지역 3% 득표 기준선 충족

모델 아키텍처

1. 기초 모형 (Fundamental Model)

다항 로지스틱 회귀 모형을 사용하여 지역 수준의 투표 의향을 예측:

sₙ|μₙ ~ Multinomial(μₙ)

여기서 μₙ은 n번째 계층의 투표 확률 벡터이며, 다음 공식으로 계산된다:

μₙ(l) = exp(fₙ,ₗ) / Σᴸₘ₌₁ exp(fₙ,ₘ)

선형 조합 형식:

fₙ,ₗ = αₗ + Σₖ β(k,jₖ[n],l)

2. 여론조사 모형 (Polls Model)

설명적 분산 분석 모형을 구축하여 여론조사 오류를 분해:

(pₖ - vₜ[ₖ]) ~ N(γⱼ[ₖ] + δₜ[ₖ] + dₖεₜ[ₖ], Σⱼ[ₖ])

여기서:

  • γⱼ: 여론조사 기관의 시간 불변 편향(house effect)
  • δₜ: 선거 수준의 체계적 편향(election effect)
  • εₜ: 시간 추세 효과(trending)
  • dₖ: 선거까지의 일수

3. 혼합 모형 (Hybrid Model)

베이지안 증거 종합 방법 사용:

Prob[선거 결과|이용 가능한 여론조사] ∝ Prob[이용 가능한 여론조사|선거 결과] × Prob[선거 결과]

작동 절차:

  1. 기초 모형에 따라 지역 결과 시뮬레이션 생성
  2. 전국 수준으로 집계하여 vₛ 획득
  3. 여론조사 모형에 따라 가중치 계산: Wₓ = Prob이용 가능한 여론조사|vₛ
  4. 가중 평균 계산: Σₛ g(v₁,ₛ,...,vᵢ,ₛ)Wₛ / Σₛ Wₛ

기술적 혁신점

  1. 사후 분층 기법: 인구 조사 데이터를 사용한 사후 분층으로 조사 표본의 대표성 문제 해결
  2. 역 회귀 방법: 설명적 여론조사 모형을 예측적 모형으로 변환
  3. 중요도 샘플링: 중요도 샘플링을 사용하여 사후 분포 탐색
  4. 의석 배분 모델링: D'Hondt 방법의 비선형 의석 배분 과정을 직접 모델링

실험 설정

데이터셋

  1. 선거 전 조사: 2015년 CIS 선거 전 조사, 17,452명의 응답자
  2. 역사적 여론조사: 157개의 선거 여론조사(1996-2011년 국회 선거 전 30일 이내 발표)
  3. 2015년 여론조사: 51개의 여론조사(선거 전 30일 이내)
  4. 인구 조사: 사후 분층을 위한 스페인 공식 인구 조사 데이터

평가 지표

  1. RMSE: 평균 제곱근 오차
  2. 상관 계수: 예측값과 실제값의 상관성
  3. 의석 예측 오류: 절대 의석 수 차이
  4. 확률 예측: 예측 구간의 보정도

비교 방법

  1. 대체 기초 모형: GDP 성장률 + 지연 선거 결과의 회귀 모형
  2. 대체 여론조사 모형: 단순 여론조사 평균
  3. 대체 혼합 모형: Lewis-Beck 등의 고전적 혼합 회귀 모형

구현 세부사항

  • Stan을 사용한 베이지안 추론
  • MCMC 샘플링: 4개 체인, 각 체인 2,000회 반복
  • 불확실성 증폭 계수: 1.5배 상수항 불확실성
  • 계층 모델링은 표준 사전 분포 사용

실험 결과

주요 결과

득표율 예측 (2015년 선거)

정당실제 결과본 논문 방법오류대체 혼합 모형오류
PSOE0.2200.2030.0170.607-0.387
PP0.2870.2750.0120.2730.013

의석 예측 (2015년 선거)

정당실제 의석본 논문 방법오류대체 혼합 모형오류
PSOE9075.4714.53137.57-47.57
PP123125.32-2.31105.6517.34

주요 발견

  1. 의석 예측 우월성 현저함: 본 논문 방법은 의석 예측에서 대체 방법 대비 오류를 약 70% 감소
  2. 여론조사 가중치: 전국 평균 예측에서 기초 모형 가중치는 약 35%, 여론조사 모형 가중치는 65%
  3. 지리적 분포: 모형은 다양한 정당의 지리적 분포 특성을 성공적으로 포착

소거 실험

  1. 기초 모형 단독 성능: RMSE 0.04-0.06, 상관 계수 0.78-0.90
  2. 여론조사 모형 단독 성능: 전국 수준 예측에서 정확하나 지역 정보 제공 불가
  3. 합성 효과: 혼합 모형은 두 방법의 장점을 결합하여 의석 예측에서 최고 성능

관련 연구

주요 연구 방향

  1. 기초 모형 방법: 역사 및 사회경제 데이터 기반의 구조화된 방법(예: Hibbs의 "bread and peace" 모형)
  2. 여론조사 집계: 여론조사 가중 평균 및 예측 시장 방법
  3. 혼합 모형: 기초 변수와 여론조사를 결합한 종합 예측 방법

본 논문의 혁신

  1. 신규 정당 처리: 신규 정당이 참여하는 선거 예측 문제를 체계적으로 해결한 최초 연구
  2. 다층 종합: 개별 수준 조사 데이터와 집계 수준 여론조사 데이터를 혁신적으로 결합
  3. 의석 지향: 득표율만이 아닌 의회 의석 배분을 위해 특별히 최적화

결론 및 논의

주요 결론

  1. 제시된 베이지안 혼합 방법은 신규 정당이 참여하는 선거 예측을 효과적으로 처리할 수 있다
  2. 방법은 의석 예측 측면에서 전통적 방법보다 현저히 우수하다
  3. 사후 분층 기법과 증거 종합 프레임워크는 선거 예측을 위한 새로운 기술 경로를 제공한다

한계

  1. 보정 문제: CIS 조사 데이터에 체계적인 분산 과대 추정 문제가 존재한다
  2. 계산 복잡도: 베이지안 추론과 중요도 샘플링의 계산 비용이 높다
  3. 사전 의존성: 방법 성능은 사전 분포의 합리적 설정에 의존한다

향후 방향

  1. 조사 데이터의 보정 방법 개선
  2. 다른 선거 제도 및 국가로 확대
  3. 소셜 미디어 등 새로운 데이터 소스 통합

심층 평가

장점

  1. 방법론적 혁신성 강함: 신규 정당 선거 예측이라는 중요한 문제를 체계적으로 해결한 최초 연구
  2. 이론적 기초 견고함: 현대 통계학의 베이지안 계층 모형 이론에 기반
  3. 실증적 검증 충분함: 실제 선거 데이터를 사용한 검증으로 설득력 강함
  4. 실용적 가치 높음: 방법을 실제 선거 예측에 직접 적용 가능

부족한 점

  1. 단일 사례 검증: 주로 2015년 스페인 선거에 기반하여 일반화 능력 검증 필요
  2. 계산 효율성: 베이지안 추론 계산이 복잡하여 실시간 예측에 어려움 가능
  3. 데이터 요구사항: 고품질의 개별 조사 데이터 필요로 일부 국가에서 획득 어려울 수 있음

영향력

  1. 학술적 기여: 선거 예측 분야에 새로운 방법론 프레임워크 제공
  2. 실제 응용: 방법이 후속 선거 예측 실무에 적용됨
  3. 학제 간 가치: 방법을 새로운 주체의 경쟁이 있는 다른 예측 시나리오로 확대 가능

적용 가능 시나리오

  1. 정치 지형이 빠르게 변화하는 선거 환경
  2. 신규 정당 또는 후보자가 참여하는 선거
  3. 정확한 의석 배분 예측이 필요한 비례 대표제 선거
  4. 개별 조사 데이터와 여론조사 데이터를 보유한 예측 시나리오

참고문헌

  1. Hibbs, D. A. (2008). Implications of the 'bread and peace' model for the 2008 US presidential election
  2. Lewis-Beck, M. & Dassonneville, R. (2016). Forecasting methods in Europe: synthetic models
  3. Park, D. K., Gelman, A., & Bafumi, J. (2004). Bayesian multilevel estimation with poststratification
  4. Gelman, A. & Hill, J. (2007). Data analysis using regression and multilevel/hierarchical models

요약: 본 논문은 선거 예측 방법론에서 중요한 혁신을 이루었으며, 특히 현대 민주주의 정치에서 점점 더 중요해지는 신규 정당이 참여하는 선거라는 문제에 효과적인 해결책을 제공한다. 일정한 한계가 있지만, 이론적 기여와 실용적 가치 모두 높이 평가할 만하다.