2025-11-12T20:37:10.312937

Bayesian forecasting of electoral outcomes with new parties' competition

Montalvo, Papaspiliopoulos, Stumpf-Fétizon
This paper proposed a methodology to forecast electoral outcomes using the result of the combination of a fundamental model and a model-based aggregation of polls. We propose a Bayesian hierarchical structure for the fundamental model that synthesises data at the provincial, regional and national level. We use a Bayesian strategy to combine the fundamental model with the information coming for recent polls. This model can naturally be updated every time new information, for instance a new poll, becomes available. This methodology is well suited to deal with increasingly frequent situations in which new political parties enter an electoral competition, although our approach is general enough to accommodate any other electoral situation. We illustrate the advantages of our method using the 2015 Spanish Congressional Election in which two new parties ended up receiving 30\% of the votes. We compare the predictive performance of our model versus alternative models. In general the predictions of our model outperform the alternative specifications, including hybrid models that combine fundamental and polls models. Our predictions are, in relative terms, particularly accurate in predicting the seats obtained by each political party.
academic

Prévision bayésienne des résultats électoraux avec concurrence de nouveaux partis

Informations de base

  • ID de l'article: 1612.03073
  • Titre: Bayesian forecasting of electoral outcomes with new parties' competition
  • Auteurs: Jose Garcia Montalvo, Omiros Papaspiliopoulos, Timothee Stumpf-Fetizon
  • Classification: stat.AP (Applications statistiques)
  • Date de publication: 4 février 2019
  • Lien de l'article: https://arxiv.org/abs/1612.03073

Résumé

Cet article propose une nouvelle méthode de prévision des résultats électoraux qui combine un modèle fondamental (fundamental model) et les sondages nationaux, intégrés dans un cadre de synthèse des preuves. Cette méthode est particulièrement adaptée à la prévision électorale avec participation de nouveaux partis, phénomène devenu de plus en plus courant dans l'environnement politique européen après 2008. Les auteurs utilisent l'élection législative espagnole de 2015 comme étude de cas, démontrant les avantages de leur approche par rapport aux méthodes concurrentes, notamment en matière de prévision des sièges parlementaires obtenus par chaque parti.

Contexte et motivation de la recherche

Problèmes fondamentaux

  1. Défi des partis émergents: Les méthodes traditionnelles de prévision électorale sont principalement conçues pour les systèmes bipartites ou les partis établis de longue date, et peinent à traiter les élections avec participation de nouveaux partis
  2. Complexité de l'allocation des sièges: La plupart des sondages prévoient les résultats au niveau national, mais l'allocation des sièges s'effectue au niveau local, avec des relations de transformation non linéaires
  3. Absence de données historiques: Les nouveaux partis manquent de données électorales historiques, rendant les méthodes traditionnelles de régression temporelle inefficaces

Importance de la recherche

  • Après la crise financière de 2008, 45 partis « insurgents » ont émergé en Europe, occupant 18,3 % des sièges parlementaires dans 27 pays de l'Union européenne
  • Aux élections espagnoles de 2015, deux nouveaux partis (Podemos et Ciudadanos) ont obtenu plus de 30 % des sièges parlementaires
  • Les méthodes de prévision traditionnelles ont montré de mauvaises performances face aux changements radicaux du paysage politique

Limitations des méthodes existantes

  1. Modèles fondamentaux: Dépendent des données historiques et des variables socio-économiques, inefficaces pour les nouveaux partis
  2. Agrégation de sondages: Fournissent généralement uniquement des prévisions au niveau national, ignorant les variations locales
  3. Modèles hybrides: Les méthodes existantes nécessitent suffisamment de données historiques pour la régression, inadaptées au contexte des nouveaux partis

Contributions principales

  1. Cadre hybride innovant: Propose un nouveau modèle hybride basé sur la synthèse bayésienne des preuves, capable de traiter les nouveaux partis sans données historiques
  2. Modélisation multi-niveaux: Développe une structure hiérarchique bayésienne combinant les données au niveau provincial, régional et national
  3. Optimisation de la prévision des sièges: Modélise spécifiquement l'allocation des sièges parlementaires, tenant compte des caractéristiques non linéaires de la méthode d'Hondt
  4. Validation empirique: Vérifie l'efficacité de la méthode aux élections espagnoles de 2015, avec des erreurs de prévision des sièges significativement inférieures aux méthodes alternatives

Détails méthodologiques

Définition de la tâche

Entrées:

  • Données de réponses individuelles des enquêtes pré-électorales
  • Résultats de sondages publiés
  • Données de recensement

Sorties:

  • Prévisions du pourcentage de votes par parti dans chaque province
  • Prévisions d'allocation des sièges parlementaires
  • Intervalles d'incertitude des prévisions

Contraintes:

  • Traiter le manque de données historiques pour les nouveaux partis
  • Considérer les règles d'allocation des sièges d'Hondt
  • Satisfaire aux seuils de 3 % de votes par province

Architecture du modèle

1. Modèle fondamental (Fundamental Model)

Utilise un modèle de régression logistique multinomiale pour prévoir les intentions de vote au niveau local :

sₙ|μₙ ~ Multinomial(μₙ)

où μₙ est le vecteur de probabilités de vote au niveau n, calculé par :

μₙ(l) = exp(fₙ,ₗ) / Σᴸₘ₌₁ exp(fₙ,ₘ)

Forme de combinaison linéaire :

fₙ,ₗ = αₗ + Σₖ β(k,jₖ[n],l)

2. Modèle de sondages (Polls Model)

Établit un modèle d'analyse de variance explicative, décomposant l'erreur de sondage :

(pₖ - vₜ[ₖ]) ~ N(γⱼ[ₖ] + δₜ[ₖ] + dₖεₜ[ₖ], Σⱼ[ₖ])

où :

  • γⱼ: biais invariant dans le temps de l'institut de sondage (house effect)
  • δₜ: biais systématique au niveau électoral (election effect)
  • εₜ: effet de tendance temporelle (trending)
  • dₖ: nombre de jours avant l'élection

3. Modèle hybride (Hybrid Model)

Utilise la méthode bayésienne de synthèse des preuves :

Prob[résultat électoral|sondages disponibles] ∝ Prob[sondages disponibles|résultat électoral] × Prob[résultat électoral]

Procédure opérationnelle :

  1. Générer des simulations de résultats locaux selon le modèle fondamental
  2. Agréger au niveau national pour obtenir vₛ
  3. Calculer les poids selon le modèle de sondages : Wₓ = Probsondages disponibles|vₛ
  4. Calculer la moyenne pondérée : Σₛ g(v₁,ₛ,...,vᵢ,ₛ)Wₛ / Σₛ Wₛ

Points d'innovation technique

  1. Technique de post-stratification: Utilise les données de recensement pour la post-stratification, résolvant les problèmes de représentativité des échantillons d'enquête
  2. Méthode de régression inverse: Convertit le modèle de sondage explicatif en modèle prédictif
  3. Échantillonnage par importance: Utilise l'échantillonnage par importance pour explorer la distribution a posteriori
  4. Modélisation de l'allocation des sièges: Modélise directement le processus non linéaire d'allocation des sièges par la méthode d'Hondt

Configuration expérimentale

Ensemble de données

  1. Enquête pré-électorale: Enquête CIS 2015, 17 452 répondants
  2. Sondages historiques: 157 sondages électoraux (publiés dans les 30 jours avant les élections législatives de 1996-2011)
  3. Sondages 2015: 51 sondages (publiés dans les 30 jours avant l'élection)
  4. Recensement: Données de recensement officiel espagnol pour la post-stratification

Indicateurs d'évaluation

  1. RMSE: Racine de l'erreur quadratique moyenne
  2. Coefficient de corrélation: Corrélation entre les valeurs prévues et réelles
  3. Erreur de prévision des sièges: Différence absolue en nombre de sièges
  4. Prévisions probabilistes: Calibrage des intervalles de prévision

Méthodes de comparaison

  1. Modèle fondamental alternatif: Modèle de régression avec taux de croissance du PIB et résultats électoraux décalés
  2. Modèle de sondages alternatif: Moyenne simple des sondages
  3. Modèle hybride alternatif: Modèle de régression hybride classique de Lewis-Beck et al.

Détails d'implémentation

  • Inférence bayésienne utilisant Stan
  • Échantillonnage MCMC : 4 chaînes, 2000 itérations par chaîne
  • Facteur d'amplification de l'incertitude : 1,5 fois l'incertitude du terme constant
  • Modélisation hiérarchique utilisant des distributions a priori standards

Résultats expérimentaux

Résultats principaux

Prévisions du pourcentage de votes (élection 2015)

PartiRésultat réelMéthode proposéeErreurModèle hybride alternatifErreur
PSOE0.2200.2030.0170.607-0.387
PP0.2870.2750.0120.2730.013

Prévisions des sièges (élection 2015)

PartiSièges réelsMéthode proposéeErreurModèle hybride alternatifErreur
PSOE9075.4714.53137.57-47.57
PP123125.32-2.31105.6517.34

Découvertes clés

  1. Avantage significatif en prévision des sièges: La méthode proposée réduit l'erreur de prévision des sièges d'environ 70 % par rapport aux méthodes alternatives
  2. Poids des sondages: Dans les prévisions moyennes nationales, le poids du modèle fondamental est d'environ 35 %, celui du modèle de sondages de 65 %
  3. Distribution géographique: Le modèle capture avec succès les caractéristiques de distribution géographique des différents partis

Expériences d'ablation

  1. Performance du modèle fondamental seul: RMSE de 0.04-0.06, coefficient de corrélation de 0.78-0.90
  2. Performance du modèle de sondages seul: Prévisions précises au niveau national, mais sans information locale
  3. Effet de synthèse: Le modèle hybride combine les avantages des deux, avec la meilleure performance en prévision des sièges

Travaux connexes

Principales directions de recherche

  1. Approches par modèles fondamentaux: Méthodes structurées basées sur des données historiques et socio-économiques (comme le modèle « bread and peace » de Hibbs)
  2. Agrégation de sondages: Méthodes de moyenne pondérée des sondages et marchés de prévision
  3. Modèles hybrides: Méthodes de prévision intégrées combinant variables fondamentales et données de sondages

Innovations de cet article

  1. Traitement des nouveaux partis: Première approche systématique du problème de prévision électorale avec participation de nouveaux partis
  2. Synthèse multi-niveaux: Combinaison innovante de données d'enquête au niveau individuel et données de sondages au niveau agrégé
  3. Orientation vers les sièges: Optimisation spécifique pour l'allocation des sièges parlementaires, plutôt que de se concentrer uniquement sur le pourcentage de votes

Conclusions et discussion

Conclusions principales

  1. La méthode bayésienne hybride proposée peut traiter efficacement les prévisions électorales avec participation de nouveaux partis
  2. La méthode surpasse significativement les méthodes traditionnelles en matière de prévision des sièges
  3. La technique de post-stratification et le cadre de synthèse des preuves offrent de nouvelles voies technologiques pour la prévision électorale

Limitations

  1. Problèmes de calibrage: Les données d'enquête CIS présentent une surestimation systématique de la variance
  2. Complexité computationnelle: L'inférence bayésienne et l'échantillonnage par importance ont des coûts de calcul élevés
  3. Dépendance aux a priori: La performance de la méthode dépend de la configuration appropriée des distributions a priori

Directions futures

  1. Améliorer les méthodes de calibrage des données d'enquête
  2. Étendre à d'autres systèmes électoraux et pays
  3. Intégrer de nouvelles sources de données telles que les médias sociaux

Évaluation approfondie

Avantages

  1. Forte innovativité méthodologique: Première approche systématique du problème important de prévision électorale avec nouveaux partis
  2. Fondations théoriques solides: Basée sur la théorie moderne des modèles hiérarchiques bayésiens
  3. Validation empirique suffisante: Vérification utilisant des données électorales réelles, résultats convaincants
  4. Valeur pratique élevée: La méthode peut être directement appliquée à la prévision électorale réelle

Insuffisances

  1. Validation sur cas unique: Principalement basée sur l'élection espagnole de 2015, capacité de généralisation à vérifier
  2. Efficacité computationnelle: L'inférence bayésienne est complexe, la prévision en temps réel peut faire face à des défis
  3. Exigences de données: Nécessite des données d'enquête individuelle de haute qualité, difficiles à obtenir dans certains pays

Impact

  1. Contribution académique: Fournit un nouveau cadre méthodologique au domaine de la prévision électorale
  2. Application pratique: La méthode a été appliquée à la prévision électorale ultérieure
  3. Valeur interdisciplinaire: La méthode peut être étendue à d'autres scénarios de prévision impliquant la concurrence de nouveaux acteurs

Scénarios d'application

  1. Environnements électoraux avec changements rapides du paysage politique
  2. Élections avec participation de nouveaux partis ou candidats
  3. Prévisions d'allocation précise des sièges dans les systèmes électoraux à représentation proportionnelle
  4. Scénarios de prévision disposant de données d'enquête individuelle et de données de sondages

Références

  1. Hibbs, D. A. (2008). Implications of the 'bread and peace' model for the 2008 US presidential election
  2. Lewis-Beck, M. & Dassonneville, R. (2016). Forecasting methods in Europe: synthetic models
  3. Park, D. K., Gelman, A., & Bafumi, J. (2004). Bayesian multilevel estimation with poststratification
  4. Gelman, A. & Hill, J. (2007). Data analysis using regression and multilevel/hierarchical models

Résumé: Cet article apporte une innovation importante à la méthodologie de prévision électorale, en particulier en fournissant une solution efficace au problème croissant de la participation de nouveaux partis aux élections dans les démocraties modernes. Bien qu'il présente certaines limitations, ses contributions théoriques et sa valeur pratique méritent d'être reconnues.