2025-11-22T21:28:16.108948

Forecasting Generative Amplification

Bahl, Diefenbacher, Elmer et al.
Generative networks are perfect tools to enhance the speed and precision of LHC simulations. It is important to understand their statistical precision, especially when generating events beyond the size of the training dataset. We present two complementary methods to estimate the amplification factor without large holdout datasets. Averaging amplification uses Bayesian networks or ensembling to estimate amplification from the precision of integrals over given phase-space volumes. Differential amplification uses hypothesis testing to quantify amplification without any resolution loss. Applied to state-of-the-art event generators, both methods indicate that amplification is possible in specific regions of phase space, but not yet across the entire distribution.
academic

Prévision de l'Amplification Générative

Informations Fondamentales

  • ID de l'article: 2509.08048
  • Titre: Forecasting Generative Amplification
  • Auteurs: Henning Bahl, Sascha Diefenbacher, Nina Elmer, Tilman Plehn, Jonas Spinner
  • Classification: hep-ph cs.LG
  • Date de soumission: 17 octobre 2025 à SciPost Physics
  • Lien de l'article: https://arxiv.org/abs/2509.08048

Résumé

Les réseaux génératifs constituent des outils parfaits pour améliorer la vitesse et la précision des simulations du LHC. En particulier, lors de la génération d'événements dépassant l'échelle de l'ensemble de données d'entraînement, il est crucial de comprendre leur précision statistique. Cet article propose deux méthodes complémentaires pour estimer les facteurs d'amplification sans nécessiter de grands ensembles de données de validation. L'amplification moyenne utilise des réseaux bayésiens ou des méthodes d'ensemble pour estimer l'amplification à partir de la précision intégrée sur un volume d'espace des phases donné. L'amplification différentielle utilise des tests d'hypothèse pour quantifier l'amplification sans perte de résolution. Appliquées aux générateurs d'événements de pointe, les deux méthodes démontrent que l'amplification peut être réalisée dans certaines régions spécifiques de l'espace des phases.

Contexte et Motivation de la Recherche

Contexte du Problème

  1. Défis Computationnels: Le LHC haute luminosité (HL-LHC) augmentera le volume de données d'un ordre de grandeur, nécessitant une augmentation correspondante de la précision et de la quantité des données simulées, mais le budget de calcul est loin de satisfaire les besoins.
  2. Concept d'Amplification Générative: L'amplification générative désigne le phénomène selon lequel un ensemble de données échantillonné à partir d'un réseau génératif peut fournir une meilleure description de la distribution réelle que les données d'entraînement. Ce phénomène repose sur la capacité du réseau génératif à interpoler la densité sous-jacente.
  3. Limitations des Méthodes d'Évaluation Existantes:
    • Dépendance envers les distributions réelles connues
    • Nécessité de grands ensembles de données de validation
    • Impraticabilité dans les applications physiques réelles

Motivation de la Recherche

  • Fournir un cadre systématique pour quantifier l'amplification statistique des réseaux génératifs sans nécessiter de grands ensembles de données de validation
  • Assurer une quantification fiable de l'incertitude pour l'application des réseaux génératifs en physique du LHC
  • Aborder deux préoccupations fondamentales: comprendre comment utiliser les réseaux génératifs pour la simulation et fournir une limite inférieure pour l'incertitude statistique des ensembles de données générés

Contributions Principales

  1. Proposition de deux méthodes complémentaires d'estimation des facteurs d'amplification:
    • Facteur d'amplification moyenne: estimation basée sur la précision intégrée du volume d'espace des phases
    • Facteur d'amplification différentielle: estimation basée sur les tests d'hypothèse sans perte de résolution
  2. Cadre d'évaluation sans grand ensemble de données de validation: utilisation de réseaux bayésiens ou de méthodes d'ensemble pour estimer l'incertitude du modèle
  3. Vérification dans les applications réelles de physique du LHC: application aux générateurs d'événements de pointe pour la production de paires de quarks top
  4. Cadre théorique systématique: définition mathématiquement rigoureuse et méthodes d'évaluation de l'amplification générative

Détails Méthodologiques

Définition de la Tâche

Étant donné un ensemble de données d'entraînement Dtruentrainptrue(x)D^{n_{train}}_{true} \sim p_{true}(x), le réseau génératif apprend la densité pgen(x)p_{gen}(x). Le facteur d'amplification est défini comme: G=nequivntrainG = \frac{n_{equiv}}{n_{train}}nequivn_{equiv} est le nombre d'événements équivalents satisfaisant: M[Dtruenequiv,ptrue]=limngenM[Dgenngen,ptrue]M[D^{n_{equiv}}_{true}, p_{true}] = \lim_{n_{gen} \to \infty} M[D^{n_{gen}}_{gen}, p_{true}]

Méthode du Facteur d'Amplification Moyenne

Idée Centrale

Mesurer la cohérence des données générées avec la distribution réelle intégrée sur un volume d'espace des phases spécifique VV: I(ptrue)=Vdxptrue(x)I(p_{true}) = \int_V dx \, p_{true}(x)

Décomposition de l'Incertitude

L'incertitude totale comprend deux composantes:

undefined