Generative networks are perfect tools to enhance the speed and precision of LHC simulations. It is important to understand their statistical precision, especially when generating events beyond the size of the training dataset. We present two complementary methods to estimate the amplification factor without large holdout datasets. Averaging amplification uses Bayesian networks or ensembling to estimate amplification from the precision of integrals over given phase-space volumes. Differential amplification uses hypothesis testing to quantify amplification without any resolution loss. Applied to state-of-the-art event generators, both methods indicate that amplification is possible in specific regions of phase space, but not yet across the entire distribution.
- ID de l'article: 2509.08048
- Titre: Forecasting Generative Amplification
- Auteurs: Henning Bahl, Sascha Diefenbacher, Nina Elmer, Tilman Plehn, Jonas Spinner
- Classification: hep-ph cs.LG
- Date de soumission: 17 octobre 2025 à SciPost Physics
- Lien de l'article: https://arxiv.org/abs/2509.08048
Les réseaux génératifs constituent des outils parfaits pour améliorer la vitesse et la précision des simulations du LHC. En particulier, lors de la génération d'événements dépassant l'échelle de l'ensemble de données d'entraînement, il est crucial de comprendre leur précision statistique. Cet article propose deux méthodes complémentaires pour estimer les facteurs d'amplification sans nécessiter de grands ensembles de données de validation. L'amplification moyenne utilise des réseaux bayésiens ou des méthodes d'ensemble pour estimer l'amplification à partir de la précision intégrée sur un volume d'espace des phases donné. L'amplification différentielle utilise des tests d'hypothèse pour quantifier l'amplification sans perte de résolution. Appliquées aux générateurs d'événements de pointe, les deux méthodes démontrent que l'amplification peut être réalisée dans certaines régions spécifiques de l'espace des phases.
- Défis Computationnels: Le LHC haute luminosité (HL-LHC) augmentera le volume de données d'un ordre de grandeur, nécessitant une augmentation correspondante de la précision et de la quantité des données simulées, mais le budget de calcul est loin de satisfaire les besoins.
- Concept d'Amplification Générative: L'amplification générative désigne le phénomène selon lequel un ensemble de données échantillonné à partir d'un réseau génératif peut fournir une meilleure description de la distribution réelle que les données d'entraînement. Ce phénomène repose sur la capacité du réseau génératif à interpoler la densité sous-jacente.
- Limitations des Méthodes d'Évaluation Existantes:
- Dépendance envers les distributions réelles connues
- Nécessité de grands ensembles de données de validation
- Impraticabilité dans les applications physiques réelles
- Fournir un cadre systématique pour quantifier l'amplification statistique des réseaux génératifs sans nécessiter de grands ensembles de données de validation
- Assurer une quantification fiable de l'incertitude pour l'application des réseaux génératifs en physique du LHC
- Aborder deux préoccupations fondamentales: comprendre comment utiliser les réseaux génératifs pour la simulation et fournir une limite inférieure pour l'incertitude statistique des ensembles de données générés
- Proposition de deux méthodes complémentaires d'estimation des facteurs d'amplification:
- Facteur d'amplification moyenne: estimation basée sur la précision intégrée du volume d'espace des phases
- Facteur d'amplification différentielle: estimation basée sur les tests d'hypothèse sans perte de résolution
- Cadre d'évaluation sans grand ensemble de données de validation: utilisation de réseaux bayésiens ou de méthodes d'ensemble pour estimer l'incertitude du modèle
- Vérification dans les applications réelles de physique du LHC: application aux générateurs d'événements de pointe pour la production de paires de quarks top
- Cadre théorique systématique: définition mathématiquement rigoureuse et méthodes d'évaluation de l'amplification générative
Étant donné un ensemble de données d'entraînement Dtruentrain∼ptrue(x), le réseau génératif apprend la densité pgen(x). Le facteur d'amplification est défini comme:
G=ntrainnequiv
où nequiv est le nombre d'événements équivalents satisfaisant:
M[Dtruenequiv,ptrue]=limngen→∞M[Dgenngen,ptrue]
Mesurer la cohérence des données générées avec la distribution réelle intégrée sur un volume d'espace des phases spécifique V:
I(ptrue)=∫Vdxptrue(x)
L'incertitude totale comprend deux composantes:
undefined