2025-11-22T21:28:16.108948

Forecasting Generative Amplification

Bahl, Diefenbacher, Elmer et al.

Generative networks are perfect tools to enhance the speed and precision of LHC simulations. It is important to understand their statistical precision, especially when generating events beyond the size of the training dataset. We present two complementary methods to estimate the amplification factor without large holdout datasets. Averaging amplification uses Bayesian networks or ensembling to estimate amplification from the precision of integrals over given phase-space volumes. Differential amplification uses hypothesis testing to quantify amplification without any resolution loss. Applied to state-of-the-art event generators, both methods indicate that amplification is possible in specific regions of phase space, but not yet across the entire distribution.

academic

Prévision de l'Amplification Générative

Informations Fondamentales

ID de l'article: 2509.08048
Titre: Forecasting Generative Amplification
Auteurs: Henning Bahl, Sascha Diefenbacher, Nina Elmer, Tilman Plehn, Jonas Spinner
Classification: hep-ph cs.LG
Date de soumission: 17 octobre 2025 à SciPost Physics
Lien de l'article: https://arxiv.org/abs/2509.08048

Résumé

Les réseaux génératifs constituent des outils parfaits pour améliorer la vitesse et la précision des simulations du LHC. En particulier, lors de la génération d'événements dépassant l'échelle de l'ensemble de données d'entraînement, il est crucial de comprendre leur précision statistique. Cet article propose deux méthodes complémentaires pour estimer les facteurs d'amplification sans nécessiter de grands ensembles de données de validation. L'amplification moyenne utilise des réseaux bayésiens ou des méthodes d'ensemble pour estimer l'amplification à partir de la précision intégrée sur un volume d'espace des phases donné. L'amplification différentielle utilise des tests d'hypothèse pour quantifier l'amplification sans perte de résolution. Appliquées aux générateurs d'événements de pointe, les deux méthodes démontrent que l'amplification peut être réalisée dans certaines régions spécifiques de l'espace des phases.

Contexte et Motivation de la Recherche

Contexte du Problème

Défis Computationnels: Le LHC haute luminosité (HL-LHC) augmentera le volume de données d'un ordre de grandeur, nécessitant une augmentation correspondante de la précision et de la quantité des données simulées, mais le budget de calcul est loin de satisfaire les besoins.
Concept d'Amplification Générative: L'amplification générative désigne le phénomène selon lequel un ensemble de données échantillonné à partir d'un réseau génératif peut fournir une meilleure description de la distribution réelle que les données d'entraînement. Ce phénomène repose sur la capacité du réseau génératif à interpoler la densité sous-jacente.
Limitations des Méthodes d'Évaluation Existantes:
- Dépendance envers les distributions réelles connues
- Nécessité de grands ensembles de données de validation
- Impraticabilité dans les applications physiques réelles

Motivation de la Recherche

Fournir un cadre systématique pour quantifier l'amplification statistique des réseaux génératifs sans nécessiter de grands ensembles de données de validation
Assurer une quantification fiable de l'incertitude pour l'application des réseaux génératifs en physique du LHC
Aborder deux préoccupations fondamentales: comprendre comment utiliser les réseaux génératifs pour la simulation et fournir une limite inférieure pour l'incertitude statistique des ensembles de données générés

Contributions Principales

Proposition de deux méthodes complémentaires d'estimation des facteurs d'amplification:
- Facteur d'amplification moyenne: estimation basée sur la précision intégrée du volume d'espace des phases
- Facteur d'amplification différentielle: estimation basée sur les tests d'hypothèse sans perte de résolution
Cadre d'évaluation sans grand ensemble de données de validation: utilisation de réseaux bayésiens ou de méthodes d'ensemble pour estimer l'incertitude du modèle
Vérification dans les applications réelles de physique du LHC: application aux générateurs d'événements de pointe pour la production de paires de quarks top
Cadre théorique systématique: définition mathématiquement rigoureuse et méthodes d'évaluation de l'amplification générative

Détails Méthodologiques

Définition de la Tâche

Étant donné un ensemble de données d'entraînement $D^{n_{train}}_{true} \sim p_{true}(x)$ , le réseau génératif apprend la densité $p_{gen}(x)$ . Le facteur d'amplification est défini comme: $G = \frac{n_{equiv}}{n_{train}}$ où $n_{equiv}$ est le nombre d'événements équivalents satisfaisant: $M[D^{n_{equiv}}_{true}, p_{true}] = \lim_{n_{gen} \to \infty} M[D^{n_{gen}}_{gen}, p_{true}]$

Méthode du Facteur d'Amplification Moyenne

Idée Centrale

Mesurer la cohérence des données générées avec la distribution réelle intégrée sur un volume d'espace des phases spécifique $V$ : $I(p_{true}) = \int_V dx \, p_{true}(x)$

Décomposition de l'Incertitude

L'incertitude totale comprend deux composantes: $M_I[D^{n_{gen}}_{gen}, p_{true}] = \begin{cases} \sigma^2_{stat}(n_{gen}) & \text{si } p_{gen} = p_{true} \\ \sigma^2_{stat}(n_{gen}) + \sigma^2_{model}(p_{gen}, p_{true}) & \text{si } p_{gen} \neq p_{true} \end{cases}$

Implémentation par Réseau Bayésien

Utilisation d'un réseau génératif bayésien pour estimer l'incertitude du modèle: $\sigma^2_{model}(p_{gen}, p_{true}) = \langle \bar{I}^2 \rangle_\theta - \langle \bar{I} \rangle^2_\theta - \frac{\langle \bar{I} \rangle_\theta (1 - \langle \bar{I} \rangle_\theta)}{n_{gen}}$

Méthode du Facteur d'Amplification Différentielle

Test de Kolmogorov-Smirnov

Utilisation de la statistique du test KS: $M_{KS}[D_1, D_2] = \sup_y |F(y, D_1) - F(y, D_2)|$

Comportement Asymptotique

Pour deux ensembles de données de distributions identiques, la statistique KS possède un comportement asymptotique connu: $\sqrt{\frac{n_1 n_2}{n_1 + n_2}} M_{KS}[D_1, D_2] = K \sim p_K(K)$

Classificateur par Rapport de Vraisemblance

Utilisation de la sortie d'un classificateur entraîné comme statistique de synthèse unidimensionnelle, qui selon le lemme de Neyman-Pearson, constitue la statistique de synthèse la plus puissante.

Configuration Expérimentale

Ensembles de Données Jouets

Distribution d'Anneau Gaussien: 2D et 4D, distribution radiale $p_R(x) = \mathcal{N}(R; 1, 0.1^2)$
Architecture Réseau: Transformer autorégressif, utilisant une paramétrisation de mélange gaussien pour les probabilités conditionnelles

Ensembles de Données d'Application Physique

Production de Paires de Quarks Top: générés avec MadGraph5_AMC@NLO 3.5.1
Deux ensembles de données:
- $t\bar{t} + 0j$ : ensemble d'entraînement ~5×10⁵, ensemble de test ~8×10⁶
- $t\bar{t} + 4j$ : ensemble d'entraînement ~2×10⁵, ensemble de test ~2×10⁵

Architecture du Réseau Génératif

Générateur Conditional Flow Matching (CFM)
Trois architectures:
- Transformer standard
- L-GATr (Transformer d'Algèbre Géométrique Équivariant de Lorentz)
- Transformer LLoCa (Normalisation Locale Lorentz)

Résultats Expérimentaux

Résultats sur les Ensembles de Données Jouets

Amplification Moyenne

Anneau Gaussien 2D: $G = 2.6$ dans la région 2, $G = 7.0$ dans les régions combinées
Anneau Gaussien 4D: $G = 1.9$ dans la région 2, $G = 2.8$ dans les régions combinées
Régions de Queue: le facteur d'amplification diminue significativement, $G = 0.9$ en 2D, $G = 0.03$ en 4D

Amplification Différentielle

Sensibilité de la Statistique de Synthèse: la statistique radiale de synthèse $R$ affiche un facteur d'amplification plus élevé ( $G \approx 22$ ), tandis que la statistique du rapport de vraisemblance n'affiche aucune amplification
Effet de Dimensionnalité: l'effet d'amplification s'affaiblit en 4D, reflétant les défis de l'apprentissage en haute dimension

Résultats d'Application Physique

Production $t\bar{t} + 0j$

Amplification Moyenne:

Transformer: $G_{est} = 0.3$ , $G_{truth} = 0.3$
L-GATr: $G_{est} = 0.8$ , $G_{truth} = 0.7$
LLoCa-Tr: $G_{est} = 1.7$ , $G_{truth} = 1.2$

Amplification Différentielle:

Espace des phases complet: $G \approx 0.01-0.1$ pour toutes les architectures
Région de $m_{t\bar{t}}$ élevée: Transformer LLoCa atteint $G \approx 2$

Production $t\bar{t} + 4j$

Amplification Moyenne (région de $m_{t\bar{t}}$ élevée):

Transformer: $G_{est} = 2.3$
L-GATr: $G_{est} = 10.9$
LLoCa-Tr: $G_{est} = 12.0$

Amplification Différentielle:

Région de $m_{t\bar{t}}$ élevée: $G \approx 5$ pour toutes les architectures

Découvertes Clés

Avantages de l'Équivariance de Lorentz: L-GATr et LLoCa Transformer surpassent nettement le Transformer standard
Dépendance Régionale: l'amplification est plus facilement réalisable dans des régions spécifiques de l'espace des phases (par exemple, les queues de masse élevée)
Complémentarité des Méthodes: les méthodes moyenne et différentielle fournissent des perspectives différentes de l'évaluation de l'amplification

Travaux Connexes

Recherche sur l'Amplification Générative

Les travaux antérieurs ont principalement vérifié les effets d'amplification dans les données synthétiques et les simulations de détecteurs
Les méthodes existantes dépendent de distributions réelles connues ou de grands ensembles de données de validation pour la vérification

Génération d'Événements du LHC

Échantillonnage d'espace des phases, génération d'événements de bout en bout, hadronisation et simulation de détecteur par réseaux génératifs
Représentants d'amplitude lissés appris et étalonnages basés sur des classificateurs

Quantification de l'Incertitude

Utilisation de réseaux de neurones bayésiens et de méthodes d'ensemble dans les applications physiques
Quantification de l'incertitude des réseaux génératifs comme composante importante de l'amplification fiable

Conclusions et Discussion

Conclusions Principales

Vérification de la Faisabilité: dans certaines régions spécifiques de l'espace des phases, les réseaux génératifs modernes peuvent effectivement réaliser une amplification statistique
Validité des Méthodes: les deux méthodes proposées peuvent estimer efficacement les facteurs d'amplification sans nécessiter de grands ensembles de données de validation
Importance de l'Architecture: les architectures équivariantes de Lorentz affichent de meilleures performances dans la génération d'événements du LHC

Limitations

Restriction Régionale: l'amplification est principalement réalisée dans des régions spécifiques de l'espace des phases, ne couvrant pas encore l'ensemble de la distribution
Défis de Dimensionnalité: l'effet d'amplification s'affaiblit en haute dimension
Divergence des Méthodes: les deux méthodes donnent des facteurs d'amplification légèrement différents, reflétant différentes sensibilités de résolution

Directions Futures

Extension à des processus du LHC plus complexes et à des dimensions plus élevées
Amélioration des architectures de réseaux génératifs pour réaliser une amplification plus large
Intégration d'autres techniques de quantification de l'incertitude

Évaluation Approfondie

Points Forts

Rigueur Théorique: fournit une définition mathématiquement rigoureuse et un cadre d'évaluation de l'amplification générative
Valeur Pratique: résout les besoins critiques des applications physiques réelles sans nécessiter de grands ensembles de données de validation
Innovation Méthodologique: les deux méthodes complémentaires possèdent chacune des avantages distincts, la méthode moyenne étant simple et intuitive, tandis que la méthode différentielle préserve la résolution
Vérification Suffisante: vérification systématique allant des modèles jouets simples aux processus physiques complexes

Insuffisances

Portée d'Amplification Limitée: actuellement, l'amplification n'est réalisée que dans des régions spécifiques, avec une distance considérable avant une amplification globale
Surcharge Computationnelle: les réseaux bayésiens et les méthodes d'ensemble augmentent les coûts de calcul
Limitations du Test KS: la méthode différentielle se limite aux statistiques de test univariées

Impact

Contribution Académique: fournit une base théorique importante pour l'application des réseaux génératifs en physique des hautes énergies
Valeur Pratique: offre une solution viable aux défis computationnels du HL-LHC
Généralité des Méthodes: les méthodes proposées peuvent être étendues à d'autres domaines du calcul scientifique

Scénarios d'Application

Simulation en Physique des Hautes Énergies: génération d'événements du LHC et simulation de détecteur
Calcul Scientifique: problèmes physiques nécessitant de grandes simulations de Monte-Carlo
Évaluation de Modèles Génératifs: toute application nécessitant de quantifier la qualité générative et la fiabilité statistique

Références

L'article contient une riche bibliographie couvrant l'application de l'apprentissage automatique en physique du LHC, les réseaux génératifs, les méthodes bayésiennes et la quantification de l'incertitude dans les domaines connexes. Méritent une attention particulière les travaux antérieurs de l'équipe d'auteurs sur GANplification et les recherches récentes sur les architectures de réseaux équivariants de Lorentz.