Generative networks are perfect tools to enhance the speed and precision of LHC simulations. It is important to understand their statistical precision, especially when generating events beyond the size of the training dataset. We present two complementary methods to estimate the amplification factor without large holdout datasets. Averaging amplification uses Bayesian networks or ensembling to estimate amplification from the precision of integrals over given phase-space volumes. Differential amplification uses hypothesis testing to quantify amplification without any resolution loss. Applied to state-of-the-art event generators, both methods indicate that amplification is possible in specific regions of phase space, but not yet across the entire distribution.
معرّف الورقة : 2509.08048العنوان : التنبؤ بالتضخيم التوليديالمؤلفون : Henning Bahl, Sascha Diefenbacher, Nina Elmer, Tilman Plehn, Jonas Spinnerالتصنيف : hep-ph cs.LGتاريخ النشر : تم تقديمه في 17 أكتوبر 2025 إلى SciPost Physicsرابط الورقة : https://arxiv.org/abs/2509.08048 الشبكات التوليدية هي أدوات مثالية لتعزيز سرعة ودقة محاكاة LHC. بشكل خاص، يعتبر فهم دقتها الإحصائية حاسماً عند توليد أحداث تتجاوز حجم مجموعة البيانات التدريبية. تقترح هذه الورقة طريقتين متكاملتين لتقدير عوامل التضخيم دون الحاجة إلى مجموعات بيانات احتياطية كبيرة. يستخدم التضخيم المتوسط الشبكات البايزية أو طرق التجميع لتقدير التضخيم من الدقة المتكاملة على حجم فضاء الطور المعطى. يستخدم التضخيم التفاضلي اختبار الفرضيات لتحديد التضخيم دون فقدان الدقة. عند تطبيقها على مولدات الأحداث المتقدمة، تُظهر كلا الطريقتين أن التضخيم يمكن تحقيقه في مناطق فضاء طور محددة.
التحديات الحسابية : سيؤدي LHC عالي الإضاءة (HL-LHC) إلى زيادة حجم البيانات بمقدار عشرة أضعاف، مما يتطلب زيادة مقابلة في دقة وكمية بيانات المحاكاة، لكن الميزانية الحسابية بعيدة كل البعد عن تلبية الاحتياجات.مفهوم التضخيم التوليدي : يشير التضخيم التوليدي إلى أن مجموعة البيانات المأخوذة من الشبكة التوليدية يمكن أن توفر وصفاً أفضل للتوزيع الحقيقي من بيانات التدريب. تعتمد هذه الظاهرة على قدرة الشبكة التوليدية على الاستيفاء للكثافة الأساسية.قيود طرق التقييم الحالية :تعتمد على توزيع حقيقي معروف تتطلب مجموعات بيانات احتياطية كبيرة غير عملية في تطبيقات الفيزياء الفعلية توفير إطار عمل منهجي لتحديد التضخيم الإحصائي للشبكات التوليدية دون الحاجة إلى مجموعات بيانات احتياطية كبيرة توفير تحديد كمي موثوق للعدم اليقين للتطبيقات في فيزياء LHC معالجة مخاوف أساسية: فهم كيفية استخدام الشبكات التوليدية للمحاكاة، وتوفير حد أدنى لعدم اليقين الإحصائي لمجموعات البيانات المولدة اقتراح طريقتين متكاملتين لتقدير عوامل التضخيم :عامل التضخيم المتوسط: تقدير يعتمد على دقة التكامل على حجم فضاء الطور عامل التضخيم التفاضلي: تقدير يعتمد على اختبار الفرضيات دون فقدان الدقة إطار عمل للتقييم دون الحاجة إلى مجموعات بيانات احتياطية كبيرة : استخدام الشبكات البايزية أو طرق التجميع لتقدير عدم اليقين في النموذجالتحقق من التطبيقات الفيزيائية الفعلية في LHC : التطبيق على مولدات الأحداث المتقدمة لإنتاج أزواج الكوارك العلويإطار عمل نظري منهجي : توفير تعريف رياضي صارم وطرق تقييم للتضخيم التوليديبالنظر إلى مجموعة بيانات التدريب D t r u e n t r a i n ∼ p t r u e ( x ) D^{n_{train}}_{true} \sim p_{true}(x) D t r u e n t r ain ∼ p t r u e ( x ) ، تتعلم الشبكة التوليدية الكثافة p g e n ( x ) p_{gen}(x) p g e n ( x ) . يُعرّف عامل التضخيم بأنه:
G = n e q u i v n t r a i n G = \frac{n_{equiv}}{n_{train}} G = n t r ain n e q u i v
حيث n e q u i v n_{equiv} n e q u i v هو عدد الأحداث المكافئة، والذي يرضي:
M [ D t r u e n e q u i v , p t r u e ] = lim n g e n → ∞ M [ D g e n n g e n , p t r u e ] M[D^{n_{equiv}}_{true}, p_{true}] = \lim_{n_{gen} \to \infty} M[D^{n_{gen}}_{gen}, p_{true}] M [ D t r u e n e q u i v , p t r u e ] = lim n g e n → ∞ M [ D g e n n g e n , p t r u e ]
قياس الاتساق بين البيانات المولدة والتوزيع الحقيقي على تكامل حجم فضاء طور محدد V V V :
I ( p t r u e ) = ∫ V d x p t r u e ( x ) I(p_{true}) = \int_V dx \, p_{true}(x) I ( p t r u e ) = ∫ V d x p t r u e ( x )
يتضمن إجمالي عدم اليقين جزأين:
M I [ D g e n n g e n , p t r u e ] = { σ s t a t 2 ( n g e n ) إذا كان p g e n = p t r u e σ s t a t 2 ( n g e n ) + σ m o d e l 2 ( p g e n , p t r u e ) إذا كان p g e n ≠ p t r u e M_I[D^{n_{gen}}_{gen}, p_{true}] = \begin{cases}
\sigma^2_{stat}(n_{gen}) & \text{إذا كان } p_{gen} = p_{true} \\
\sigma^2_{stat}(n_{gen}) + \sigma^2_{model}(p_{gen}, p_{true}) & \text{إذا كان } p_{gen} \neq p_{true}
\end{cases} M I [ D g e n n g e n , p t r u e ] = { σ s t a t 2 ( n g e n ) σ s t a t 2 ( n g e n ) + σ m o d e l 2 ( p g e n , p t r u e ) إذا كان p g e n = p t r u e إذا كان p g e n = p t r u e
استخدام شبكة توليدية بايزية لتقدير عدم اليقين في النموذج:
σ m o d e l 2 ( p g e n , p t r u e ) = ⟨ I ˉ 2 ⟩ θ − ⟨ I ˉ ⟩ θ 2 − ⟨ I ˉ ⟩ θ ( 1 − ⟨ I ˉ ⟩ θ ) n g e n \sigma^2_{model}(p_{gen}, p_{true}) = \langle \bar{I}^2 \rangle_\theta - \langle \bar{I} \rangle^2_\theta - \frac{\langle \bar{I} \rangle_\theta (1 - \langle \bar{I} \rangle_\theta)}{n_{gen}} σ m o d e l 2 ( p g e n , p t r u e ) = ⟨ I ˉ 2 ⟩ θ − ⟨ I ˉ ⟩ θ 2 − n g e n ⟨ I ˉ ⟩ θ ( 1 − ⟨ I ˉ ⟩ θ )
استخدام إحصائية اختبار KS:
M K S [ D 1 , D 2 ] = sup y ∣ F ( y , D 1 ) − F ( y , D 2 ) ∣ M_{KS}[D_1, D_2] = \sup_y |F(y, D_1) - F(y, D_2)| M K S [ D 1 , D 2 ] = sup y ∣ F ( y , D 1 ) − F ( y , D 2 ) ∣
بالنسبة لمجموعتي بيانات من نفس التوزيع، تمتلك إحصائية KS سلوكاً مقاربياً معروفاً:
n 1 n 2 n 1 + n 2 M K S [ D 1 , D 2 ] = K ∼ p K ( K ) \sqrt{\frac{n_1 n_2}{n_1 + n_2}} M_{KS}[D_1, D_2] = K \sim p_K(K) n 1 + n 2 n 1 n 2 M K S [ D 1 , D 2 ] = K ∼ p K ( K )
استخدام مخرجات المصنف المدرب كإحصائية ملخصة أحادية البعد، والتي تعتبر، وفقاً لمبرهنة Neyman-Pearson، أقوى إحصائية ملخصة.
توزيع الحلقة الغاوسية : ثنائي الأبعاد ورباعي الأبعاد، مع التوزيع الشعاعي p R ( x ) = N ( R ; 1 , 0.1 2 ) p_R(x) = \mathcal{N}(R; 1, 0.1^2) p R ( x ) = N ( R ; 1 , 0. 1 2 ) معمارية الشبكة : محول الانحدار الذاتي، باستخدام معاملات الخليط الغاوسي لتحديد الاحتمالية الشرطيةإنتاج أزواج الكوارك العلوي : استخدام MadGraph5_AMC@NLO 3.5.1مجموعتا بيانات :
t t ˉ + 0 j t\bar{t} + 0j t t ˉ + 0 j : مجموعة التدريب ~5×10⁵، مجموعة الاختبار ~8×10⁶t t ˉ + 4 j t\bar{t} + 4j t t ˉ + 4 j : مجموعة التدريب ~2×10⁵، مجموعة الاختبار ~2×10⁵مولد مطابقة التدفق الشرطي (CFM) ثلاث معماريات :
محول قياسي L-GATr (محول الجبر الهندسي المتكافئ لورينتز) محول LLoCa (تطبيع لورينتز المحلي) حلقة غاوسية ثنائية الأبعاد : الحصول على G = 2.6 G = 2.6 G = 2.6 في المنطقة 2، و G = 7.0 G = 7.0 G = 7.0 في المناطق المدمجةحلقة غاوسية رباعية الأبعاد : الحصول على G = 1.9 G = 1.9 G = 1.9 في المنطقة 2، و G = 2.8 G = 2.8 G = 2.8 في المناطق المدمجةمناطق الذيل : ينخفض عامل التضخيم بشكل كبير، G = 0.9 G = 0.9 G = 0.9 في البعد الثنائي و G = 0.03 G = 0.03 G = 0.03 في البعد الرباعيحساسية الإحصائيات الملخصة : تُظهر إحصائية الملخص الشعاعي R R R عامل تضخيم أعلى (G ≈ 22 G \approx 22 G ≈ 22 )، بينما تُظهر إحصائية نسبة الاحتمالية عدم وجود تضخيمتأثير الأبعاد : يضعف تأثير التضخيم في الحالة رباعية الأبعاد، مما يعكس تحديات التعلم في الأبعاد العاليةالتضخيم المتوسط :
محول: G e s t = 0.3 G_{est} = 0.3 G es t = 0.3 ، G t r u t h = 0.3 G_{truth} = 0.3 G t r u t h = 0.3 L-GATr: G e s t = 0.8 G_{est} = 0.8 G es t = 0.8 ، G t r u t h = 0.7 G_{truth} = 0.7 G t r u t h = 0.7 LLoCa-Tr: G e s t = 1.7 G_{est} = 1.7 G es t = 1.7 ، G t r u t h = 1.2 G_{truth} = 1.2 G t r u t h = 1.2 التضخيم التفاضلي :
فضاء الطور الكامل: جميع المعماريات G ≈ 0.01 − 0.1 G \approx 0.01-0.1 G ≈ 0.01 − 0.1 منطقة m t t ˉ m_{t\bar{t}} m t t ˉ العالية: محول LLoCa يصل إلى G ≈ 2 G \approx 2 G ≈ 2 التضخيم المتوسط (منطقة m t t ˉ m_{t\bar{t}} m t t ˉ العالية):
محول: G e s t = 2.3 G_{est} = 2.3 G es t = 2.3 L-GATr: G e s t = 10.9 G_{est} = 10.9 G es t = 10.9 LLoCa-Tr: G e s t = 12.0 G_{est} = 12.0 G es t = 12.0 التضخيم التفاضلي :
منطقة m t t ˉ m_{t\bar{t}} m t t ˉ العالية: جميع المعماريات G ≈ 5 G \approx 5 G ≈ 5 مزايا التكافؤ لورينتز : يتفوق L-GATr و LLoCa Transformer بشكل واضح على المحول القياسيالاعتماد على المنطقة : يسهل تحقيق التضخيم في مناطق فضاء طور محددة (مثل ذيول الكتلة العالية)تكامل الطرق : توفر الطرق المتوسطة والتفاضلية وجهات نظر مختلفة لتقييم التضخيمركزت الأعمال المبكرة على التحقق من تأثيرات التضخيم في البيانات الاصطناعية ومحاكاة الكاشفات تعتمد الطرق الموجودة على توزيع حقيقي معروف أو مجموعات بيانات احتياطية كبيرة للتحقق أخذ العينات من فضاء الطور، توليد الأحداث من النهاية إلى النهاية، التقسيم والمحاكاة الكاشف باستخدام الشبكات التوليدية وكلاء السعة الملساء المتعلمة والمعايير القائمة على المصنفات استخدام الشبكات العصبية البايزية وطرق التجميع في التطبيقات الفيزيائية تحديد كمية عدم اليقين للشبكات التوليدية كمكون مهم للتضخيم الموثوق التحقق من الجدوى : في مناطق فضاء طور محددة، يمكن للشبكات التوليدية الحديثة فعلاً تحقيق التضخيم الإحصائيفعالية الطرق : تستطيع كلا الطريقتين المقترحتين تقدير عوامل التضخيم بفعالية دون الحاجة إلى مجموعات بيانات احتياطية كبيرةأهمية المعمارية : تُظهر المعماريات المتكافئة لورينتز أداءً أفضل في توليد أحداث LHCتقييد المناطق : يتحقق التضخيم بشكل أساسي في مناطق فضاء طور محددة، ولم يغطِ التوزيع الكامل بعدتحديات الأبعاد : يضعف تأثير التضخيم في الحالات عالية الأبعاداختلاف الطرق : تعطي الطريقتان عوامل تضخيم مختلفة قليلاً، مما يعكس حساسيات دقة مختلفةالتوسع إلى عمليات LHC أكثر تعقيداً وأبعاد أعلى تحسين معماريات الشبكات التوليدية لتحقيق تضخيم أوسع دمج تقنيات تحديد كمية عدم اليقين الأخرى الصرامة النظرية : توفير تعريف رياضي صارم وإطار عمل تقييم للتضخيم التوليديالقيمة العملية : معالجة الاحتياجات الحاسمة في التطبيقات الفيزيائية الفعلية، دون الحاجة إلى مجموعات بيانات احتياطية كبيرةابتكار الطرق : لكل من الطريقتين المتكاملتين مزايا خاصة بها، الطريقة المتوسطة بسيطة وحدسية، والطريقة التفاضلية تحافظ على الدقةالتحقق الشامل : التحقق المنهجي من نماذج لعبة بسيطة إلى عمليات فيزيائية معقدةنطاق تضخيم محدود : يتحقق التضخيم حالياً فقط في مناطق محددة، وهناك فجوة كبيرة قبل تحقيق التضخيم العامالنفقات الحسابية : تزيد الشبكات البايزية وطرق التجميع من التكاليف الحسابيةقيود اختبار KS : تقتصر الطريقة التفاضلية على إحصائيات اختبار أحادية البعدالمساهمة الأكاديمية : توفير أساس نظري مهم لتطبيقات الشبكات التوليدية في فيزياء الطاقة العاليةالقيمة العملية : توفير حل عملي لتحديات الحسابات في HL-LHCعمومية الطرق : يمكن توسيع الطرق المقترحة إلى مجالات الحسابات العلمية الأخرىمحاكاة فيزياء الطاقة العالية : توليد أحداث LHC ومحاكاة الكاشفاتالحسابات العلمية : مسائل فيزيائية تتطلب محاكاة مونت كارلو كبيرة الحجمتقييم النماذج التوليدية : أي تطبيق يتطلب تحديد كمية جودة التوليد والموثوقية الإحصائيةتتضمن الورقة مراجع غنية تغطي تطبيقات التعلم الآلي في فيزياء LHC والشبكات التوليدية والطرق البايزية وتحديد كمية عدم اليقين وغيرها من المجالات ذات الصلة. من الجدير بالملاحظة بشكل خاص العمل الرائد للفريق المؤلف في مجال GANplification وأبحاث معماريات الشبكات المتكافئة لورينتز الحديثة.