الشبكات التوليدية هي أدوات مثالية لتعزيز سرعة ودقة محاكاة LHC. بشكل خاص، يعتبر فهم دقتها الإحصائية حاسماً عند توليد أحداث تتجاوز حجم مجموعة البيانات التدريبية. تقترح هذه الورقة طريقتين متكاملتين لتقدير عوامل التضخيم دون الحاجة إلى مجموعات بيانات احتياطية كبيرة. يستخدم التضخيم المتوسط الشبكات البايزية أو طرق التجميع لتقدير التضخيم من الدقة المتكاملة على حجم فضاء الطور المعطى. يستخدم التضخيم التفاضلي اختبار الفرضيات لتحديد التضخيم دون فقدان الدقة. عند تطبيقها على مولدات الأحداث المتقدمة، تُظهر كلا الطريقتين أن التضخيم يمكن تحقيقه في مناطق فضاء طور محددة.
بالنظر إلى مجموعة بيانات التدريب ، تتعلم الشبكة التوليدية الكثافة . يُعرّف عامل التضخيم بأنه: حيث هو عدد الأحداث المكافئة، والذي يرضي:
قياس الاتساق بين البيانات المولدة والتوزيع الحقيقي على تكامل حجم فضاء طور محدد :
يتضمن إجمالي عدم اليقين جزأين:
\sigma^2_{stat}(n_{gen}) & \text{إذا كان } p_{gen} = p_{true} \\ \sigma^2_{stat}(n_{gen}) + \sigma^2_{model}(p_{gen}, p_{true}) & \text{إذا كان } p_{gen} \neq p_{true} \end{cases}$$ #### تطبيق الشبكة البايزية استخدام شبكة توليدية بايزية لتقدير عدم اليقين في النموذج: $$\sigma^2_{model}(p_{gen}, p_{true}) = \langle \bar{I}^2 \rangle_\theta - \langle \bar{I} \rangle^2_\theta - \frac{\langle \bar{I} \rangle_\theta (1 - \langle \bar{I} \rangle_\theta)}{n_{gen}}$$ ### طريقة عامل التضخيم التفاضلي #### اختبار Kolmogorov-Smirnov استخدام إحصائية اختبار KS: $$M_{KS}[D_1, D_2] = \sup_y |F(y, D_1) - F(y, D_2)|$$ #### السلوك المقارب بالنسبة لمجموعتي بيانات من نفس التوزيع، تمتلك إحصائية KS سلوكاً مقاربياً معروفاً: $$\sqrt{\frac{n_1 n_2}{n_1 + n_2}} M_{KS}[D_1, D_2] = K \sim p_K(K)$$ #### مصنف نسبة الاحتمالية استخدام مخرجات المصنف المدرب كإحصائية ملخصة أحادية البعد، والتي تعتبر، وفقاً لمبرهنة Neyman-Pearson، أقوى إحصائية ملخصة. ## إعداد التجارب ### مجموعات البيانات التجريبية - **توزيع الحلقة الغاوسية**: ثنائي الأبعاد ورباعي الأبعاد، مع التوزيع الشعاعي $p_R(x) = \mathcal{N}(R; 1, 0.1^2)$ - **معمارية الشبكة**: محول الانحدار الذاتي، باستخدام معاملات الخليط الغاوسي لتحديد الاحتمالية الشرطية ### مجموعات بيانات التطبيقات الفيزيائية - **إنتاج أزواج الكوارك العلوي**: استخدام MadGraph5_AMC@NLO 3.5.1 - **مجموعتا بيانات**: - $t\bar{t} + 0j$: مجموعة التدريب ~5×10⁵، مجموعة الاختبار ~8×10⁶ - $t\bar{t} + 4j$: مجموعة التدريب ~2×10⁵، مجموعة الاختبار ~2×10⁵ ### معمارية الشبكة التوليدية - مولد **مطابقة التدفق الشرطي (CFM)** - **ثلاث معماريات**: - محول قياسي - L-GATr (محول الجبر الهندسي المتكافئ لورينتز) - محول LLoCa (تطبيع لورينتز المحلي) ## نتائج التجارب ### نتائج مجموعات البيانات التجريبية #### التضخيم المتوسط - **حلقة غاوسية ثنائية الأبعاد**: الحصول على $G = 2.6$ في المنطقة 2، و $G = 7.0$ في المناطق المدمجة - **حلقة غاوسية رباعية الأبعاد**: الحصول على $G = 1.9$ في المنطقة 2، و $G = 2.8$ في المناطق المدمجة - **مناطق الذيل**: ينخفض عامل التضخيم بشكل كبير، $G = 0.9$ في البعد الثنائي و $G = 0.03$ في البعد الرباعي #### التضخيم التفاضلي - **حساسية الإحصائيات الملخصة**: تُظهر إحصائية الملخص الشعاعي $R$ عامل تضخيم أعلى ($G \approx 22$)، بينما تُظهر إحصائية نسبة الاحتمالية عدم وجود تضخيم - **تأثير الأبعاد**: يضعف تأثير التضخيم في الحالة رباعية الأبعاد، مما يعكس تحديات التعلم في الأبعاد العالية ### نتائج التطبيقات الفيزيائية #### إنتاج $t\bar{t} + 0j$ **التضخيم المتوسط**: - محول: $G_{est} = 0.3$، $G_{truth} = 0.3$ - L-GATr: $G_{est} = 0.8$، $G_{truth} = 0.7$ - LLoCa-Tr: $G_{est} = 1.7$، $G_{truth} = 1.2$ **التضخيم التفاضلي**: - فضاء الطور الكامل: جميع المعماريات $G \approx 0.01-0.1$ - منطقة $m_{t\bar{t}}$ العالية: محول LLoCa يصل إلى $G \approx 2$ #### إنتاج $t\bar{t} + 4j$ **التضخيم المتوسط** (منطقة $m_{t\bar{t}}$ العالية): - محول: $G_{est} = 2.3$ - L-GATr: $G_{est} = 10.9$ - LLoCa-Tr: $G_{est} = 12.0$ **التضخيم التفاضلي**: - منطقة $m_{t\bar{t}}$ العالية: جميع المعماريات $G \approx 5$ ### الاكتشافات الرئيسية 1. **مزايا التكافؤ لورينتز**: يتفوق L-GATr و LLoCa Transformer بشكل واضح على المحول القياسي 2. **الاعتماد على المنطقة**: يسهل تحقيق التضخيم في مناطق فضاء طور محددة (مثل ذيول الكتلة العالية) 3. **تكامل الطرق**: توفر الطرق المتوسطة والتفاضلية وجهات نظر مختلفة لتقييم التضخيم ## الأعمال ذات الصلة ### أبحاث التضخيم التوليدي - ركزت الأعمال المبكرة على التحقق من تأثيرات التضخيم في البيانات الاصطناعية ومحاكاة الكاشفات - تعتمد الطرق الموجودة على توزيع حقيقي معروف أو مجموعات بيانات احتياطية كبيرة للتحقق ### توليد أحداث LHC - أخذ العينات من فضاء الطور، توليد الأحداث من النهاية إلى النهاية، التقسيم والمحاكاة الكاشف باستخدام الشبكات التوليدية - وكلاء السعة الملساء المتعلمة والمعايير القائمة على المصنفات ### تحديد كمية عدم اليقين - استخدام الشبكات العصبية البايزية وطرق التجميع في التطبيقات الفيزيائية - تحديد كمية عدم اليقين للشبكات التوليدية كمكون مهم للتضخيم الموثوق ## الخلاصات والمناقشة ### الاستنتاجات الرئيسية 1. **التحقق من الجدوى**: في مناطق فضاء طور محددة، يمكن للشبكات التوليدية الحديثة فعلاً تحقيق التضخيم الإحصائي 2. **فعالية الطرق**: تستطيع كلا الطريقتين المقترحتين تقدير عوامل التضخيم بفعالية دون الحاجة إلى مجموعات بيانات احتياطية كبيرة 3. **أهمية المعمارية**: تُظهر المعماريات المتكافئة لورينتز أداءً أفضل في توليد أحداث LHC ### القيود 1. **تقييد المناطق**: يتحقق التضخيم بشكل أساسي في مناطق فضاء طور محددة، ولم يغطِ التوزيع الكامل بعد 2. **تحديات الأبعاد**: يضعف تأثير التضخيم في الحالات عالية الأبعاد 3. **اختلاف الطرق**: تعطي الطريقتان عوامل تضخيم مختلفة قليلاً، مما يعكس حساسيات دقة مختلفة ### الاتجاهات المستقبلية 1. التوسع إلى عمليات LHC أكثر تعقيداً وأبعاد أعلى 2. تحسين معماريات الشبكات التوليدية لتحقيق تضخيم أوسع 3. دمج تقنيات تحديد كمية عدم اليقين الأخرى ## التقييم المتعمق ### المزايا 1. **الصرامة النظرية**: توفير تعريف رياضي صارم وإطار عمل تقييم للتضخيم التوليدي 2. **القيمة العملية**: معالجة الاحتياجات الحاسمة في التطبيقات الفيزيائية الفعلية، دون الحاجة إلى مجموعات بيانات احتياطية كبيرة 3. **ابتكار الطرق**: لكل من الطريقتين المتكاملتين مزايا خاصة بها، الطريقة المتوسطة بسيطة وحدسية، والطريقة التفاضلية تحافظ على الدقة 4. **التحقق الشامل**: التحقق المنهجي من نماذج لعبة بسيطة إلى عمليات فيزيائية معقدة ### أوجه القصور 1. **نطاق تضخيم محدود**: يتحقق التضخيم حالياً فقط في مناطق محددة، وهناك فجوة كبيرة قبل تحقيق التضخيم العام 2. **النفقات الحسابية**: تزيد الشبكات البايزية وطرق التجميع من التكاليف الحسابية 3. **قيود اختبار KS**: تقتصر الطريقة التفاضلية على إحصائيات اختبار أحادية البعد ### التأثير 1. **المساهمة الأكاديمية**: توفير أساس نظري مهم لتطبيقات الشبكات التوليدية في فيزياء الطاقة العالية 2. **القيمة العملية**: توفير حل عملي لتحديات الحسابات في HL-LHC 3. **عمومية الطرق**: يمكن توسيع الطرق المقترحة إلى مجالات الحسابات العلمية الأخرى ### السيناريوهات المعنية 1. **محاكاة فيزياء الطاقة العالية**: توليد أحداث LHC ومحاكاة الكاشفات 2. **الحسابات العلمية**: مسائل فيزيائية تتطلب محاكاة مونت كارلو كبيرة الحجم 3. **تقييم النماذج التوليدية**: أي تطبيق يتطلب تحديد كمية جودة التوليد والموثوقية الإحصائية ## المراجع تتضمن الورقة مراجع غنية تغطي تطبيقات التعلم الآلي في فيزياء LHC والشبكات التوليدية والطرق البايزية وتحديد كمية عدم اليقين وغيرها من المجالات ذات الصلة. من الجدير بالملاحظة بشكل خاص العمل الرائد للفريق المؤلف في مجال GANplification وأبحاث معماريات الشبكات المتكافئة لورينتز الحديثة.