2025-11-22T21:28:16.108948

Forecasting Generative Amplification

Bahl, Diefenbacher, Elmer et al.
Generative networks are perfect tools to enhance the speed and precision of LHC simulations. It is important to understand their statistical precision, especially when generating events beyond the size of the training dataset. We present two complementary methods to estimate the amplification factor without large holdout datasets. Averaging amplification uses Bayesian networks or ensembling to estimate amplification from the precision of integrals over given phase-space volumes. Differential amplification uses hypothesis testing to quantify amplification without any resolution loss. Applied to state-of-the-art event generators, both methods indicate that amplification is possible in specific regions of phase space, but not yet across the entire distribution.
academic

পূর্বাভাসমূলক জেনারেটিভ অ্যামপ্লিফিকেশন

মৌলিক তথ্য

  • পেপার আইডি: 2509.08048
  • শিরোনাম: Forecasting Generative Amplification
  • লেখক: Henning Bahl, Sascha Diefenbacher, Nina Elmer, Tilman Plehn, Jonas Spinner
  • শ্রেণীবিভাগ: hep-ph cs.LG
  • প্রকাশনার সময়: ২০২৫ সালের ১৭ অক্টোবর SciPost Physics-এ জমা দেওয়া
  • পেপার লিঙ্ক: https://arxiv.org/abs/2509.08048

সারসংক্ষেপ

জেনারেটিভ নেটওয়ার্ক LHC সিমুলেশনের গতি এবং নির্ভুলতা বৃদ্ধির জন্য নিখুঁত সরঞ্জাম। বিশেষত প্রশিক্ষণ ডেটাসেটের আকারের বাইরে ইভেন্ট তৈরি করার সময় এর পরিসংখ্যানগত নির্ভুলতা বোঝা অত্যন্ত গুরুত্বপূর্ণ। এই পেপারটি বৃহৎ সংরক্ষিত ডেটাসেট ছাড়াই অ্যামপ্লিফিকেশন ফ্যাক্টর অনুমান করার জন্য দুটি পরিপূরক পদ্ধতি প্রস্তাব করে। গড় অ্যামপ্লিফিকেশন বেয়েসিয়ান নেটওয়ার্ক বা সমষ্টি পদ্ধতি ব্যবহার করে, প্রদত্ত পর্যায় স্থান আয়তন জুড়ে একীভূত নির্ভুলতা থেকে অ্যামপ্লিফিকেশন অনুমান করে। ডিফারেনশিয়াল অ্যামপ্লিফিকেশন অনুমান পরীক্ষা ব্যবহার করে অ্যামপ্লিফিকেশন পরিমাপ করে, রেজোলিউশন হারানো ছাড়াই। অত্যাধুনিক ইভেন্ট জেনারেটরে প্রয়োগ করা হলে, উভয় পদ্ধতিই নির্দিষ্ট পর্যায় স্থান অঞ্চলে অ্যামপ্লিফিকেশন অর্জন করা যায় তা প্রদর্শন করে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যার পটভূমি

১. গণনামূলক চ্যালেঞ্জ: উচ্চ-উজ্জ্বলতা LHC (HL-LHC) ডেটা পরিমাণ দশগুণ বৃদ্ধি করবে, যার জন্য সিমুলেশন ডেটার নির্ভুলতা এবং পরিমাণ সমানুপাতিকভাবে বৃদ্ধি প্রয়োজন, কিন্তু গণনা বাজেট চাহিদা পূরণ করতে পারে না।

२. জেনারেটিভ অ্যামপ্লিফিকেশনের ধারণা: জেনারেটিভ অ্যামপ্লিফিকেশন বলতে জেনারেটিভ নেটওয়ার্ক থেকে নমুনা করা ডেটাসেট প্রশিক্ষণ ডেটার চেয়ে সত্য বিতরণের আরও ভাল বর্ণনা প্রদান করতে পারে। এই ঘটনা জেনারেটিভ নেটওয়ার্কের অন্তর্নিহিত ঘনত্বের ইন্টারপোলেশন ক্ষমতার উপর ভিত্তি করে।

३. বিদ্যমান মূল্যায়ন পদ্ধতির সীমাবদ্ধতা:

  • পরিচিত সত্য বিতরণের উপর নির্ভর করে
  • বৃহৎ সংরক্ষিত ডেটাসেটের প্রয়োজন
  • প্রকৃত পদার্থবিজ্ঞান প্রয়োগে অব্যবহারিক

গবেষণা প্রেরণা

  • জেনারেটিভ নেটওয়ার্কের পরিসংখ্যানগত অ্যামপ্লিফিকেশন পরিমাপের জন্য একটি সিস্টেমেটিক ফ্রেমওয়ার্ক প্রদান করা, বৃহৎ সংরক্ষিত ডেটাসেট ছাড়াই
  • LHC পদার্থবিজ্ঞানে জেনারেটিভ নেটওয়ার্ক প্রয়োগের জন্য নির্ভরযোগ্য অনিশ্চয়তা পরিমাপ প্রদান করা
  • দুটি মূল উদ্বেগ সমাধান করা: জেনারেটিভ নেটওয়ার্ক সিমুলেশনের জন্য কীভাবে ব্যবহার করতে হয় তা বোঝা এবং জেনারেটিভ ডেটাসেটের পরিসংখ্যানগত অনিশ্চয়তার জন্য নিম্ন সীমা প্রদান করা

মূল অবদান

१. অ্যামপ্লিফিকেশন ফ্যাক্টর অনুমানের জন্য দুটি পরিপূরক পদ্ধতি প্রস্তাব:

  • গড় অ্যামপ্লিফিকেশন ফ্যাক্টর: পর্যায় স্থান আয়তন একীভূত নির্ভুলতার উপর ভিত্তি করে অনুমান
  • ডিফারেনশিয়াল অ্যামপ্লিফিকেশন ফ্যাক্টর: অনুমান পরীক্ষার উপর ভিত্তি করে রেজোলিউশন হারানো ছাড়াই অনুমান

२. বৃহৎ সংরক্ষিত ডেটাসেট ছাড়াই মূল্যায়ন ফ্রেমওয়ার্ক: বেয়েসিয়ান নেটওয়ার্ক বা সমষ্টি পদ্ধতি ব্যবহার করে মডেল অনিশ্চয়তা অনুমান করা

३. প্রকৃত LHC পদার্থবিজ্ঞান প্রয়োগে যাচাইকরণ: শীর্ষ কোয়ার্ক জোড় উৎপাদনের অত্যাধুনিক ইভেন্ট জেনারেটরে প্রয়োগ

४. সিস্টেমেটিক তাত্ত্বিক ফ্রেমওয়ার্ক: জেনারেটিভ অ্যামপ্লিফিকেশনের জন্য গাণিতিকভাবে কঠোর সংজ্ঞা এবং মূল্যায়ন পদ্ধতি প্রদান করা

পদ্ধতির বিস্তারিত বর্ণনা

কাজের সংজ্ঞা

প্রশিক্ষণ ডেটাসেট Dtruentrainptrue(x)D^{n_{train}}_{true} \sim p_{true}(x) দেওয়া হলে, জেনারেটিভ নেটওয়ার্ক ঘনত্ব pgen(x)p_{gen}(x) শিখে। অ্যামপ্লিফিকেশন ফ্যাক্টর সংজ্ঞায়িত করা হয়: G=nequivntrainG = \frac{n_{equiv}}{n_{train}} যেখানে nequivn_{equiv} সমতুল্য ইভেন্টের সংখ্যা, যা সন্তুষ্ট করে: M[Dtruenequiv,ptrue]=limngenM[Dgenngen,ptrue]M[D^{n_{equiv}}_{true}, p_{true}] = \lim_{n_{gen} \to \infty} M[D^{n_{gen}}_{gen}, p_{true}]

গড় অ্যামপ্লিফিকেশন ফ্যাক্টর পদ্ধতি

মূল ধারণা

নির্দিষ্ট পর্যায় স্থান আয়তন VV জুড়ে একীভূত জেনারেটিভ ডেটা এবং সত্য বিতরণের সামঞ্জস্য পরিমাপ করা: I(ptrue)=Vdxptrue(x)I(p_{true}) = \int_V dx \, p_{true}(x)

অনিশ্চয়তা বিয়োজন

মোট অনিশ্চয়তা দুটি অংশ অন্তর্ভুক্ত করে:

\sigma^2_{stat}(n_{gen}) & \text{যদি } p_{gen} = p_{true} \\ \sigma^2_{stat}(n_{gen}) + \sigma^2_{model}(p_{gen}, p_{true}) & \text{যদি } p_{gen} \neq p_{true} \end{cases}$$ #### বেয়েসিয়ান নেটওয়ার্ক বাস্তবায়ন মডেল অনিশ্চয়তা অনুমান করতে বেয়েসিয়ান জেনারেটিভ নেটওয়ার্ক ব্যবহার করা: $$\sigma^2_{model}(p_{gen}, p_{true}) = \langle \bar{I}^2 \rangle_\theta - \langle \bar{I} \rangle^2_\theta - \frac{\langle \bar{I} \rangle_\theta (1 - \langle \bar{I} \rangle_\theta)}{n_{gen}}$$ ### ডিফারেনশিয়াল অ্যামপ্লিফিকেশন ফ্যাক্টর পদ্ধতি #### কলমোগোরভ-স্মিরনভ পরীক্ষা KS পরীক্ষা পরিসংখ্যান ব্যবহার করা: $$M_{KS}[D_1, D_2] = \sup_y |F(y, D_1) - F(y, D_2)|$$ #### অ্যাসিম্পটোটিক আচরণ একই বিতরণের দুটি ডেটাসেটের জন্য, KS পরিসংখ্যান পরিচিত অ্যাসিম্পটোটিক আচরণ রয়েছে: $$\sqrt{\frac{n_1 n_2}{n_1 + n_2}} M_{KS}[D_1, D_2] = K \sim p_K(K)$$ #### সম্ভাব্যতা অনুপাত শ্রেণীবিভাজক প্রশিক্ষিত শ্রেণীবিভাজক আউটপুট একটি এক-মাত্রিক সারসংক্ষেপ পরিসংখ্যান হিসাবে ব্যবহার করা, Neyman-Pearson লেমা অনুযায়ী, এটি সবচেয়ে শক্তিশালী সারসংক্ষেপ পরিসংখ্যান। ## পরীক্ষামূলক সেটআপ ### খেলনা ডেটাসেট - **গাউসিয়ান রিং বিতরণ**: ২-মাত্রিক এবং ৪-মাত্রিক, রেডিয়াল বিতরণ $p_R(x) = \mathcal{N}(R; 1, 0.1^2)$ - **নেটওয়ার্ক আর্কিটেকচার**: অটোরিগ্রেসিভ ট্রান্সফর্মার, গাউসিয়ান মিশ্রণ প্যারামিটারাইজেশন ব্যবহার করে শর্তাধীন সম্ভাবনা ### পদার্থবিজ্ঞান প্রয়োগ ডেটাসেট - **শীর্ষ কোয়ার্ক জোড় উৎপাদন**: MadGraph5_AMC@NLO 3.5.1 ব্যবহার করে উৎপাদিত - **দুটি ডেটাসেট**: - $t\bar{t} + 0j$: প্রশিক্ষণ সেট ~5×10⁵, পরীক্ষা সেট ~8×10⁶ - $t\bar{t} + 4j$: প্রশিক্ষণ সেট ~2×10⁵, পরীক্ষা সেট ~2×10⁵ ### জেনারেটিভ নেটওয়ার্ক আর্কিটেকচার - **শর্তাধীন প্রবাহ ম্যাচিং (CFM)** জেনারেটর - **তিনটি আর্কিটেকচার**: - স্ট্যান্ডার্ড ট্রান্সফর্মার - L-GATr (লরেন্টজ-সমতুল্য জ্যামিতিক বীজগণিত ট্রান্সফর্মার) - LLoCa ট্রান্সফর্মার (লরেন্টজ স্থানীয় নর্মালাইজেশন) ## পরীক্ষামূলক ফলাফল ### খেলনা ডেটাসেট ফলাফল #### গড় অ্যামপ্লিফিকেশন - **২-মাত্রিক গাউসিয়ান রিং**: অঞ্চল ২-তে $G = 2.6$ অর্জন করা, সমন্বিত অঞ্চল $G = 7.0$ - **४-মাত্রিক গাউসিয়ান রিং**: অঞ্চল २-তে $G = 1.9$ অর্জন করা, সমন্বিত অঞ্চল $G = 2.8$ - **লেজ অঞ্চল**: অ্যামপ্লিফিকেশন ফ্যাক্টর উল্লেখযোগ্যভাবে হ্রাস পায়, २-মাত্রিকের জন্য $G = 0.9$, ४-মাত্রিকের জন্য $G = 0.03$ #### ডিফারেনশিয়াল অ্যামপ্লিফিকেশন - **সারসংক্ষেপ পরিসংখ্যান সংবেদনশীলতা**: রেডিয়াল সারসংক্ষেপ পরিসংখ্যান $R$ উচ্চতর অ্যামপ্লিফিকেশন ফ্যাক্টর প্রদর্শন করে ($G \approx 22$), যখন সম্ভাব্যতা অনুপাত পরিসংখ্যান কোনো অ্যামপ্লিফিকেশন দেখায় না - **মাত্রা প্রভাব**: ४-মাত্রিক ক্ষেত্রে অ্যামপ্লিফিকেশন প্রভাব হ্রাস পায়, উচ্চ-মাত্রিক শেখার চ্যালেঞ্জ প্রতিফলিত করে ### পদার্থবিজ্ঞান প্রয়োগ ফলাফল #### $t\bar{t} + 0j$ উৎপাদন **গড় অ্যামপ্লিফিকেশন**: - ট্রান্সফর্মার: $G_{est} = 0.3$, $G_{truth} = 0.3$ - L-GATr: $G_{est} = 0.8$, $G_{truth} = 0.7$ - LLoCa-Tr: $G_{est} = 1.7$, $G_{truth} = 1.2$ **ডিফারেনশিয়াল অ্যামপ্লিফিকেশন**: - সম্পূর্ণ পর্যায় স্থান: সমস্ত আর্কিটেকচার $G \approx 0.01-0.1$ - উচ্চ $m_{t\bar{t}}$ অঞ্চল: LLoCa ট্রান্সফর্মার $G \approx 2$ অর্জন করে #### $t\bar{t} + 4j$ উৎপাদন **গড় অ্যামপ্লিফিকেশন** (উচ্চ $m_{t\bar{t}}$ অঞ্চল): - ট্রান্সফর্মার: $G_{est} = 2.3$ - L-GATr: $G_{est} = 10.9$ - LLoCa-Tr: $G_{est} = 12.0$ **ডিফারেনশিয়াল অ্যামপ্লিফিকেশন**: - উচ্চ $m_{t\bar{t}}$ অঞ্চল: সমস্ত আর্কিটেকচার $G \approx 5$ ### মূল আবিষ্কার १. **লরেন্টজ সমতুল্যতার সুবিধা**: L-GATr এবং LLoCa ট্রান্সফর্মার স্ট্যান্ডার্ড ট্রান্সফর্মারের চেয়ে উল্লেখযোগ্যভাবে ভাল २. **অঞ্চল নির্ভরতা**: অ্যামপ্লিফিকেশন নির্দিষ্ট পর্যায় স্থান অঞ্চলে (যেমন উচ্চ ভর লেজ) আরও সহজে অর্জন করা যায় ३. **পদ্ধতি পরিপূরকতা**: গড় এবং ডিফারেনশিয়াল পদ্ধতি অ্যামপ্লিফিকেশন মূল্যায়নের বিভিন্ন দৃষ্টিভঙ্গি প্রদান করে ## সম্পর্কিত কাজ ### জেনারেটিভ অ্যামপ্লিফিকেশন গবেষণা - প্রাথমিক কাজ প্রধানত সিন্থেটিক ডেটা এবং ডিটেক্টর সিমুলেশনে অ্যামপ্লিফিকেশন প্রভাব যাচাই করে - বিদ্যমান পদ্ধতি পরিচিত সত্য বিতরণ বা বৃহৎ সংরক্ষিত ডেটাসেটের উপর নির্ভর করে যাচাইকরণের জন্য ### LHC ইভেন্ট প্রজন্ম - পর্যায় স্থান নমুনা, সমাপ্ত-থেকে-সমাপ্ত ইভেন্ট প্রজন্ম, হ্যাড্রোনাইজেশন এবং ডিটেক্টর সিমুলেশনের জেনারেটিভ নেটওয়ার্ক - শেখা মসৃণ বিস্তার প্রতিনিধি এবং শ্রেণীবিভাজক-ভিত্তিক বেঞ্চমার্ক ### অনিশ্চয়তা পরিমাপ - পদার্থবিজ্ঞান প্রয়োগে বেয়েসিয়ান স্নায়ু নেটওয়ার্ক এবং সমষ্টি পদ্ধতির ব্যবহার - জেনারেটিভ নেটওয়ার্কের অনিশ্চয়তা পরিমাপ নির্ভরযোগ্য অ্যামপ্লিফিকেশনের গুরুত্বপূর্ণ উপাদান হিসাবে ## উপসংহার এবং আলোচনা ### প্রধান উপসংহার १. **সম্ভাব্যতা যাচাইকরণ**: নির্দিষ্ট পর্যায় স্থান অঞ্চলে, আধুনিক জেনারেটিভ নেটওয়ার্ক প্রকৃতপক্ষে পরিসংখ্যানগত অ্যামপ্লিফিকেশন অর্জন করতে পারে २. **পদ্ধতি কার্যকারিতা**: উভয় প্রস্তাবিত পদ্ধতি বৃহৎ সংরক্ষিত ডেটাসেট ছাড়াই কার্যকরভাবে অ্যামপ্লিফিকেশন ফ্যাক্টর অনুমান করতে পারে ३. **আর্কিটেকচার গুরুত্ব**: লরেন্টজ সমতুল্য আর্কিটেকচার LHC ইভেন্ট প্রজন্মে আরও ভাল কর্মক্ষমতা প্রদর্শন করে ### সীমাবদ্ধতা १. **অঞ্চল সীমাবদ্ধতা**: অ্যামপ্লিফিকেশন প্রধানত নির্দিষ্ট পর্যায় স্থান অঞ্চলে অর্জন করা হয়, এখনও সম্পূর্ণ বিতরণ কভার করে না २. **মাত্রা চ্যালেঞ্জ**: উচ্চ-মাত্রিক ক্ষেত্রে অ্যামপ্লিফিকেশন প্রভাব হ্রাস পায় ३. **পদ্ধতি পার্থক্য**: দুটি পদ্ধতি সামান্য ভিন্ন অ্যামপ্লিফিকেশন ফ্যাক্টর প্রদান করে, বিভিন্ন রেজোলিউশন সংবেদনশীলতা প্রতিফলিত করে ### ভবিষ্যত দিকনির্দেশনা १. আরও জটিল LHC প্রক্রিয়া এবং উচ্চতর মাত্রায় সম্প্রসারণ २. বিস্তৃত অ্যামপ্লিফিকেশন অর্জনের জন্য জেনারেটিভ নেটওয়ার্ক আর্কিটেকচার উন্নত করা ३. অন্যান্য অনিশ্চয়তা পরিমাপ কৌশল একত্রিত করা ## গভীর মূল্যায়ন ### শক্তি १. **তাত্ত্বিক কঠোরতা**: জেনারেটিভ অ্যামপ্লিফিকেশনের গাণিতিকভাবে কঠোর সংজ্ঞা এবং মূল্যায়ন ফ্রেমওয়ার্ক প্রদান করে २. **ব্যবহারিক মূল্য**: প্রকৃত পদার্থবিজ্ঞান প্রয়োগে মূল চাহিদা সমাধান করে, বৃহৎ সংরক্ষিত ডেটাসেটের প্রয়োজন নেই ३. **পদ্ধতি উদ্ভাবন**: দুটি পরিপূরক পদ্ধতি প্রতিটি সুবিধা রয়েছে, গড় পদ্ধতি সহজ এবং স্বজ্ঞাত, ডিফারেনশিয়াল পদ্ধতি রেজোলিউশন বজায় রাখে ४. **পর্যাপ্ত যাচাইকরণ**: সহজ খেলনা মডেল থেকে জটিল পদার্থবিজ্ঞান প্রক্রিয়ার সিস্টেমেটিক যাচাইকরণ ### অপূর্ণতা १. **সীমিত অ্যামপ্লিফিকেশন পরিসীমা**: বর্তমানে শুধুমাত্র নির্দিষ্ট অঞ্চলে অ্যামপ্লিফিকেশন অর্জন করা হয়, বৈশ্বিক অ্যামপ্লিফিকেশন থেকে এখনও দূরে २. **গণনা ওভারহেড**: বেয়েসিয়ান নেটওয়ার্ক এবং সমষ্টি পদ্ধতি গণনা খরচ বৃদ্ধি করে ३. **KS পরীক্ষা সীমাবদ্ধতা**: ডিফারেনশিয়াল পদ্ধতি শুধুমাত্র একক-পরিবর্তনশীল পরীক্ষা পরিসংখ্যানে সীমাবদ্ধ ### প্রভাব १. **একাডেমিক অবদান**: উচ্চ শক্তি পদার্থবিজ্ঞানে জেনারেটিভ নেটওয়ার্ক প্রয়োগের জন্য গুরুত্বপূর্ণ তাত্ত্বিক ভিত্তি প্রদান করে २. **ব্যবহারিক মূল্য**: HL-LHC এর গণনা চ্যালেঞ্জের জন্য সম্ভাব্য সমাধান প্রদান করে ३. **পদ্ধতি সার্বজনীনতা**: প্রস্তাবিত পদ্ধতি অন্যান্য বৈজ্ঞানিক কম্পিউটিং ক্ষেত্রে প্রসারিত করা যায় ### প্রযোজ্য পরিস্থিতি १. **উচ্চ শক্তি পদার্থবিজ্ঞান সিমুলেশন**: LHC ইভেন্ট প্রজন্ম এবং ডিটেক্টর সিমুলেশন २. **বৈজ্ঞানিক কম্পিউটিং**: বড় পরিমাণ মন্টে কার্লো সিমুলেশন প্রয়োজন এমন পদার্থবিজ্ঞান সমস্যা ३. **জেনারেটিভ মডেল মূল্যায়ন**: যেকোনো প্রয়োগ যা জেনারেটিভ গুণমান এবং পরিসংখ্যানগত নির্ভরযোগ্যতা পরিমাপ করতে প্রয়োজন ## রেফারেন্স পেপারটি সমৃদ্ধ রেফারেন্স অন্তর্ভুক্ত করে, যা মেশিন লার্নিং এর LHC পদার্থবিজ্ঞানে প্রয়োগ, জেনারেটিভ নেটওয়ার্ক, বেয়েসিয়ান পদ্ধতি এবং অনিশ্চয়তা পরিমাপ সম্পর্কিত ক্ষেত্রের গুরুত্বপূর্ণ কাজ কভার করে। বিশেষভাবে উল্লেখযোগ্য হল লেখক দলের GANplification-এ পূর্ববর্তী যুগান্তকারী কাজ এবং সর্বশেষ লরেন্টজ সমতুল্য নেটওয়ার্ক আর্কিটেকচার গবেষণা।