2025-11-24T13:58:17.726959

Heterogeneous Point Set Transformers for Segmentation of Multiple View Particle Detectors

Robles, Sagar, Yankelevich et al.

NOvA is a long-baseline neutrino oscillation experiment that detects neutrino particles from the NuMI beam at Fermilab. Before data from this experiment can be used in analyses, raw hits in the detector must be matched to their source particles, and the type of each particle must be identified. This task has commonly been done using a mix of traditional clustering approaches and convolutional neural networks (CNNs). Due to the construction of the detector, the data is presented as two sparse 2D images: an XZ and a YZ view of the detector, rather than a 3D representation. We propose a point set neural network that operates on the sparse matrices with an operation that mixes information from both views. Our model uses less than 10% of the memory required using previous methods while achieving a 96.8% AUC score, a higher score than obtained when both views are processed independently (85.4%).

academic

বহুবিষয়ক বিন্দু সেট ট্রান্সফর্মার একাধিক দৃশ্য কণা সনাক্তকারীর বিভাজনের জন্য

মৌলিক তথ্য

পেপার আইডি: 2510.09659
শিরোনাম: বহুবিষয়ক বিন্দু সেট ট্রান্সফর্মার একাধিক দৃশ্য কণা সনাক্তকারীর বিভাজনের জন্য
লেখক: এডগার ই. রোবলেস, দিক্ষান্ত সাগর, আলেজান্দ্রো ইয়াঙ্কেলেভিচ, জিয়ানমিং বিয়ান, পিয়েরে বালদি (ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, আরভাইন) NOvA সহযোগিতার জন্য
শ্রেণীবিভাগ: cs.LG (মেশিন লার্নিং), hep-ex (উচ্চ শক্তি পদার্থবিজ্ঞান - পরীক্ষা)
প্রকাশনার সময়: ২০২৫ সালের ৭ অক্টোবর (প্রাক-প্রকাশনা)
পেপার লিঙ্ক: https://arxiv.org/abs/2510.09659v1

সারসংক্ষেপ

NOvA একটি দীর্ঘ-ভিত্তি নিউট্রিনো দোলন পরীক্ষা যা ফার্মিল্যাব NuMI বিমের নিউট্রিনো কণা সনাক্ত করার জন্য ডিজাইন করা হয়েছে। পরীক্ষামূলক ডেটা বিশ্লেষণের জন্য ব্যবহার করার আগে, সনাক্তকারীতে কাঁচা আঘাত সংকেতগুলি তাদের উৎস কণার সাথে মেলাতে হবে এবং প্রতিটি কণার ধরন চিহ্নিত করতে হবে। ঐতিহ্যগতভাবে, এই কাজটি ঐতিহ্যবাহী ক্লাস্টারিং পদ্ধতি এবং কনভোলিউশনাল নিউরাল নেটওয়ার্ক (CNN) এর সমন্বয়ের মাধ্যমে সম্পন্ন করা হয়। সনাক্তকারীর নির্মাণ বৈশিষ্ট্যের কারণে, ডেটা দুটি বিরল 2D চিত্র হিসাবে উপস্থাপিত হয়: সনাক্তকারীর XZ দৃশ্য এবং YZ দৃশ্য, 3D প্রতিনিধিত্বের পরিবর্তে। এই পেপারটি একটি বিন্দু সেট নিউরাল নেটওয়ার্ক প্রস্তাব করে যা বিরল ম্যাট্রিক্সে কাজ করে এবং দুটি দৃশ্যের তথ্য মিশ্রিত করার মাধ্যমে ডেটা প্রক্রিয়া করে। এই মডেলটি পূর্ববর্তী পদ্ধতির 10% এর কম মেমরি ব্যবহার করে, একই সাথে 96.8% AUC স্কোর অর্জন করে, যা দুটি দৃশ্য স্বাধীনভাবে প্রক্রিয়া করার সময় প্রাপ্ত 85.4% স্কোরের চেয়ে বেশি।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

এই গবেষণা যে মূল সমস্যাটি সমাধান করতে চায় তা হল NOvA নিউট্রিনো পরীক্ষায় কণা ট্র্যাজেক্টরি বিভাজন এবং শ্রেণীবিভাগ কাজ। এটি নির্দিষ্টভাবে অন্তর্ভুক্ত করে:

উদাহরণ বিভাজন: সনাক্তকারীতে কাঁচা আঘাত সংকেতগুলি সংশ্লিষ্ট উৎস কণার সাথে মেলানো, বিভিন্ন কণা ট্র্যাজেক্টরি (prongs) আলাদা করা
শব্দার্থিক বিভাজন: প্রতিটি কণার ধরন চিহ্নিত করা (যেমন মিউয়ন, ইলেকট্রন, প্রোটন, ফোটন, পাইয়ন ইত্যাদি)

সমস্যার গুরুত্ব

NOvA পরীক্ষা একটি গুরুত্বপূর্ণ নিউট্রিনো পদার্থবিজ্ঞান পরীক্ষা যা বিশাল পরিমাণ বিরল ডেটা প্রক্রিয়া করতে প্রয়োজন
নির্ভুল কণা চিহ্নিতকরণ এবং বিভাজন পরবর্তী পদার্থবিজ্ঞান বিশ্লেষণের ভিত্তি
ঐতিহ্যবাহী পদ্ধতিগুলি গণনামূলক সম্পদ এবং নির্ভুলতার ক্ষেত্রে বাধার সম্মুখীন

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

ঐতিহ্যবাহী CNN পদ্ধতি: বিরল ম্যাট্রিক্সকে ঘন ম্যাট্রিক্সে রূপান্তরিত করতে প্রয়োজন, যা বিশাল মেমরি ব্যবহার করে
স্বাধীন দৃশ্য প্রক্রিয়াকরণ: বিদ্যমান পদ্ধতিগুলি দুটি স্বাধীন CNN দ্বারা XZ এবং YZ দৃশ্য প্রক্রিয়া করে, বা প্রতিটি দৃশ্যকে চিত্র চ্যানেল হিসাবে ব্যবহার করে, ক্রস-দৃশ্য তথ্য কার্যকরভাবে মিশ্রিত করতে পারে না
গণনামূলক দক্ষতা: এমনকি MinkowskiEngine এর মতো বিরল কনভোলিউশন অপারেশন ব্যবহার করলেও, মেমরি সংরক্ষণের জন্য এখনও আনুমানিক কনভোলিউশন প্রয়োজন

গবেষণা প্রেরণা

NOvA সনাক্তকারীর অনন্য নির্মাণ ডেটাকে শুধুমাত্র দুটি 2D সমতলে উপস্থাপিত করতে দেয়, সম্পূর্ণ 3D প্রতিনিধিত্বের পরিবর্তে। বিদ্যমান পদ্ধতিগুলি ক্রস-দৃশ্য পরিপূরক তথ্য সম্পূর্ণভাবে ব্যবহার করে না, এই পেপারটি এমন একটি নিউরাল নেটওয়ার্ক স্থাপত্য ডিজাইন করার লক্ষ্য রাখে যা বহু-দৃশ্য তথ্য কার্যকরভাবে মিশ্রিত করতে পারে।

মূল অবদান

বহুবিষয়ক বিন্দু সেট ট্রান্সফর্মার (HPST) প্রস্তাব করা: প্রথমবারের মতো বিন্দু সেট ট্রান্সফর্মারকে বহু-দৃশ্য কণা সনাক্তকারী ডেটা প্রক্রিয়াকরণে প্রসারিত করা
বহুবিষয়ক মনোযোগ প্রক্রিয়া ডিজাইন করা: ক্রস-দৃশ্য তথ্য মিশ্রণের জন্য উদ্ভাবনীভাবে বাস্তবায়ন করা, বিভিন্ন দৃশ্যের মধ্যে তথ্য প্রবাহ অনুমতি দেওয়া
কর্মক্ষমতা এবং দক্ষতা উল্লেখযোগ্যভাবে উন্নত করা:
- AUC 85.4% থেকে 96.8% এ উন্নীত করা
- মেমরি ব্যবহার মূল পদ্ধতির 10% এর কম হ্রাস করা
সম্পূর্ণ বহু-কাজ শেখার কাঠামো প্রদান করা: একই সাথে উদাহরণ বিভাজন এবং শব্দার্থিক বিভাজন কাজ পরিচালনা করা

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

NOvA সনাক্তকারী ডেটাসেট X দেওয়া, N নমুনা সমন্বিত, প্রতিটি নমুনা X^(i) একটি কণা সনাক্তকরণ ইভেন্ট প্রতিনিধিত্ব করে। প্রতিটি ইভেন্ট M=2 দৃশ্যে বিভক্ত (XZ এবং YZ), প্রতিটি দৃশ্য X^(i,j) পরিবর্তনশীল সংখ্যক সনাক্তকরণ K^(i,j) ধারণ করে। প্রতিটি সনাক্তকরণ স্থানাঙ্ক x_k^(i,j) ∈ R^c এবং মান v_k^(i,j) ∈ R^d দ্বারা বর্ণিত।

উদ্দেশ্য:

উদাহরণ বিভাজন: সনাক্তকরণ পয়েন্টগুলিকে বিভিন্ন কণা ট্র্যাজেক্টরিতে গোষ্ঠীবদ্ধ করা
শব্দার্থিক বিভাজন: প্রতিটি সনাক্তকরণ পয়েন্টে কণা ধরনের লেবেল নির্ধারণ করা

মডেল স্থাপত্য

সামগ্রিক স্থাপত্য ডিজাইন

HPST একটি UNet-সদৃশ এনকোডার-ডিকোডার কাঠামো গ্রহণ করে:

এনকোডার: n পর্যায়, প্রতিটি পর্যায় m মনোযোগ ব্লক ধারণ করে, যার পরে পুলিং অপারেশন
ডিকোডার: n পর্যায়, প্রতিটি পর্যায়ের পরে আনপুলিং অপারেশন এবং স্কিপ সংযোগ
বৈশিষ্ট্য মাত্রা: এনকোডিং পর্যায়ে ক্রমান্বয়ে দ্বিগুণ, ডিকোডিং পর্যায়ে ক্রমান্বয়ে অর্ধেক

বহুবিষয়ক মনোযোগ প্রক্রিয়া

মূল উদ্ভাবন বহুবিষয়ক মনোযোগ প্রক্রিয়ায় নিহিত, যা অন্তর্ভুক্ত করে:

দৃশ্য-অভ্যন্তরীণ মনোযোগ: ঐতিহ্যবাহী স্ব-মনোযোগ প্রক্রিয়া, একই দৃশ্যের মধ্যে পয়েন্ট পরিচালনা করে
দৃশ্য-মধ্যস্থ মনোযোগ: ক্রস-দৃশ্য তথ্য মিশ্রণের মূল উপাদান

দৃশ্য-মধ্যস্থ মনোযোগ গণনা:

প্রশ্ন: Q_k^(i,j'→j) দৃশ্য j' থেকে দৃশ্য j এ পয়েন্ট k এর প্রশ্ন
চাবি-মান: K_{k'}^(i,j'→j) এবং V_{k'}^(i,j'→j) সংশ্লিষ্ট চাবি এবং মান
মনোযোগ ওজন: w_{kk'}^(i,j'→j) = Q_k^(i,j'→j)T K_{k'}^(i,j'→j)
আউটপুট: h'k^(i,j) = Σ{k'} softmax(w_{kk'}^(i,j'→j))V_{k'}^(i,j'→j)

দূরত্ব সংজ্ঞা এবং গ্রাফ নির্মাণ

দৃশ্য-অভ্যন্তরীণ দূরত্ব: d_(x_k^(i,j), x_{k'}^(i,j)) একই দৃশ্যের মধ্যে পয়েন্ট দূরত্ব
দৃশ্য-মধ্যস্থ দূরত্ব: d_{jj'}(x_k^(i,j), x_{k'}^(i,j'}) বিভিন্ন দৃশ্যের মধ্যে পয়েন্ট দূরত্ব
k-নিকটতম প্রতিবেশীর উপর ভিত্তি করে গ্রাফ সংযোগ নির্মাণ করা

পুলিং এবং আনপুলিং

পুলিং: ভক্সেল পুলিং পদ্ধতি, একই দৃশ্যের মধ্যে একটি গ্রিড তৈরি করে এবং গ্রিডের মধ্যে পয়েন্টের মান গড় করে
আনপুলিং: স্কিপ সংযোগ ব্যবহার করে, পয়েন্টগুলিকে পূর্ববর্তী স্থানাঙ্কে আপস্যাম্পল করে

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

ক্রস-দৃশ্য তথ্য মিশ্রণ: কণা পদার্থবিজ্ঞান ক্ষেত্রে প্রথমবারের মতো কার্যকর বহু-দৃশ্য বিন্দু ক্লাউড মনোযোগ প্রক্রিয়া বাস্তবায়ন করা
বিরল ডেটা দক্ষ প্রক্রিয়াকরণ: বিন্দু ক্লাউড প্রতিনিধিত্বে সরাসরি কাজ করা, বিরল থেকে ঘন ম্যাট্রিক্স রূপান্তর এড়ানো
বহু-স্কেল বৈশিষ্ট্য শেখা: UNet স্থাপত্যের মাধ্যমে স্থানীয় থেকে বৈশ্বিক তথ্য মিশ্রণ বাস্তবায়ন করা
যৌথ অপ্টিমাইজেশন কাঠামো: বিভাজন এবং শ্রেণীবিভাগ কাজ একীভূতভাবে পরিচালনা করা

পরীক্ষামূলক সেটআপ

ডেটাসেট

ডেটা উৎস: NOvA সহযোগিতা সংস্থা দ্বারা উৎপাদিত নিউট্রিনো মিথস্ক্রিয়া সিমুলেশন ডেটা
ডেটা স্কেল: 9,246,712 ইভেন্ট
ডেটা বৈশিষ্ট্য:
- প্রতিটি ইভেন্টে গড়ে 70টি আঘাত পয়েন্ট
- চিত্র আকার: 2×80×100
- অত্যন্ত বিরল ডেটা বিতরণ

মূল্যায়ন মেট্রিক্স

শ্রেণীবিভাগ কর্মক্ষমতা:
- AUC (বক্ররেখার অধীন এলাকা)
- OVR AUC (এক-বনাম-বাকি AUC)
বিভাজন কর্মক্ষমতা:
- দক্ষতা (Efficiency/Recall): সঠিকভাবে চিহ্নিত কণা ট্র্যাজেক্টরির অনুপাত
- বিশুদ্ধতা (Purity/Precision): পূর্বাভাসিত ট্র্যাজেক্টরির নির্ভুলতা
- বিভাজন নির্ভুলতা
গণনামূলক দক্ষতা:
- মেমরি ব্যবহার (MiB)
- প্রতি নমুনা প্রক্রিয়াকরণ সময় (সেকেন্ড)

তুলনামূলক পদ্ধতি

Mask R-CNN: অঞ্চল-ভিত্তিক কনভোলিউশনাল নিউরাল নেটওয়ার্ক
GAT (গ্রাফ মনোযোগ নেটওয়ার্ক): গ্রাফ মনোযোগ নেটওয়ার্ক
HPST: এই পেপারে প্রস্তাবিত বহুবিষয়ক বিন্দু সেট ট্রান্সফর্মার

বাস্তবায়ন বিবরণ

হার্ডওয়্যার পরিবেশ: Intel Xeon E5-2640 v4 @ 2.40GHz, 503G RAM, 4×NVIDIA Titan V
হাইপারপ্যারামিটার অনুসন্ধান:
- প্রতিবেশী সংযোগ সংখ্যা: {4, 8}
- নেটওয়ার্ক পর্যায় সংখ্যা: {2, 3, 4}
- এমবেডিং মাত্রা: {128, 256, 512}
- শেখার হার: 1e-4 থেকে 1e-1
প্রশিক্ষণ সেটিংস:
- হাইপারপ্যারামিটার অনুসন্ধান: 8 epoch, 1% ডেটা
- চূড়ান্ত প্রশিক্ষণ: 24 epoch

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

মডেল	মেমরি ব্যবহার (MiB)	প্রতি নমুনা সময় (s)	OVR AUC	বিভাজন নির্ভুলতা
R-CNN	282.4±37.43	265.33±2.01	0.732	0.343
GAT	29.8±0.40	1.74±0.001	0.854	0.659
HPST	34.7±1.00	7.05±0.001	0.968	0.835

মূল আবিষ্কার:

HPST সমস্ত কর্মক্ষমতা মেট্রিক্সে ভিত্তিরেখা পদ্ধতিগুলির চেয়ে উল্লেখযোগ্যভাবে ভাল
দুটি দৃশ্য স্বাধীনভাবে প্রক্রিয়া করার তুলনায় (85.4% AUC), HPST এর ক্রস-দৃশ্য মিশ্রণ AUC কে 96.8% এ উন্নীত করে
মেমরি ব্যবহার Mask R-CNN এর প্রায় 12%

বিভিন্ন কণা ধরনের কর্মক্ষমতা বিশ্লেষণ

দক্ষতা (Efficiency):

মিউয়ন: 0.95 (সর্বোত্তম)
ইলেকট্রন: 0.93
প্রোটন: 0.82
ফোটন: 0.75
পাইয়ন: 0.71 (সবচেয়ে চ্যালেঞ্জিং)

বিশুদ্ধতা (Purity):

মিউয়ন: 0.90
ইলেকট্রন: 0.88
প্রোটন: 0.78
ফোটন: 0.72
পাইয়ন: 0.69

বিশ্লেষণ: প্রধান কণা ধরন (মিউয়ন এবং ইলেকট্রন) এর বিভাজন প্রভাব সর্বোত্তম, গৌণ কণা আঘাত পয়েন্টের কম সংখ্যার কারণে আরও চ্যালেঞ্জিং।

কেস স্টাডি

পেপারটি একটি সাধারণ নিউট্রিনো মিথস্ক্রিয়া ইভেন্ট প্রদর্শন করে, যা অন্তর্ভুক্ত করে:

প্রধান ইলেকট্রন ক্যাসকেড
একাধিক গৌণ কণা
HPST পূর্বাভাস এবং প্রকৃত লেবেলের তুলনা ভাল শ্রেণীবিভাগ প্রভাব দেখায়, শুধুমাত্র অত্যন্ত কম আঘাত পয়েন্ট সহ গৌণ কণায় সামান্য বিভ্রান্তি

উপসংহার এবং আলোচনা

প্রধান উপসংহার

বহুবিষয়ক বিন্দু সেট ট্রান্সফর্মার কার্যকর: HPST সফলভাবে বহু-দৃশ্য কণা সনাক্তকারী ডেটার বিভাজন এবং শ্রেণীবিভাগ সমস্যা সমাধান করে
ক্রস-দৃশ্য মিশ্রণ গুরুত্বপূর্ণ: স্বাধীন প্রক্রিয়াকরণের তুলনায়, দৃশ্য-মধ্যস্থ তথ্য মিশ্রণ উল্লেখযোগ্য কর্মক্ষমতা উন্নতি নিয়ে আসে
গণনামূলক দক্ষতা উচ্চতর: কর্মক্ষমতা উন্নত করার সাথে সাথে মেমরি ব্যবহার উল্লেখযোগ্যভাবে হ্রাস করে

সীমাবদ্ধতা

ডেটা নির্ভরশীলতা: বিরল প্রতিনিধিত্বের দক্ষতা সুবিধা ডেটা ঘনত্ব বেশি হলে হারিয়ে যেতে পারে
গণনামূলক জটিলতা: বিন্দু সেট অপারেশনের জটিলতা বিন্দু সংখ্যার সাথে বৃদ্ধি পেতে পারে অ্যালগরিদম ধীর করতে পারে
ডোমেইন-নির্দিষ্টতা: পদ্ধতি NOvA পরীক্ষার নির্দিষ্ট দ্বি-দৃশ্য কাঠামোর জন্য ডিজাইন করা হয়েছে

ভবিষ্যত দিকনির্দেশনা

অন্যান্য বহু-দৃশ্য কণা সনাক্তকারী পরীক্ষায় প্রসারিত করা
আরও জটিল ক্রস-দৃশ্য মনোযোগ প্রক্রিয়া অন্বেষণ করা
কর্মক্ষমতা আরও উন্নত করতে পদার্থবিজ্ঞান পূর্ব জ্ঞান একত্রিত করা

গভীর মূল্যায়ন

সুবিধা

শক্তিশালী উদ্ভাবনী: কণা পদার্থবিজ্ঞান ডেটা প্রক্রিয়াকরণে বহুবিষয়ক মনোযোগ প্রক্রিয়া প্রথমবারের মতো প্রয়োগ করা
উচ্চ ব্যবহারিক মূল্য: উল্লেখযোগ্য কর্মক্ষমতা উন্নতি এবং দক্ষতা উন্নতি প্রকৃত পরীক্ষার জন্য গুরুত্বপূর্ণ
সম্পূর্ণ পরীক্ষা: ব্যাপক তুলনামূলক পরীক্ষা এবং বিস্তারিত কর্মক্ষমতা বিশ্লেষণ
স্পষ্ট লেখা: প্রযুক্তিগত বিবরণ নির্ভুল, স্থাপত্য চিত্র স্পষ্ট এবং বোধগম্য

অপূর্ণতা

সীমিত তাত্ত্বিক বিশ্লেষণ: ক্রস-দৃশ্য মনোযোগ কেন কার্যকর তার গভীর তাত্ত্বিক বিশ্লেষণের অভাব
অপর্যাপ্ত অ্যাবলেশন পরীক্ষা: বিভিন্ন উপাদানের (যেমন বিভিন্ন দূরত্ব সংজ্ঞা, মনোযোগ প্রক্রিয়া ইত্যাদি) নির্দিষ্ট অবদান সম্পূর্ণভাবে বিশ্লেষণ করা হয়নি
সীমিত সাধারণীকরণ যাচাইকরণ: শুধুমাত্র NOvA ডেটায় যাচাই করা হয়েছে, অন্যান্য অনুরূপ কাজে যাচাইকরণের অভাব

প্রভাব

একাডেমিক মূল্য: বহু-দৃশ্য বিরল ডেটা প্রক্রিয়াকরণের জন্য নতুন সমাধান প্রদান করে
ব্যবহারিক মূল্য: NOvA পরীক্ষার ডেটা প্রক্রিয়াকরণ পাইপলাইনে সরাসরি প্রয়োগ করা যায়
অনুপ্রেরণামূলক তাৎপর্য: অন্যান্য কণা পদার্থবিজ্ঞান পরীক্ষার ডেটা প্রক্রিয়াকরণের জন্য রেফারেন্স প্রদান করে

প্রযোজ্য দৃশ্যকল্প

বহু-দৃশ্য কণা সনাক্তকারী ডেটা প্রক্রিয়াকরণ
বিরল 3D ডেটার 2D বহু-দৃশ্য পুনর্নির্মাণ
ক্রস-দৃশ্য তথ্য মিশ্রণ প্রয়োজনীয় বিন্দু ক্লাউড বিশ্লেষণ কাজ
গণনামূলক সম্পদ সীমিত বৃহৎ-স্কেল বৈজ্ঞানিক ডেটা প্রক্রিয়াকরণ

সংদর্ভ

পেপারটি কণা পদার্থবিজ্ঞান, মেশিন লার্নিং এবং কম্পিউটার দৃষ্টিভঙ্গি ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে NOvA পরীক্ষার সম্পর্কিত প্রযুক্তিগত প্রতিবেদন, বিজ্ঞানে গভীর শেখার প্রয়োগ, এবং গ্রাফ নিউরাল নেটওয়ার্ক এবং মনোযোগ প্রক্রিয়ার ক্লাসিক পেপার। বিশেষভাবে উল্লেখযোগ্য হল MinkowskiEngine, Mask R-CNN এবং Graph Attention Networks এর মতো সম্পর্কিত প্রযুক্তির উদ্ধৃতি, যা ক্ষেত্রের বর্তমান অবস্থার প্রতি লেখকদের গভীর বোঝাপড়া প্রতিফলিত করে।