2025-11-24T13:58:17.726959

Heterogeneous Point Set Transformers for Segmentation of Multiple View Particle Detectors

Robles, Sagar, Yankelevich et al.

NOvA is a long-baseline neutrino oscillation experiment that detects neutrino particles from the NuMI beam at Fermilab. Before data from this experiment can be used in analyses, raw hits in the detector must be matched to their source particles, and the type of each particle must be identified. This task has commonly been done using a mix of traditional clustering approaches and convolutional neural networks (CNNs). Due to the construction of the detector, the data is presented as two sparse 2D images: an XZ and a YZ view of the detector, rather than a 3D representation. We propose a point set neural network that operates on the sparse matrices with an operation that mixes information from both views. Our model uses less than 10% of the memory required using previous methods while achieving a 96.8% AUC score, a higher score than obtained when both views are processed independently (85.4%).

academic

Trasformatori di Insiemi di Punti Eterogenei per la Segmentazione di Rivelatori di Particelle Multi-Vista

Informazioni Fondamentali

ID Articolo: 2510.09659
Titolo: Heterogeneous Point Set Transformers for Segmentation of Multiple View Particle Detectors
Autori: Edgar E. Robles, Dikshant Sagar, Alejandro Yankelevich, Jianming Bian, Pierre Baldi (University of California, Irvine) per la Collaborazione NOvA
Classificazione: cs.LG (Machine Learning), hep-ex (High Energy Physics - Experiment)
Data di Pubblicazione: 7 ottobre 2025 (preprint)
Link dell'Articolo: https://arxiv.org/abs/2510.09659v1

Riassunto

NOvA è un esperimento di oscillazione dei neutrini a lunga linea di base progettato per rilevare neutrini provenienti dal fascio NuMI del Fermilab. Prima che i dati sperimentali possano essere utilizzati per l'analisi, i segnali di colpo grezzi nel rivelatore devono essere associati alle loro particelle sorgente e deve essere identificato il tipo di ciascuna particella. Tradizionalmente, questo compito viene completato attraverso una combinazione di metodi di clustering convenzionali e reti neurali convoluzionali (CNN). A causa della costruzione del rivelatore, i dati sono presentati come due immagini 2D sparse: la vista XZ e la vista YZ del rivelatore, piuttosto che una rappresentazione 3D. Questo articolo propone una rete di insiemi di punti che opera su matrici sparse e elabora i dati attraverso operazioni che fondono le informazioni di entrambe le viste. Il modello utilizza meno del 10% della memoria dei metodi precedenti, raggiungendo contemporaneamente un punteggio AUC del 96,8%, superiore al 85,4% ottenuto quando le due viste vengono elaborate indipendentemente.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il problema fondamentale affrontato da questa ricerca è il compito di segmentazione e classificazione delle tracce di particelle nell'esperimento di neutrini NOvA. Nello specifico, include:

Segmentazione di istanze: associare i segnali di colpo grezzi nel rivelatore alle particelle sorgente corrispondenti, separando le diverse tracce di particelle (prongs)
Segmentazione semantica: identificare il tipo di ciascuna particella (ad esempio, muoni, elettroni, protoni, fotoni, pioni, ecc.)

Importanza del Problema

L'esperimento NOvA è un importante esperimento di fisica dei neutrini che richiede l'elaborazione di grandi quantità di dati sparsi
L'identificazione e la segmentazione accurata delle particelle costituiscono la base per l'analisi fisica successiva
I metodi tradizionali presentano colli di bottiglia sia nelle risorse computazionali che nell'accuratezza

Limitazioni dei Metodi Esistenti

Metodi CNN tradizionali: richiedono la conversione di matrici sparse in matrici dense, determinando un elevato utilizzo di memoria
Elaborazione di viste indipendenti: i metodi esistenti elaborano le viste XZ e YZ con CNN indipendenti, o trattano ogni vista come canale di immagine, senza fondere efficacemente le informazioni tra viste
Efficienza computazionale: anche utilizzando operazioni di convoluzione sparse come MinkowskiEngine, è ancora necessaria l'approssimazione della convoluzione per risparmiare memoria

Motivazione della Ricerca

La costruzione unica del rivelatore NOvA fa sì che i dati possano essere presentati solo in due piani 2D, piuttosto che in una rappresentazione 3D completa. I metodi esistenti non sfruttano pienamente le informazioni complementari tra viste. Questo articolo mira a progettare un'architettura di rete neurale che possa fondere efficacemente le informazioni multi-vista.

Contributi Fondamentali

Propone i Trasformatori di Insiemi di Punti Eterogenei (HPST): estende per la prima volta i trasformatori di insiemi di punti all'elaborazione di dati di rivelatori di particelle multi-vista
Progetta un meccanismo di attenzione eterogeneo: implementa innovativamente la fusione di informazioni tra viste, consentendo il flusso di informazioni tra diverse viste
Migliora significativamente le prestazioni e l'efficienza:
- AUC aumentato dal 85,4% al 96,8%
- Utilizzo di memoria ridotto a meno del 10% del metodo precedente
Fornisce un framework di apprendimento multi-task completo: elabora simultaneamente i compiti di segmentazione di istanze e segmentazione semantica

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un insieme di dati del rivelatore NOvA X, contenente N campioni, ogni campione X^(i) rappresenta un evento di rilevamento di particelle. Ogni evento è diviso in M=2 viste (XZ e YZ), ogni vista X^(i,j) contiene un numero variabile di rilevamenti K^(i,j). Ogni rilevamento è descritto da coordinate x_k^(i,j) ∈ R^c e valore v_k^(i,j) ∈ R^d.

Obiettivi:

Segmentazione di istanze: raggruppare i punti di rilevamento in diverse tracce di particelle
Segmentazione semantica: assegnare etichette di tipo di particella a ciascun punto di rilevamento

Architettura del Modello

Progettazione dell'Architettura Generale

HPST adotta una struttura codificatore-decodificatore simile a UNet:

Codificatore: n stadi, ogni stadio contiene m blocchi di attenzione, seguiti da operazioni di pooling
Decodificatore: n stadi, ogni stadio seguito da operazioni di unpooling e connessioni di salto
Dimensioni delle caratteristiche: le dimensioni raddoppiano progressivamente nella fase di codifica e si dimezzano nella fase di decodifica

Meccanismo di Attenzione Eterogeneo

L'innovazione fondamentale risiede nel meccanismo di attenzione eterogeneo, che include:

Attenzione intra-vista: meccanismo di auto-attenzione tradizionale che elabora punti all'interno della stessa vista
Attenzione inter-vista: componente chiave per la fusione di informazioni tra viste

Calcolo dell'Attenzione Inter-Vista:

Query: Q_k^(i,j'→j) query del punto k dalla vista j' alla vista j
Chiavi-Valori: K_{k'}^(i,j'→j) e V_{k'}^(i,j'→j) chiavi e valori corrispondenti
Pesi di attenzione: w_{kk'}^(i,j'→j) = Q_k^(i,j'→j)T K_{k'}^(i,j'→j)
Output: h'k^(i,j) = Σ{k'} softmax(w_{kk'}^(i,j'→j))V_{k'}^(i,j'→j)

Definizione della Distanza e Costruzione del Grafo

Distanza intra-vista: d_(x_k^(i,j), x_{k'}^(i,j)) distanza tra punti nella stessa vista
Distanza inter-vista: d_{jj'}(x_k^(i,j), x_{k'}^(i,j'}) distanza tra punti in viste diverse
Costruzione delle connessioni del grafo basata su k-vicini più prossimi

Pooling e Unpooling

Pooling: metodo di pooling voxel, creazione di una griglia all'interno della stessa vista e media dei valori dei punti all'interno della griglia
Unpooling: utilizzo di connessioni di salto, campionamento superiore dei punti alle coordinate precedenti

Punti di Innovazione Tecnica

Fusione di informazioni inter-vista: prima implementazione di un efficace meccanismo di attenzione su nuvole di punti multi-vista nel campo della fisica delle particelle
Elaborazione efficiente di dati sparsi: operazione diretta sulla rappresentazione di nuvole di punti, evitando la conversione da matrice sparsa a densa
Apprendimento di caratteristiche multi-scala: implementazione di miscelazione di informazioni da locale a globale attraverso l'architettura UNet
Framework di ottimizzazione congiunta: elaborazione unificata di compiti di segmentazione e classificazione

Configurazione Sperimentale

Dataset

Fonte dei dati: dati di simulazione di interazioni di neutrini generati dalla collaborazione NOvA
Scala dei dati: 9.246.712 eventi
Caratteristiche dei dati:
- Media di 70 punti di colpo per evento
- Dimensioni dell'immagine: 2×80×100
- Distribuzione di dati altamente sparsa

Metriche di Valutazione

Prestazioni di classificazione:
- AUC (Area Under Curve)
- OVR AUC (One-vs-Rest AUC)
Prestazioni di segmentazione:
- Efficienza (Recall): proporzione di tracce di particelle correttamente identificate
- Purezza (Precision): accuratezza delle tracce previste
- Accuratezza di segmentazione
Efficienza computazionale:
- Utilizzo di memoria (MiB)
- Tempo di elaborazione per campione (secondi)

Metodi di Confronto

Mask R-CNN: rete neurale convoluzionale basata su regioni
GAT (Graph Attention Networks): reti di attenzione su grafi
HPST: trasformatore di insiemi di punti eterogenei proposto in questo articolo

Dettagli di Implementazione

Ambiente hardware: Intel Xeon E5-2640 v4 @ 2.40GHz, 503G RAM, 4×NVIDIA Titan V
Ricerca di iperparametri:
- Numero di connessioni di vicini: {4, 8}
- Numero di stadi di rete: {2, 3, 4}
- Dimensione di embedding: {128, 256, 512}
- Tasso di apprendimento: da 1e-4 a 1e-1
Configurazione di addestramento:
- Ricerca di iperparametri: 8 epoch, 1% dei dati
- Addestramento finale: 24 epoch

Risultati Sperimentali

Risultati Principali

Modello	Utilizzo di Memoria (MiB)	Tempo per Campione (s)	OVR AUC	Accuratezza di Segmentazione
R-CNN	282,4±37,43	265,33±2,01	0,732	0,343
GAT	29,8±0,40	1,74±0,001	0,854	0,659
HPST	34,7±1,00	7,05±0,001	0,968	0,835

Scoperte Chiave:

HPST supera significativamente i metodi di base in tutte le metriche di prestazione
Rispetto all'elaborazione indipendente di due viste (85,4% AUC), la fusione inter-vista di HPST aumenta l'AUC al 96,8%
L'utilizzo di memoria è solo circa il 12% di quello di Mask R-CNN

Analisi delle Prestazioni per Tipo di Particella

Efficienza:

Muoni: 0,95 (migliore)
Elettroni: 0,93
Protoni: 0,82
Fotoni: 0,75
Pioni: 0,71 (più impegnativo)

Purezza:

Muoni: 0,90
Elettroni: 0,88
Protoni: 0,78
Fotoni: 0,72
Pioni: 0,69

Analisi: i tipi di particelle principali (muoni ed elettroni) mostrano i migliori risultati di segmentazione, mentre le particelle secondarie sono più impegnative a causa del minor numero di punti di colpo.

Analisi di Casi

L'articolo presenta un tipico evento di interazione di neutrini, contenente:

Uno sciame elettronico principale
Molteplici particelle secondarie
Il confronto tra le previsioni di HPST e le etichette vere mostra buoni risultati di classificazione, con solo una piccola confusione nelle particelle secondarie con molto pochi punti di colpo

Lavori Correlati

Machine Learning in Fisica delle Particelle

Metodi tradizionali: algoritmi di clustering combinati con caratteristiche costruite manualmente
Applicazioni CNN:
- Classificatore di eventi di neutrini di Aurisano et al.
- CNN di regressione per la ricostruzione dell'energia di Baldi et al.
- Identificazione di particelle potenziata dal contesto di Psihas et al.

Elaborazione di Dati Sparsi

Convoluzione sparsa: framework come MinkowskiEngine
Metodi di nuvole di punti: applicazione di Point Transformers nella visione 3D
Reti neurali su grafi: applicazione di GAT e simili su dati irregolari

Apprendimento Multi-Vista

I metodi NOvA esistenti adottano principalmente CNN indipendenti o fusione di canali. Questo articolo implementa per la prima volta un vero meccanismo di attenzione inter-vista.

Conclusioni e Discussione

Conclusioni Principali

Efficacia dei trasformatori di insiemi di punti eterogenei: HPST risolve con successo il problema di segmentazione e classificazione dei dati di rivelatori di particelle multi-vista
Importanza della fusione inter-vista: la fusione di informazioni tra viste, rispetto all'elaborazione indipendente, produce miglioramenti significativi nelle prestazioni
Superiorità dell'efficienza computazionale: migliora le prestazioni riducendo drasticamente l'utilizzo di memoria

Limitazioni

Dipendenza dai dati: i vantaggi di efficienza della rappresentazione sparsa potrebbero scomparire quando la densità dei dati è più elevata
Complessità computazionale: la complessità delle operazioni su insiemi di punti potrebbe aumentare con il numero di punti, causando potenzialmente un rallentamento dell'algoritmo
Specificità del dominio: il metodo è progettato per la struttura a doppia vista specifica dell'esperimento NOvA

Direzioni Future

Estensione ad altri esperimenti di rivelatori di particelle multi-vista
Esplorazione di meccanismi di attenzione inter-vista più complessi
Incorporazione di conoscenze preliminari fisiche per migliorare ulteriormente le prestazioni

Valutazione Approfondita

Punti di Forza

Forte innovazione: prima applicazione di meccanismi di attenzione eterogenei all'elaborazione di dati di fisica delle particelle
Alto valore pratico: i significativi miglioramenti di prestazioni e efficienza hanno importanza cruciale per gli esperimenti pratici
Esperimenti completi: esperimenti di confronto completi e analisi dettagliata delle prestazioni
Scrittura chiara: descrizione accurata dei dettagli tecnici, diagrammi di architettura chiari e facili da comprendere

Insufficienze

Analisi teorica limitata: manca un'analisi teorica approfondita del perché l'attenzione inter-vista sia efficace
Esperimenti di ablazione insufficienti: non analizza completamente i contributi specifici di vari componenti (come diverse definizioni di distanza, meccanismi di attenzione, ecc.)
Verifica di generalizzazione: validazione solo su dati NOvA, manca la verifica su altri compiti simili

Impatto

Valore accademico: fornisce una nuova soluzione per l'elaborazione di dati sparsi multi-vista
Valore pratico: può essere direttamente applicato alla pipeline di elaborazione dei dati dell'esperimento NOvA
Significato ispiratore: fornisce un riferimento per l'elaborazione dei dati di altri esperimenti di fisica delle particelle

Scenari Applicabili

Elaborazione di dati di rivelatori di particelle multi-vista
Ricostruzione multi-vista 2D di dati 3D sparsi
Compiti di analisi di nuvole di punti che richiedono fusione di informazioni inter-vista
Elaborazione di dati scientifici su larga scala con risorse computazionali limitate

Bibliografia

L'articolo cita lavori importanti nei campi della fisica delle particelle, machine learning e visione artificiale, inclusi rapporti tecnici relativi all'esperimento NOvA, applicazioni di deep learning in ambito scientifico, e articoli classici su reti neurali su grafi e meccanismi di attenzione. Particolarmente degni di nota sono i riferimenti a tecnologie correlate come MinkowskiEngine, Mask R-CNN e Graph Attention Networks, che riflettono la profonda comprensione dell'autore dello stato attuale del campo.