NOvA is a long-baseline neutrino oscillation experiment that detects neutrino particles from the NuMI beam at Fermilab. Before data from this experiment can be used in analyses, raw hits in the detector must be matched to their source particles, and the type of each particle must be identified. This task has commonly been done using a mix of traditional clustering approaches and convolutional neural networks (CNNs). Due to the construction of the detector, the data is presented as two sparse 2D images: an XZ and a YZ view of the detector, rather than a 3D representation. We propose a point set neural network that operates on the sparse matrices with an operation that mixes information from both views. Our model uses less than 10% of the memory required using previous methods while achieving a 96.8% AUC score, a higher score than obtained when both views are processed independently (85.4%).
- ID del Artículo: 2510.09659
- Título: Heterogeneous Point Set Transformers for Segmentation of Multiple View Particle Detectors
- Autores: Edgar E. Robles, Dikshant Sagar, Alejandro Yankelevich, Jianming Bian, Pierre Baldi (Universidad de California, Irvine) para la Colaboración NOvA
- Clasificación: cs.LG (Aprendizaje Automático), hep-ex (Física de Altas Energías - Experimento)
- Fecha de Publicación: 7 de octubre de 2025 (preimpresión)
- Enlace del Artículo: https://arxiv.org/abs/2510.09659v1
NOvA es un experimento de oscilación de neutrinos de línea de base larga diseñado para detectar neutrinos provenientes del haz NuMI del Fermilab. Antes de que los datos experimentales se utilicen para análisis, las señales de impacto sin procesar en el detector deben coincidir con sus partículas fuente e identificar el tipo de cada partícula. Tradicionalmente, esta tarea se realiza mediante una combinación de métodos de agrupamiento convencionales y redes neuronales convolucionales (CNN). Debido a la construcción del detector, los datos se presentan como dos imágenes 2D dispersas: la vista XZ y la vista YZ del detector, en lugar de una representación 3D. Este artículo propone una red neuronal de conjuntos de puntos que opera sobre matrices dispersas y procesa datos mediante operaciones que fusionan información de ambas vistas. El modelo utiliza menos del 10% de la memoria de métodos anteriores, mientras logra una puntuación AUC del 96,8%, superior al 85,4% obtenido al procesar las dos vistas de forma independiente.
El problema central que aborda esta investigación es la segmentación y clasificación de trayectorias de partículas en el experimento de neutrinos NOvA. Específicamente incluye:
- Segmentación de Instancias: Hacer coincidir las señales de impacto sin procesar en el detector con sus partículas fuente correspondientes, separando diferentes trayectorias de partículas (prongs)
- Segmentación Semántica: Identificar el tipo de cada partícula (como muones, electrones, protones, fotones, piones, etc.)
- NOvA es un experimento importante de física de neutrinos que requiere procesar grandes volúmenes de datos dispersos
- La identificación y segmentación precisa de partículas es fundamental para análisis físicos posteriores
- Los métodos tradicionales presentan cuellos de botella en recursos computacionales y precisión
- Métodos CNN Tradicionales: Requieren convertir matrices dispersas en matrices densas, resultando en un alto uso de memoria
- Procesamiento de Vistas Independientes: Los métodos existentes procesan las vistas XZ e YZ con CNN independientes, o tratan cada vista como canal de imagen, sin fusionar efectivamente información entre vistas
- Eficiencia Computacional: Incluso usando operaciones de convolución dispersa como MinkowskiEngine, aún requieren convoluciones aproximadas para ahorrar memoria
La construcción única del detector NOvA hace que los datos solo puedan presentarse en dos planos 2D, en lugar de una representación 3D completa. Los métodos existentes no aprovechan plenamente la información complementaria entre vistas. Este trabajo tiene como objetivo diseñar una arquitectura de red neuronal que fusione efectivamente información de múltiples vistas.
- Propone Transformadores de Conjuntos de Puntos Heterogéneos (HPST): Primera extensión de transformadores de conjuntos de puntos al procesamiento de datos de detectores de partículas multivista
- Diseña Mecanismo de Atención Heterogénea: Implementación innovadora de fusión de información entre vistas, permitiendo flujo de información entre diferentes vistas
- Mejora Significativa de Rendimiento y Eficiencia:
- AUC mejorado de 85,4% a 96,8%
- Uso de memoria reducido a menos del 10% del método anterior
- Proporciona Marco Completo de Aprendizaje Multitarea: Procesa simultáneamente tareas de segmentación de instancias y segmentación semántica
Dado un conjunto de datos del detector NOvA X, que contiene N muestras, cada muestra X^(i) representa un evento de detección de partículas. Cada evento se divide en M=2 vistas (XZ e YZ), cada vista X^(i,j) contiene un número variable de detecciones K^(i,j). Cada detección se describe por coordenadas x_k^(i,j) ∈ R^c y valor v_k^(i,j) ∈ R^d.
Objetivos:
- Segmentación de instancias: Agrupar puntos de detección en diferentes trayectorias de partículas
- Segmentación semántica: Asignar etiquetas de tipo de partícula a cada punto de detección
HPST adopta una estructura codificador-decodificador similar a UNet:
- Codificador: n etapas, cada etapa contiene m bloques de atención, seguidos de operación de agrupamiento
- Decodificador: n etapas, cada etapa seguida de operación de desagrupamiento y conexiones de salto
- Dimensión de Características: Se duplican progresivamente en etapas de codificación, se reducen a la mitad en etapas de decodificación
La innovación central radica en el mecanismo de atención heterogénea, que incluye:
- Atención Intravista: Mecanismo de autosatención tradicional, procesando puntos dentro de la misma vista
- Atención Intervista: Componente clave para fusión de información entre vistas
Cálculo de Atención Intervista:
- Consulta: Q_k^(i,j'→j) consulta del punto k de la vista j' a la vista j
- Clave-Valor: K_{k'}^(i,j'→j) y V_{k'}^(i,j'→j) clave y valor correspondientes
- Peso de Atención: w_{kk'}^(i,j'→j) = Q_k^(i,j'→j)T K_{k'}^(i,j'→j)
- Salida: h'k^(i,j) = Σ{k'} softmax(w_{kk'}^(i,j'→j))V_{k'}^(i,j'→j)
- Distancia Intravista: d_(x_k^(i,j), x_{k'}^(i,j)) distancia entre puntos en la misma vista
- Distancia Intervista: d_{jj'}(x_k^(i,j), x_{k'}^(i,j'}) distancia entre puntos en diferentes vistas
- Construcción de conectividad de gráficos basada en k vecinos más cercanos
- Agrupamiento: Método de agrupamiento de vóxeles, creando una cuadrícula dentro de la misma vista y promediando valores de puntos dentro de la cuadrícula
- Desagrupamiento: Uso de conexiones de salto, sobremuestreo de puntos a coordenadas anteriores
- Fusión de Información Intervista: Primera implementación de mecanismo de atención de nube de puntos multivista efectivo en física de partículas
- Procesamiento Eficiente de Datos Dispersos: Operación directa sobre representación de nube de puntos, evitando conversión de matriz dispersa a densa
- Aprendizaje de Características Multiescala: Implementación de información de mezcla local a global mediante arquitectura UNet
- Marco de Optimización Conjunta: Procesamiento unificado de tareas de segmentación y clasificación
- Fuente de Datos: Datos de simulación de interacción de neutrinos generados por la colaboración NOvA
- Escala de Datos: 9.246.712 eventos
- Características de Datos:
- Promedio de 70 puntos de impacto por evento
- Tamaño de imagen: 2×80×100
- Distribución de datos altamente dispersa
- Rendimiento de Clasificación:
- AUC (Área Bajo la Curva)
- AUC OVR (AUC Uno contra Resto)
- Rendimiento de Segmentación:
- Eficiencia (Recall): Proporción de trayectorias de partículas identificadas correctamente
- Pureza (Precisión): Precisión de trayectorias predichas
- Precisión de Segmentación
- Eficiencia Computacional:
- Uso de Memoria (MiB)
- Tiempo de Procesamiento por Muestra (segundos)
- Mask R-CNN: Red neuronal convolucional basada en regiones
- GAT (Redes de Atención de Gráficos): Red de atención de gráficos
- HPST: Transformador de conjuntos de puntos heterogéneos propuesto en este trabajo
- Entorno de Hardware: Intel Xeon E5-2640 v4 @ 2.40GHz, 503G RAM, 4×NVIDIA Titan V
- Búsqueda de Hiperparámetros:
- Número de conexiones de vecinos: {4, 8}
- Número de etapas de red: {2, 3, 4}
- Dimensión de incrustación: {128, 256, 512}
- Tasa de aprendizaje: 1e-4 a 1e-1
- Configuración de Entrenamiento:
- Búsqueda de hiperparámetros: 8 épocas, 1% de datos
- Entrenamiento final: 24 épocas
| Modelo | Uso de Memoria (MiB) | Tiempo por Muestra (s) | AUC OVR | Precisión de Segmentación |
|---|
| R-CNN | 282,4±37,43 | 265,33±2,01 | 0,732 | 0,343 |
| GAT | 29,8±0,40 | 1,74±0,001 | 0,854 | 0,659 |
| HPST | 34,7±1,00 | 7,05±0,001 | 0,968 | 0,835 |
Hallazgos Clave:
- HPST supera significativamente los métodos de referencia en todas las métricas de rendimiento
- En comparación con el procesamiento independiente de dos vistas (85,4% AUC), la fusión intervista de HPST eleva el AUC a 96,8%
- El uso de memoria es aproximadamente el 12% del de Mask R-CNN
Eficiencia:
- Muones: 0,95 (óptimo)
- Electrones: 0,93
- Protones: 0,82
- Fotones: 0,75
- Piones: 0,71 (más desafiante)
Pureza:
- Muones: 0,90
- Electrones: 0,88
- Protones: 0,78
- Fotones: 0,72
- Piones: 0,69
Análisis: Los tipos de partículas principales (muones y electrones) muestran el mejor rendimiento de segmentación, mientras que las partículas secundarias son más desafiantes debido a su menor número de puntos de impacto.
El artículo presenta un evento típico de interacción de neutrinos que incluye:
- Cascada de electrones principal
- Múltiples partículas secundarias
- Comparación de predicciones HPST con etiquetas reales mostrando buen rendimiento de clasificación, con solo confusiones menores en partículas secundarias con muy pocos puntos de impacto
- Métodos Tradicionales: Algoritmos de agrupamiento combinados con características manuales
- Aplicaciones de CNN:
- Clasificador de eventos de neutrinos de Aurisano et al.
- CNN de regresión de reconstrucción de energía de Baldi et al.
- Identificación de partículas mejorada por contexto de Psihas et al.
- Convolución Dispersa: Marcos como MinkowskiEngine
- Métodos de Nube de Puntos: Aplicación de Transformadores de Puntos en visión 3D
- Redes Neuronales de Gráficos: Aplicación de GAT y similares en datos irregulares
Los métodos NOvA existentes emplean principalmente CNN independientes o fusión de canales. Este trabajo implementa por primera vez un verdadero mecanismo de atención intervista.
- Efectividad del Transformador de Conjuntos de Puntos Heterogéneos: HPST resuelve exitosamente el problema de segmentación y clasificación de datos de detectores de partículas multivista
- Importancia de la Fusión Intervista: La fusión de información entre vistas produce mejoras significativas de rendimiento en comparación con el procesamiento independiente
- Superioridad en Eficiencia Computacional: Mejora el rendimiento mientras reduce significativamente el uso de memoria
- Dependencia de Datos: Las ventajas de eficiencia de la representación dispersa pueden desaparecer con datos de mayor densidad
- Complejidad Computacional: La complejidad de operaciones de conjuntos de puntos puede aumentar con el número de puntos, potencialmente ralentizando el algoritmo
- Especificidad de Dominio: El método está diseñado específicamente para la estructura de doble vista del experimento NOvA
- Extensión a otros experimentos de detectores de partículas multivista
- Exploración de mecanismos de atención intervista más complejos
- Incorporación de conocimiento previo físico para mejorar aún más el rendimiento
- Fuerte Innovación: Primera aplicación de mecanismo de atención heterogénea al procesamiento de datos de física de partículas
- Alto Valor Práctico: Las mejoras significativas de rendimiento y eficiencia tienen importancia considerable para experimentos reales
- Experimentación Completa: Experimentos comparativos exhaustivos y análisis detallado de rendimiento
- Escritura Clara: Descripción precisa de detalles técnicos, diagramas de arquitectura claros y fáciles de entender
- Análisis Teórico Limitado: Falta análisis teórico profundo sobre por qué la atención intervista es efectiva
- Experimentos de Ablación Insuficientes: No analiza completamente las contribuciones específicas de componentes individuales (como diferentes definiciones de distancia, mecanismos de atención, etc.)
- Validación de Generalización: Validación solo en datos NOvA, falta validación en otras tareas similares
- Valor Académico: Proporciona nueva solución para procesamiento de datos dispersos multivista
- Valor Práctico: Aplicable directamente a la tubería de procesamiento de datos del experimento NOvA
- Significado Inspirador: Proporciona referencia para procesamiento de datos en otros experimentos de física de partículas
- Procesamiento de datos de detectores de partículas multivista
- Reconstrucción 2D multivista de datos 3D dispersos
- Tareas de análisis de nube de puntos que requieren fusión de información intervista
- Procesamiento de datos científicos a gran escala con recursos computacionales limitados
El artículo cita trabajos importantes en los campos de física de partículas, aprendizaje automático y visión por computadora, incluyendo reportes técnicos relacionados con el experimento NOvA, aplicaciones de aprendizaje profundo en ciencia, y artículos clásicos sobre redes neuronales de gráficos y mecanismos de atención. Particularmente notable es la referencia a tecnologías relacionadas como MinkowskiEngine, Mask R-CNN y Redes de Atención de Gráficos, reflejando la comprensión profunda del autor del estado actual del campo.