2025-11-24T13:58:17.726959

Heterogeneous Point Set Transformers for Segmentation of Multiple View Particle Detectors

Robles, Sagar, Yankelevich et al.

NOvA is a long-baseline neutrino oscillation experiment that detects neutrino particles from the NuMI beam at Fermilab. Before data from this experiment can be used in analyses, raw hits in the detector must be matched to their source particles, and the type of each particle must be identified. This task has commonly been done using a mix of traditional clustering approaches and convolutional neural networks (CNNs). Due to the construction of the detector, the data is presented as two sparse 2D images: an XZ and a YZ view of the detector, rather than a 3D representation. We propose a point set neural network that operates on the sparse matrices with an operation that mixes information from both views. Our model uses less than 10% of the memory required using previous methods while achieving a 96.8% AUC score, a higher score than obtained when both views are processed independently (85.4%).

academic

Transformadores de Conjuntos de Puntos Heterogéneos para la Segmentación de Detectores de Partículas de Múltiples Vistas

Información Básica

ID del Artículo: 2510.09659
Título: Heterogeneous Point Set Transformers for Segmentation of Multiple View Particle Detectors
Autores: Edgar E. Robles, Dikshant Sagar, Alejandro Yankelevich, Jianming Bian, Pierre Baldi (Universidad de California, Irvine) para la Colaboración NOvA
Clasificación: cs.LG (Aprendizaje Automático), hep-ex (Física de Altas Energías - Experimento)
Fecha de Publicación: 7 de octubre de 2025 (preimpresión)
Enlace del Artículo: https://arxiv.org/abs/2510.09659v1

Resumen

NOvA es un experimento de oscilación de neutrinos de línea de base larga diseñado para detectar neutrinos provenientes del haz NuMI del Fermilab. Antes de que los datos experimentales se utilicen para análisis, las señales de impacto sin procesar en el detector deben coincidir con sus partículas fuente e identificar el tipo de cada partícula. Tradicionalmente, esta tarea se realiza mediante una combinación de métodos de agrupamiento convencionales y redes neuronales convolucionales (CNN). Debido a la construcción del detector, los datos se presentan como dos imágenes 2D dispersas: la vista XZ y la vista YZ del detector, en lugar de una representación 3D. Este artículo propone una red neuronal de conjuntos de puntos que opera sobre matrices dispersas y procesa datos mediante operaciones que fusionan información de ambas vistas. El modelo utiliza menos del 10% de la memoria de métodos anteriores, mientras logra una puntuación AUC del 96,8%, superior al 85,4% obtenido al procesar las dos vistas de forma independiente.

Contexto de Investigación y Motivación

Definición del Problema

El problema central que aborda esta investigación es la segmentación y clasificación de trayectorias de partículas en el experimento de neutrinos NOvA. Específicamente incluye:

Segmentación de Instancias: Hacer coincidir las señales de impacto sin procesar en el detector con sus partículas fuente correspondientes, separando diferentes trayectorias de partículas (prongs)
Segmentación Semántica: Identificar el tipo de cada partícula (como muones, electrones, protones, fotones, piones, etc.)

Importancia del Problema

NOvA es un experimento importante de física de neutrinos que requiere procesar grandes volúmenes de datos dispersos
La identificación y segmentación precisa de partículas es fundamental para análisis físicos posteriores
Los métodos tradicionales presentan cuellos de botella en recursos computacionales y precisión

Limitaciones de Métodos Existentes

Métodos CNN Tradicionales: Requieren convertir matrices dispersas en matrices densas, resultando en un alto uso de memoria
Procesamiento de Vistas Independientes: Los métodos existentes procesan las vistas XZ e YZ con CNN independientes, o tratan cada vista como canal de imagen, sin fusionar efectivamente información entre vistas
Eficiencia Computacional: Incluso usando operaciones de convolución dispersa como MinkowskiEngine, aún requieren convoluciones aproximadas para ahorrar memoria

Motivación de la Investigación

La construcción única del detector NOvA hace que los datos solo puedan presentarse en dos planos 2D, en lugar de una representación 3D completa. Los métodos existentes no aprovechan plenamente la información complementaria entre vistas. Este trabajo tiene como objetivo diseñar una arquitectura de red neuronal que fusione efectivamente información de múltiples vistas.

Contribuciones Principales

Propone Transformadores de Conjuntos de Puntos Heterogéneos (HPST): Primera extensión de transformadores de conjuntos de puntos al procesamiento de datos de detectores de partículas multivista
Diseña Mecanismo de Atención Heterogénea: Implementación innovadora de fusión de información entre vistas, permitiendo flujo de información entre diferentes vistas
Mejora Significativa de Rendimiento y Eficiencia:
- AUC mejorado de 85,4% a 96,8%
- Uso de memoria reducido a menos del 10% del método anterior
Proporciona Marco Completo de Aprendizaje Multitarea: Procesa simultáneamente tareas de segmentación de instancias y segmentación semántica

Explicación Detallada del Método

Definición de Tareas

Dado un conjunto de datos del detector NOvA X, que contiene N muestras, cada muestra X^(i) representa un evento de detección de partículas. Cada evento se divide en M=2 vistas (XZ e YZ), cada vista X^(i,j) contiene un número variable de detecciones K^(i,j). Cada detección se describe por coordenadas x_k^(i,j) ∈ R^c y valor v_k^(i,j) ∈ R^d.

Objetivos:

Segmentación de instancias: Agrupar puntos de detección en diferentes trayectorias de partículas
Segmentación semántica: Asignar etiquetas de tipo de partícula a cada punto de detección

Arquitectura del Modelo

Diseño de Arquitectura General

HPST adopta una estructura codificador-decodificador similar a UNet:

Codificador: n etapas, cada etapa contiene m bloques de atención, seguidos de operación de agrupamiento
Decodificador: n etapas, cada etapa seguida de operación de desagrupamiento y conexiones de salto
Dimensión de Características: Se duplican progresivamente en etapas de codificación, se reducen a la mitad en etapas de decodificación

Mecanismo de Atención Heterogénea

La innovación central radica en el mecanismo de atención heterogénea, que incluye:

Atención Intravista: Mecanismo de autosatención tradicional, procesando puntos dentro de la misma vista
Atención Intervista: Componente clave para fusión de información entre vistas

Cálculo de Atención Intervista:

Consulta: Q_k^(i,j'→j) consulta del punto k de la vista j' a la vista j
Clave-Valor: K_{k'}^(i,j'→j) y V_{k'}^(i,j'→j) clave y valor correspondientes
Peso de Atención: w_{kk'}^(i,j'→j) = Q_k^(i,j'→j)T K_{k'}^(i,j'→j)
Salida: h'k^(i,j) = Σ{k'} softmax(w_{kk'}^(i,j'→j))V_{k'}^(i,j'→j)

Definición de Distancia y Construcción de Gráficos

Distancia Intravista: d_(x_k^(i,j), x_{k'}^(i,j)) distancia entre puntos en la misma vista
Distancia Intervista: d_{jj'}(x_k^(i,j), x_{k'}^(i,j'}) distancia entre puntos en diferentes vistas
Construcción de conectividad de gráficos basada en k vecinos más cercanos

Agrupamiento y Desagrupamiento

Agrupamiento: Método de agrupamiento de vóxeles, creando una cuadrícula dentro de la misma vista y promediando valores de puntos dentro de la cuadrícula
Desagrupamiento: Uso de conexiones de salto, sobremuestreo de puntos a coordenadas anteriores

Puntos de Innovación Técnica

Fusión de Información Intervista: Primera implementación de mecanismo de atención de nube de puntos multivista efectivo en física de partículas
Procesamiento Eficiente de Datos Dispersos: Operación directa sobre representación de nube de puntos, evitando conversión de matriz dispersa a densa
Aprendizaje de Características Multiescala: Implementación de información de mezcla local a global mediante arquitectura UNet
Marco de Optimización Conjunta: Procesamiento unificado de tareas de segmentación y clasificación

Configuración Experimental

Conjunto de Datos

Fuente de Datos: Datos de simulación de interacción de neutrinos generados por la colaboración NOvA
Escala de Datos: 9.246.712 eventos
Características de Datos:
- Promedio de 70 puntos de impacto por evento
- Tamaño de imagen: 2×80×100
- Distribución de datos altamente dispersa

Métricas de Evaluación

Rendimiento de Clasificación:
- AUC (Área Bajo la Curva)
- AUC OVR (AUC Uno contra Resto)
Rendimiento de Segmentación:
- Eficiencia (Recall): Proporción de trayectorias de partículas identificadas correctamente
- Pureza (Precisión): Precisión de trayectorias predichas
- Precisión de Segmentación
Eficiencia Computacional:
- Uso de Memoria (MiB)
- Tiempo de Procesamiento por Muestra (segundos)

Métodos de Comparación

Mask R-CNN: Red neuronal convolucional basada en regiones
GAT (Redes de Atención de Gráficos): Red de atención de gráficos
HPST: Transformador de conjuntos de puntos heterogéneos propuesto en este trabajo

Detalles de Implementación

Entorno de Hardware: Intel Xeon E5-2640 v4 @ 2.40GHz, 503G RAM, 4×NVIDIA Titan V
Búsqueda de Hiperparámetros:
- Número de conexiones de vecinos: {4, 8}
- Número de etapas de red: {2, 3, 4}
- Dimensión de incrustación: {128, 256, 512}
- Tasa de aprendizaje: 1e-4 a 1e-1
Configuración de Entrenamiento:
- Búsqueda de hiperparámetros: 8 épocas, 1% de datos
- Entrenamiento final: 24 épocas

Resultados Experimentales

Resultados Principales

Modelo	Uso de Memoria (MiB)	Tiempo por Muestra (s)	AUC OVR	Precisión de Segmentación
R-CNN	282,4±37,43	265,33±2,01	0,732	0,343
GAT	29,8±0,40	1,74±0,001	0,854	0,659
HPST	34,7±1,00	7,05±0,001	0,968	0,835

Hallazgos Clave:

HPST supera significativamente los métodos de referencia en todas las métricas de rendimiento
En comparación con el procesamiento independiente de dos vistas (85,4% AUC), la fusión intervista de HPST eleva el AUC a 96,8%
El uso de memoria es aproximadamente el 12% del de Mask R-CNN

Análisis de Rendimiento por Tipo de Partícula

Eficiencia:

Muones: 0,95 (óptimo)
Electrones: 0,93
Protones: 0,82
Fotones: 0,75
Piones: 0,71 (más desafiante)

Pureza:

Muones: 0,90
Electrones: 0,88
Protones: 0,78
Fotones: 0,72
Piones: 0,69

Análisis: Los tipos de partículas principales (muones y electrones) muestran el mejor rendimiento de segmentación, mientras que las partículas secundarias son más desafiantes debido a su menor número de puntos de impacto.

Análisis de Casos

El artículo presenta un evento típico de interacción de neutrinos que incluye:

Cascada de electrones principal
Múltiples partículas secundarias
Comparación de predicciones HPST con etiquetas reales mostrando buen rendimiento de clasificación, con solo confusiones menores en partículas secundarias con muy pocos puntos de impacto

Trabajo Relacionado

Aprendizaje Automático en Física de Partículas

Métodos Tradicionales: Algoritmos de agrupamiento combinados con características manuales
Aplicaciones de CNN:
- Clasificador de eventos de neutrinos de Aurisano et al.
- CNN de regresión de reconstrucción de energía de Baldi et al.
- Identificación de partículas mejorada por contexto de Psihas et al.

Procesamiento de Datos Dispersos

Convolución Dispersa: Marcos como MinkowskiEngine
Métodos de Nube de Puntos: Aplicación de Transformadores de Puntos en visión 3D
Redes Neuronales de Gráficos: Aplicación de GAT y similares en datos irregulares

Aprendizaje Multivista

Los métodos NOvA existentes emplean principalmente CNN independientes o fusión de canales. Este trabajo implementa por primera vez un verdadero mecanismo de atención intervista.

Conclusiones y Discusión

Conclusiones Principales

Efectividad del Transformador de Conjuntos de Puntos Heterogéneos: HPST resuelve exitosamente el problema de segmentación y clasificación de datos de detectores de partículas multivista
Importancia de la Fusión Intervista: La fusión de información entre vistas produce mejoras significativas de rendimiento en comparación con el procesamiento independiente
Superioridad en Eficiencia Computacional: Mejora el rendimiento mientras reduce significativamente el uso de memoria

Limitaciones

Dependencia de Datos: Las ventajas de eficiencia de la representación dispersa pueden desaparecer con datos de mayor densidad
Complejidad Computacional: La complejidad de operaciones de conjuntos de puntos puede aumentar con el número de puntos, potencialmente ralentizando el algoritmo
Especificidad de Dominio: El método está diseñado específicamente para la estructura de doble vista del experimento NOvA

Direcciones Futuras

Extensión a otros experimentos de detectores de partículas multivista
Exploración de mecanismos de atención intervista más complejos
Incorporación de conocimiento previo físico para mejorar aún más el rendimiento

Evaluación Profunda

Fortalezas

Fuerte Innovación: Primera aplicación de mecanismo de atención heterogénea al procesamiento de datos de física de partículas
Alto Valor Práctico: Las mejoras significativas de rendimiento y eficiencia tienen importancia considerable para experimentos reales
Experimentación Completa: Experimentos comparativos exhaustivos y análisis detallado de rendimiento
Escritura Clara: Descripción precisa de detalles técnicos, diagramas de arquitectura claros y fáciles de entender

Deficiencias

Análisis Teórico Limitado: Falta análisis teórico profundo sobre por qué la atención intervista es efectiva
Experimentos de Ablación Insuficientes: No analiza completamente las contribuciones específicas de componentes individuales (como diferentes definiciones de distancia, mecanismos de atención, etc.)
Validación de Generalización: Validación solo en datos NOvA, falta validación en otras tareas similares

Impacto

Valor Académico: Proporciona nueva solución para procesamiento de datos dispersos multivista
Valor Práctico: Aplicable directamente a la tubería de procesamiento de datos del experimento NOvA
Significado Inspirador: Proporciona referencia para procesamiento de datos en otros experimentos de física de partículas

Escenarios de Aplicación

Procesamiento de datos de detectores de partículas multivista
Reconstrucción 2D multivista de datos 3D dispersos
Tareas de análisis de nube de puntos que requieren fusión de información intervista
Procesamiento de datos científicos a gran escala con recursos computacionales limitados

Referencias

El artículo cita trabajos importantes en los campos de física de partículas, aprendizaje automático y visión por computadora, incluyendo reportes técnicos relacionados con el experimento NOvA, aplicaciones de aprendizaje profundo en ciencia, y artículos clásicos sobre redes neuronales de gráficos y mecanismos de atención. Particularmente notable es la referencia a tecnologías relacionadas como MinkowskiEngine, Mask R-CNN y Redes de Atención de Gráficos, reflejando la comprensión profunda del autor del estado actual del campo.