NOvA is a long-baseline neutrino oscillation experiment that detects neutrino particles from the NuMI beam at Fermilab. Before data from this experiment can be used in analyses, raw hits in the detector must be matched to their source particles, and the type of each particle must be identified. This task has commonly been done using a mix of traditional clustering approaches and convolutional neural networks (CNNs). Due to the construction of the detector, the data is presented as two sparse 2D images: an XZ and a YZ view of the detector, rather than a 3D representation. We propose a point set neural network that operates on the sparse matrices with an operation that mixes information from both views. Our model uses less than 10% of the memory required using previous methods while achieving a 96.8% AUC score, a higher score than obtained when both views are processed independently (85.4%).
- ID статьи: 2510.09659
- Название: Heterogeneous Point Set Transformers for Segmentation of Multiple View Particle Detectors
- Авторы: Edgar E. Robles, Dikshant Sagar, Alejandro Yankelevich, Jianming Bian, Pierre Baldi (Университет Калифорнии, Ирвайн) для сотрудничества NOvA
- Классификация: cs.LG (Машинное обучение), hep-ex (Экспериментальная физика высоких энергий)
- Дата публикации: 7 октября 2025 г. (препринт)
- Ссылка на статью: https://arxiv.org/abs/2510.09659v1
NOvA — это долгобазовый эксперимент по осцилляциям нейтрино, предназначенный для обнаружения нейтрино из пучка NuMI лаборатории Ферми. Перед использованием экспериментальных данных для анализа необходимо сопоставить сырые сигналы попаданий в детекторе с исходными частицами и определить тип каждой частицы. Традиционно эта задача решается комбинацией классических методов кластеризации и сверточных нейронных сетей (CNN). Из-за конструктивных особенностей детектора данные представлены в виде двух разреженных 2D-изображений: XZ-вида и YZ-вида детектора, а не 3D-представления. В данной работе предложена нейронная сеть точечных облаков, работающая на разреженных матрицах и обрабатывающая данные посредством операций, объединяющих информацию из двух видов. Модель использует менее 10% памяти по сравнению с предыдущими методами, одновременно достигая оценки AUC 96,8%, что выше 85,4%, полученного при независимой обработке двух видов.
Основная проблема, решаемая в данном исследовании, — это задача сегментации и классификации траекторий частиц в эксперименте NOvA по нейтрино. Конкретно включает:
- Сегментация экземпляров: сопоставление сырых сигналов попаданий в детекторе с соответствующими исходными частицами, разделение различных траекторий частиц (prongs)
- Семантическая сегментация: определение типа каждой частицы (например, мюон, электрон, протон, фотон, пион и т.д.)
- Эксперимент NOvA является важным экспериментом по физике нейтрино, требующим обработки больших объемов разреженных данных
- Точное определение и сегментация частиц являются основой для последующего физического анализа
- Традиционные методы имеют узкие места в вычислительных ресурсах и точности
- Традиционные методы CNN: требуют преобразования разреженных матриц в плотные, что приводит к большому использованию памяти
- Независимая обработка видов: существующие методы обрабатывают XZ и YZ виды независимыми CNN или используют каждый вид как канал изображения, неэффективно объединяя информацию между видами
- Вычислительная эффективность: даже при использовании разреженных операций свертки, таких как MinkowskiEngine, требуется приблизительная свертка для экономии памяти
Уникальная конструкция детектора NOvA приводит к тому, что данные могут быть представлены только в двух 2D-плоскостях, а не в полном 3D-представлении. Существующие методы не полностью используют дополнительную информацию между видами. Данная работа направлена на разработку эффективной архитектуры нейронной сети, способной эффективно объединять информацию из нескольких видов.
- Предложены гетерогенные трансформеры точечных облаков (HPST): впервые расширены трансформеры точечных облаков на обработку данных многовидовых детекторов частиц
- Разработан механизм гетерогенного внимания: инновационная реализация объединения информации между видами, позволяющая информационному потоку между различными видами
- Значительное повышение производительности и эффективности:
- AUC повышена с 85,4% до 96,8%
- Использование памяти сокращено менее чем на 10% от предыдущего метода
- Предоставлена полная структура многозадачного обучения: одновременная обработка задач сегментации экземпляров и семантической сегментации
Дано множество данных детектора NOvA X, содержащее N образцов, где каждый образец X^(i) представляет событие обнаружения частицы. Каждое событие разделено на M=2 вида (XZ и YZ), каждый вид X^(i,j) содержит переменное количество обнаружений K^(i,j). Каждое обнаружение описывается координатами x_k^(i,j) ∈ R^c и значением v_k^(i,j) ∈ R^d.
Цели:
- Сегментация экземпляров: группировка точек обнаружения в различные траектории частиц
- Семантическая сегментация: присвоение меток типов частиц каждой точке обнаружения
HPST использует архитектуру кодировщик-декодировщик, подобную UNet:
- Кодировщик: n этапов, каждый этап содержит m блоков внимания, за которыми следует операция пулинга
- Декодировщик: n этапов, каждый этап сопровождается операцией обратного пулинга и пропускными соединениями
- Размерность признаков: удваивается на этапах кодирования, уменьшается вдвое на этапах декодирования
Ключевое инновационное решение — механизм гетерогенного внимания, включающий:
- Внимание внутри вида: традиционный механизм самовнимания, обрабатывающий точки в одном виде
- Внимание между видами: ключевой компонент объединения информации между видами
Расчет внимания между видами:
- Запрос: Q_k^(i,j'→j) запрос точки k из вида j' в вид j
- Ключи и значения: K_{k'}^(i,j'→j) и V_{k'}^(i,j'→j) соответствующие ключи и значения
- Веса внимания: w_{kk'}^(i,j'→j) = Q_k^(i,j'→j)^T K_{k'}^(i,j'→j)
- Выход: h'k^(i,j) = Σ{k'} softmax(w_{kk'}^(i,j'→j))V_{k'}^(i,j'→j)
- Расстояние внутри вида: d_(x_k^(i,j), x_{k'}^(i,j)) расстояние между точками в одном виде
- Расстояние между видами: d_{jj'}(x_k^(i,j), x_{k'}^(i,j'}) расстояние между точками в разных видах
- Построение графических соединений на основе k ближайших соседей
- Пулинг: метод воксельного пулинга, создание сетки внутри одного вида и усреднение значений точек в сетке
- Обратный пулинг: использование пропускных соединений, повышение дискретизации точек до предыдущих координат
- Объединение информации между видами: впервые реализован эффективный механизм внимания точечных облаков между видами в области физики частиц
- Эффективная обработка разреженных данных: прямое функционирование на представлении точечных облаков, избегание преобразования разреженных матриц в плотные
- Многомасштабное обучение признаков: реализация смешивания информации от локального к глобальному через архитектуру UNet
- Объединенная структура оптимизации: унифицированная обработка задач сегментации и классификации
- Источник данных: смоделированные данные нейтринных взаимодействий, созданные сотрудничеством NOvA
- Масштаб данных: 9 246 712 событий
- Характеристики данных:
- В среднем 70 точек попаданий на событие
- Размер изображения: 2×80×100
- Высоко разреженное распределение данных
- Производительность классификации:
- AUC (площадь под кривой)
- OVR AUC (AUC один-против-остальных)
- Производительность сегментации:
- Эффективность (Recall): доля правильно определенных траекторий частиц
- Чистота (Precision): точность предсказанных траекторий
- Точность сегментации
- Вычислительная эффективность:
- Использование памяти (МиБ)
- Время обработки на образец (секунды)
- Mask R-CNN: сверточная нейронная сеть на основе регионов
- GAT (Graph Attention Networks): графовые сети внимания
- HPST: предложенные в данной работе гетерогенные трансформеры точечных облаков
- Аппаратное окружение: Intel Xeon E5-2640 v4 @ 2.40GHz, 503G ОЗУ, 4×NVIDIA Titan V
- Поиск гиперпараметров:
- Количество соседних соединений: {4, 8}
- Количество этапов сети: {2, 3, 4}
- Размерность встраивания: {128, 256, 512}
- Скорость обучения: 1e-4 до 1e-1
- Параметры обучения:
- Поиск гиперпараметров: 8 эпох, 1% данных
- Финальное обучение: 24 эпохи
| Модель | Использование памяти (МиБ) | Время на образец (с) | OVR AUC | Точность сегментации |
|---|
| R-CNN | 282.4±37.43 | 265.33±2.01 | 0.732 | 0.343 |
| GAT | 29.8±0.40 | 1.74±0.001 | 0.854 | 0.659 |
| HPST | 34.7±1.00 | 7.05±0.001 | 0.968 | 0.835 |
Ключевые выводы:
- HPST значительно превосходит базовые методы по всем показателям производительности
- По сравнению с независимой обработкой двух видов (85,4% AUC), объединение информации между видами HPST повышает AUC до 96,8%
- Использование памяти составляет только около 12% от Mask R-CNN
Эффективность (Recall):
- Мюон: 0.95 (лучший результат)
- Электрон: 0.93
- Протон: 0.82
- Фотон: 0.75
- Пион: 0.71 (наиболее сложный)
Чистота (Precision):
- Мюон: 0.90
- Электрон: 0.88
- Протон: 0.78
- Фотон: 0.72
- Пион: 0.69
Анализ: основные типы частиц (мюоны и электроны) показывают лучшие результаты сегментации, вторичные частицы более сложны из-за меньшего количества точек попаданий.
Статья демонстрирует типичное событие нейтринного взаимодействия, включающее:
- Основной электронный ливень
- Несколько вторичных частиц
- Сравнение предсказаний HPST с истинными метками показывает хорошие результаты классификации с небольшой путаницей только на вторичных частицах с очень малым количеством точек попаданий
- Традиционные методы: алгоритмы кластеризации в сочетании с ручными признаками
- Применение CNN:
- Классификатор событий нейтрино Aurisano и др.
- Регрессионная CNN для восстановления энергии Baldi и др.
- Определение частиц с контекстным усилением Psihas и др.
- Разреженные свертки: структуры типа MinkowskiEngine
- Методы точечных облаков: применение Point Transformers в 3D-видении
- Графовые нейронные сети: применение GAT и других методов на нерегулярных данных
Существующие методы NOvA в основном используют независимую обработку CNN или объединение каналов. Данная работа впервые реализует истинный механизм внимания между видами.
- Эффективность гетерогенных трансформеров точечных облаков: HPST успешно решает задачу сегментации и классификации данных многовидовых детекторов частиц
- Ключевое значение объединения информации между видами: по сравнению с независимой обработкой объединение информации между видами приводит к значительному повышению производительности
- Превосходная вычислительная эффективность: одновременное повышение производительности и значительное снижение использования памяти
- Зависимость от данных: преимущества эффективности разреженного представления могут исчезнуть при более высокой плотности данных
- Вычислительная сложность: сложность операций точечных облаков может увеличиваться с ростом количества точек, что может замедлить алгоритм
- Специфичность для области: метод разработан для специфической двухвидовой структуры эксперимента NOvA
- Расширение на другие эксперименты с многовидовыми детекторами частиц
- Исследование более сложных механизмов внимания между видами
- Объединение физических априорных знаний для дальнейшего повышения производительности
- Высокая инновационность: впервые применен механизм гетерогенного внимания к обработке данных физики частиц
- Высокая практическая ценность: значительное повышение производительности и улучшение эффективности имеют важное значение для практического эксперимента
- Полные эксперименты: всесторонние сравнительные эксперименты и детальный анализ производительности
- Ясное изложение: точное описание технических деталей, четкие диаграммы архитектуры
- Ограниченный теоретический анализ: отсутствует глубокий теоретический анализ причин эффективности внимания между видами
- Недостаточные абляционные исследования: неполный анализ конкретного вклада различных компонентов (например, различные определения расстояний, механизмы внимания и т.д.)
- Проверка обобщаемости: проверка только на данных NOvA, отсутствие проверки на других аналогичных задачах
- Академическая ценность: предоставляет новое решение для обработки многовидовых разреженных данных
- Практическая ценность: может быть непосредственно применено к конвейеру обработки данных эксперимента NOvA
- Вдохновляющее значение: предоставляет справочную информацию для обработки данных других экспериментов по физике частиц
- Обработка данных многовидовых детекторов частиц
- Восстановление 3D из 2D многовидовых разреженных данных
- Анализ точечных облаков, требующий объединения информации между видами
- Обработка больших объемов научных данных с ограниченными вычислительными ресурсами
Статья цитирует важные работы в области физики частиц, машинного обучения и компьютерного зрения, включая технические отчеты экспериментов NOvA, применение глубокого обучения в науке, а также классические работы по графовым нейронным сетям и механизмам внимания. Особо следует отметить ссылки на связанные технологии, такие как MinkowskiEngine, Mask R-CNN и Graph Attention Networks, что свидетельствует о глубоком понимании авторами современного состояния области.