2025-11-12T10:52:10.099968

Incomplete Multimodal Industrial Anomaly Detection via Cross-Modal Distillation

Sui, Lichau, LefÃ¨vre et al.

Recent studies of multimodal industrial anomaly detection (IAD) based on 3D point clouds and RGB images have highlighted the importance of exploiting the redundancy and complementarity among modalities for accurate classification and segmentation. However, achieving multimodal IAD in practical production lines remains a work in progress. It is essential to consider the trade-offs between the costs and benefits associated with the introduction of new modalities while ensuring compatibility with current processes. Existing quality control processes combine rapid in-line inspections, such as optical and infrared imaging with high-resolution but time-consuming near-line characterization techniques, including industrial CT and electron microscopy to manually or semi-automatically locate and analyze defects in the production of Li-ion batteries and composite materials. Given the cost and time limitations, only a subset of the samples can be inspected by all in-line and near-line methods, and the remaining samples are only evaluated through one or two forms of in-line inspection. To fully exploit data for deep learning-driven automatic defect detection, the models must have the ability to leverage multimodal training and handle incomplete modalities during inference. In this paper, we propose CMDIAD, a Cross-Modal Distillation framework for IAD to demonstrate the feasibility of a Multi-modal Training, Few-modal Inference (MTFI) pipeline. Our findings show that the MTFI pipeline can more effectively utilize incomplete multimodal information compared to applying only a single modality for training and inference. Moreover, we investigate the reasons behind the asymmetric performance improvement using point clouds or RGB images as the main modality of inference. This provides a foundation for our future multimodal dataset construction with additional modalities from manufacturing scenarios.

academic

Обнаружение неполных мультимодальных промышленных аномалий посредством кросс-модальной дистилляции

Основная информация

ID статьи: 2405.13571
Название: Incomplete Multimodal Industrial Anomaly Detection via Cross-Modal Distillation
Авторы: Wenbo Sui, Daniel Lichau, Josselin Lefèvre, Harold Phelippeau
Категория: cs.CV
Журнал публикации: Information Fusion 126 (2026) 103572
Ссылка на статью: https://arxiv.org/abs/2405.13571
Ссылка на код: https://github.com/evenrose/CMDIAD

Аннотация

В данной работе рассматривается практическая проблема обнаружения аномалий в промышленности: на реальных производственных линиях из-за ограничений по стоимости и времени невозможно проводить полное мультимодальное обнаружение всех образцов. Авторы предлагают фреймворк CMDIAD, реализующий конвейер мультимодального обучения с неполной модальностью при выводе (MTFI). Благодаря технике кросс-модальной дистилляции знаний модель может использовать полные мультимодальные данные во время обучения, а при выводе использовать только частичные модальности для достижения улучшенной производительности.

Исследовательский контекст и мотивация

Определение проблемы

При обнаружении аномалий в промышленности существующие мультимодальные методы обычно требуют полной информации о модальностях как при обучении, так и при выводе. Однако в реальной производственной среде:

Ограничения по стоимости: высокоразрешающие технологии обнаружения (такие как промышленная КТ, электронная микроскопия) дорогостоящи и требуют много времени
Практические ограничения: только часть образцов может быть проверена со всеми модальностями, большинство образцов можно оценить только с помощью 1-2 быстрых методов онлайн-обнаружения
Неполное использование данных: существующие методы не могут полностью использовать мультимодальную информацию на этапе обучения для улучшения производительности одномодального вывода

Научное значение

Эта проблема имеет большое значение в реальных промышленных сценариях, таких как производство литий-ионных батарей и композитных материалов. Решение этой проблемы позволяет:

Снизить затраты на контроль качества
Повысить эффективность обнаружения
Полностью использовать ограниченные мультимодальные данные обучения

Ограничения существующих методов

Зависимость от полной модальности: существующие методы мультимодального обнаружения аномалий требуют полной модальности как при обучении, так и при выводе
Обработка отсутствующих модальностей: исследований по обработке отсутствующих модальностей мало, в основном используются простые стратегии позднего слияния
Потеря информации: невозможно использовать мультимодальную информацию на этапе обучения для улучшения производительности одномодального вывода

Основные вклады

Первое предложение неполного мультимодального обнаружения аномалий: по знанию авторов, это первая работа, посвященная обнаружению промышленных аномалий на неполных мультимодальных данных
Фреймворк CMDIAD: предложен новый фреймворк мультимодального обнаружения аномалий на основе кросс-модальной дистилляции, реализующий мультимодальное обучение с неполной модальностью при выводе
Конвейер MTFI: доказана осуществимость и эффективность конвейера мультимодального обучения с неполной модальностью при выводе
Анализ связей между модальностями: глубокий анализ механизмов передачи информации между различными модальностями, предоставляющий руководство для построения будущих наборов данных

Подробное описание метода

Определение задачи

Входные данные: при обучении — парные данные RGB-изображений и облаков точек 3D; при выводе — только одна модальность (RGB или облако точек)
Выходные данные: результаты обнаружения аномалий на уровне изображения и пикселя
Цель: обеспечить производительность одномодального вывода, превосходящую базовый метод, использующий только эту модальность при обучении и выводе

Архитектура модели

1. Модуль извлечения признаков

Извлечение признаков RGB: использование предварительно обученного DINO ViT-B/8 для извлечения признаков RGB с выходной размерностью R^(2Hf×2Wf×d1)
Извлечение признаков облака точек: использование Point-MAE для извлечения признаков облака точек, получение выровненной с RGB карты признаков через выборку FPS и интерполяцию IDW

2. Сеть кросс-модальной дистилляции

Предложены три пути дистилляции:

Feature-to-Feature (F2F):

H^f_RGB^(i,j) = F2F(R^(i,j)_PC)

Использование трёхслойного MLP для прямого установления отображения из пространства признаков в пространство признаков.

Feature-to-Input (F2I):

H^f_RGB = ℱ_RGB(H^i_RGB), H^i_RGB = F2I(R_PC)

Генерация входных данных одной модальности из признаков другой модальности.

Input-to-Feature (I2F):

H^f_RGB = I2F(I_PC)

Прямая генерация признаков целевой модальности из входных данных.

3. Построение памяти

Использование жадного алгоритма для выбора основного набора:

p_{i+1} = arg max_{p_j∈S,i≠j} D_c(p_i, p_j)

Применение разреженной случайной проекции для снижения размерности с целью повышения вычислительной эффективности.

4. Слой принятия решений с слиянием

Использование двух машин опорных векторов для одного класса для классификации и сегментации:

c = C_c(αψ(F_PC, M_PC), βψ(F_RGB, M_RGB))
s = C_s(αφ(F_PC, M_PC), βφ(F_RGB, M_RGB))

Технические инновации

Генерация кросс-модальных галлюцинаций: обучение кросс-модальному отображению для генерации "галлюцинаторных" признаков отсутствующей модальности при выводе
Многопутевая стратегия дистилляции: предоставление трёх различных уровней методов дистилляции, балансирующих вычислительную сложность и производительность
Анализ асимметричной производительности: глубокий анализ различий в производительности различных направлений дистилляции и их причин

Экспериментальная установка

Наборы данных

MVTec 3D-AD: содержит 10 классов объектов, каждый класс имеет 3-5 типов дефектов, предоставляет пиксельные бинарные аннотации
Eyecandies: синтетический набор данных для обнаружения аномалий RGB+3D

Метрики оценки

I-AUROC: площадь под кривой ROC для обнаружения аномалий на уровне изображения
P-AUROC: площадь под кривой ROC для обнаружения аномалий на уровне пикселя
AUPRO: средняя площадь перекрытия по регионам, снижающая влияние размера аномалии на оценку

Методы сравнения

DualBanksPCs/RGB: метод двойной памяти, использующий только одну модальность
Shape-guided: метод SOTA, специально разработанный для облаков точек
M3DM: метод мультимодальной памяти
AST: асимметричная сеть учитель-ученик

Детали реализации

Оптимизатор: Adam, размер пакета 32, разминка 10 эпох
Скорость обучения: 0.0005 для F2F и F2I, 0.0003 для I2F
Количество эпох: 100, ранняя остановка на основе набора валидации
Оборудование: NVIDIA RTX A6000, 256G памяти

Результаты экспериментов

Основные результаты

Производительность конвейера MTFI (вывод облака точек):

Метод F2F достигает I-AUROC 0.938, AUPRO 0.934 на MVTec 3D-AD
По сравнению с базовым методом DualBanksPCs, I-AUROC улучшается на 7.8%, AUPRO на 2.3%
Превосходит метод SOTA Shape-guided (улучшение I-AUROC на 2.2%)

Таблица сравнения производительности:

Метод	I-AUROC	AUPRO
Shape-guided	0.916	0.931
DualBanksPCs	0.860	0.911
Ours F2F	0.938	0.934
Ours F2I	0.863	0.912
Ours I2F	0.820	0.942

Явление асимметричной производительности

Конвейер MTFI (вывод RGB):

Только незначительное улучшение, метод F2F улучшает I-AUROC только с 0.851 до 0.856
Указывает на ограниченный эффект генерации галлюцинаций облака точек из RGB

Абляционные исследования

Различные извлекатели признаков: проверка универсальности метода на ViT-S/8, ViT-B/8-in21k и Point-Bert
Сравнение метрик расстояния: расстояние L2 показывает лучшую производительность в большинстве случаев
Доля основного набора: соотношение основного набора 10% достигает оптимального баланса производительности

Анализ примеров

Через визуализацию обнаружены следующие закономерности:

Текстурные аномалии: для аномалии "thread" в Cable Gland изменение формы в облаке точек минимально, но различие текстуры в RGB явно выражено
Аномалии формы: для аномалии "bent" требуется пространственная информация для определения, RGB-изображение не может предоставить достаточную информацию
Комбинированные аномалии: аномалии "crack" в Cookie и "contamination" в Foam требуют совместного анализа мультимодальной информации

Связанные работы

Двумерное обнаружение аномалий в промышленности без учителя

Методы встраивания признаков: архитектуры учитель-ученик, классификация одного класса, отображение распределения признаков
Методы реконструкции: автокодировщики, GAN, модели диффузии
Методы памяти: PatchCore и другие методы выбора и сохранения нормальных признаков для контрастного анализа

Трёхмерное и мультимодальное обнаружение аномалий RGB-3D в промышленности

AST: асимметричная сеть учитель-ученик, избегающая обучения сети-ученика на аномалиях
M3DM: метод мультимодальной памяти, использующий предварительно обученные извлекатели признаков
DADA: обучение совместному представлению RGB-3D

Кросс-модальная дистилляция знаний

Распознавание действий в видео: сеть кросс-модальных галлюцинаций RGB-D
Сегментация медицинских изображений: стратегии обучения при обработке отсутствующих модальностей
Обнаружение выделяющихся объектов: кросс-модальное обучение признакам

Заключение и обсуждение

Основные выводы

Осуществимость конвейера MTFI: доказана эффективность мультимодального обучения с неполной модальностью при выводе
Асимметричная производительность: значительное улучшение при выводе облака точек в сравнении с незначительным улучшением при выводе RGB
Механизм передачи информации: общая текстурная информация может передаваться между модальностями, но пространственная информация сложно выводится из RGB

Ограничения

Зависимость от предварительного обучения: зависимость от извлекателей признаков, предварительно обученных на больших наборах данных
Требования к данным: требуется большое количество выровненных мультимодальных данных обучения
Вычислительные затраты: двухэтапное обучение увеличивает вычислительную сложность
Ограничения модальности: в настоящее время проверено только на модальностях RGB и облака точек

Направления будущих исследований

Расширение на дополнительные модальности: ультразвук, инфракрасное излучение и другие модальности промышленного обнаружения
Снижение зависимости от предварительного обучения: исследование методов, не зависящих от крупномасштабного предварительного обучения
Практическое развёртывание: сбор и проверка данных в реальных промышленных сценариях

Глубокая оценка

Преимущества

Высокое практическое значение: решение реальной проблемы промышленности
Новизна метода: первое применение кросс-модальной дистилляции к неполному мультимодальному обнаружению аномалий
Полные эксперименты: проверка эффективности метода на нескольких наборах данных и извлекателях признаков
Глубокий анализ: обоснованное объяснение явления асимметричной производительности
Высокая инженерная ценность: метод F2F имеет низкие вычислительные затраты, подходит для практического развёртывания

Недостатки

Недостаточный теоретический анализ: отсутствие теоретического анализа передачи кросс-модальной информации
Ограничения набора данных: основная проверка на синтетических и лабораторных данных, отсутствие проверки в реальной промышленной среде
Расширяемость модальности: метод в настоящее время ограничен RGB и облаком точек, способность расширения на другие модальности неизвестна
Чувствительность гиперпараметров: требуется настройка скорости обучения и других гиперпараметров для различных сетей дистилляции

Влияние

Академический вклад: предоставление нового направления исследований для неполного мультимодального обучения
Практическая ценность: предоставление более экономичного решения для контроля качества в промышленности
Воспроизводимость: предоставление открытого кода, облегчающего воспроизведение и расширение
Вдохновляющее значение: предоставление справочного материала для неполных мультимодальных проблем в других областях

Применимые сценарии

Промышленный контроль качества: особенно производство литий-ионных батарей и композитных материалов
Медицинская диагностика: сценарии с несколькими модальностями визуализации, но ограничениями по стоимости
Автономные транспортные средства: сценарии отказа датчика или оптимизации стоимости
Безопасность и видеонаблюдение: сценарии развёртывания мультимодальных датчиков с учётом затрат на обслуживание

Список литературы

В данной работе цитируется 67 связанных источников, включая:

Классические методы в области обнаружения промышленных аномалий (PatchCore, M3DM и др.)
Связанные работы по кросс-модальной дистилляции знаний
Базовые методы обработки облаков точек 3D и мультимодального обучения
Оригинальные статьи важных наборов данных, таких как MVTec 3D-AD

Общая оценка: Это высококачественная статья, решающая реальные промышленные проблемы. Предложенный фреймворк CMDIAD имеет важное теоретическое значение и практическую ценность. Хотя существует место для улучшения в теоретическом анализе и проверке в реальных сценариях, его инновационность и практическая применимость делают его значительным вкладом в данную область.