Incomplete Multimodal Industrial Anomaly Detection via Cross-Modal Distillation
Sui, Lichau, Lefèvre et al.
Recent studies of multimodal industrial anomaly detection (IAD) based on 3D point clouds and RGB images have highlighted the importance of exploiting the redundancy and complementarity among modalities for accurate classification and segmentation. However, achieving multimodal IAD in practical production lines remains a work in progress. It is essential to consider the trade-offs between the costs and benefits associated with the introduction of new modalities while ensuring compatibility with current processes. Existing quality control processes combine rapid in-line inspections, such as optical and infrared imaging with high-resolution but time-consuming near-line characterization techniques, including industrial CT and electron microscopy to manually or semi-automatically locate and analyze defects in the production of Li-ion batteries and composite materials. Given the cost and time limitations, only a subset of the samples can be inspected by all in-line and near-line methods, and the remaining samples are only evaluated through one or two forms of in-line inspection. To fully exploit data for deep learning-driven automatic defect detection, the models must have the ability to leverage multimodal training and handle incomplete modalities during inference. In this paper, we propose CMDIAD, a Cross-Modal Distillation framework for IAD to demonstrate the feasibility of a Multi-modal Training, Few-modal Inference (MTFI) pipeline. Our findings show that the MTFI pipeline can more effectively utilize incomplete multimodal information compared to applying only a single modality for training and inference. Moreover, we investigate the reasons behind the asymmetric performance improvement using point clouds or RGB images as the main modality of inference. This provides a foundation for our future multimodal dataset construction with additional modalities from manufacturing scenarios.
academic
Обнаружение неполных мультимодальных промышленных аномалий посредством кросс-модальной дистилляции
В данной работе рассматривается практическая проблема обнаружения аномалий в промышленности: на реальных производственных линиях из-за ограничений по стоимости и времени невозможно проводить полное мультимодальное обнаружение всех образцов. Авторы предлагают фреймворк CMDIAD, реализующий конвейер мультимодального обучения с неполной модальностью при выводе (MTFI). Благодаря технике кросс-модальной дистилляции знаний модель может использовать полные мультимодальные данные во время обучения, а при выводе использовать только частичные модальности для достижения улучшенной производительности.
При обнаружении аномалий в промышленности существующие мультимодальные методы обычно требуют полной информации о модальностях как при обучении, так и при выводе. Однако в реальной производственной среде:
Ограничения по стоимости: высокоразрешающие технологии обнаружения (такие как промышленная КТ, электронная микроскопия) дорогостоящи и требуют много времени
Практические ограничения: только часть образцов может быть проверена со всеми модальностями, большинство образцов можно оценить только с помощью 1-2 быстрых методов онлайн-обнаружения
Неполное использование данных: существующие методы не могут полностью использовать мультимодальную информацию на этапе обучения для улучшения производительности одномодального вывода
Эта проблема имеет большое значение в реальных промышленных сценариях, таких как производство литий-ионных батарей и композитных материалов. Решение этой проблемы позволяет:
Снизить затраты на контроль качества
Повысить эффективность обнаружения
Полностью использовать ограниченные мультимодальные данные обучения
Зависимость от полной модальности: существующие методы мультимодального обнаружения аномалий требуют полной модальности как при обучении, так и при выводе
Обработка отсутствующих модальностей: исследований по обработке отсутствующих модальностей мало, в основном используются простые стратегии позднего слияния
Потеря информации: невозможно использовать мультимодальную информацию на этапе обучения для улучшения производительности одномодального вывода
Первое предложение неполного мультимодального обнаружения аномалий: по знанию авторов, это первая работа, посвященная обнаружению промышленных аномалий на неполных мультимодальных данных
Фреймворк CMDIAD: предложен новый фреймворк мультимодального обнаружения аномалий на основе кросс-модальной дистилляции, реализующий мультимодальное обучение с неполной модальностью при выводе
Конвейер MTFI: доказана осуществимость и эффективность конвейера мультимодального обучения с неполной модальностью при выводе
Анализ связей между модальностями: глубокий анализ механизмов передачи информации между различными модальностями, предоставляющий руководство для построения будущих наборов данных
Извлечение признаков RGB: использование предварительно обученного DINO ViT-B/8 для извлечения признаков RGB с выходной размерностью R^(2Hf×2Wf×d1)
Извлечение признаков облака точек: использование Point-MAE для извлечения признаков облака точек, получение выровненной с RGB карты признаков через выборку FPS и интерполяцию IDW
Генерация кросс-модальных галлюцинаций: обучение кросс-модальному отображению для генерации "галлюцинаторных" признаков отсутствующей модальности при выводе
Многопутевая стратегия дистилляции: предоставление трёх различных уровней методов дистилляции, балансирующих вычислительную сложность и производительность
Анализ асимметричной производительности: глубокий анализ различий в производительности различных направлений дистилляции и их причин
Через визуализацию обнаружены следующие закономерности:
Текстурные аномалии: для аномалии "thread" в Cable Gland изменение формы в облаке точек минимально, но различие текстуры в RGB явно выражено
Аномалии формы: для аномалии "bent" требуется пространственная информация для определения, RGB-изображение не может предоставить достаточную информацию
Комбинированные аномалии: аномалии "crack" в Cookie и "contamination" в Foam требуют совместного анализа мультимодальной информации
Осуществимость конвейера MTFI: доказана эффективность мультимодального обучения с неполной модальностью при выводе
Асимметричная производительность: значительное улучшение при выводе облака точек в сравнении с незначительным улучшением при выводе RGB
Механизм передачи информации: общая текстурная информация может передаваться между модальностями, но пространственная информация сложно выводится из RGB
В данной работе цитируется 67 связанных источников, включая:
Классические методы в области обнаружения промышленных аномалий (PatchCore, M3DM и др.)
Связанные работы по кросс-модальной дистилляции знаний
Базовые методы обработки облаков точек 3D и мультимодального обучения
Оригинальные статьи важных наборов данных, таких как MVTec 3D-AD
Общая оценка: Это высококачественная статья, решающая реальные промышленные проблемы. Предложенный фреймворк CMDIAD имеет важное теоретическое значение и практическую ценность. Хотя существует место для улучшения в теоретическом анализе и проверке в реальных сценариях, его инновационность и практическая применимость делают его значительным вкладом в данную область.