2025-11-12T10:52:10.099968

Incomplete Multimodal Industrial Anomaly Detection via Cross-Modal Distillation

Sui, Lichau, Lefèvre et al.
Recent studies of multimodal industrial anomaly detection (IAD) based on 3D point clouds and RGB images have highlighted the importance of exploiting the redundancy and complementarity among modalities for accurate classification and segmentation. However, achieving multimodal IAD in practical production lines remains a work in progress. It is essential to consider the trade-offs between the costs and benefits associated with the introduction of new modalities while ensuring compatibility with current processes. Existing quality control processes combine rapid in-line inspections, such as optical and infrared imaging with high-resolution but time-consuming near-line characterization techniques, including industrial CT and electron microscopy to manually or semi-automatically locate and analyze defects in the production of Li-ion batteries and composite materials. Given the cost and time limitations, only a subset of the samples can be inspected by all in-line and near-line methods, and the remaining samples are only evaluated through one or two forms of in-line inspection. To fully exploit data for deep learning-driven automatic defect detection, the models must have the ability to leverage multimodal training and handle incomplete modalities during inference. In this paper, we propose CMDIAD, a Cross-Modal Distillation framework for IAD to demonstrate the feasibility of a Multi-modal Training, Few-modal Inference (MTFI) pipeline. Our findings show that the MTFI pipeline can more effectively utilize incomplete multimodal information compared to applying only a single modality for training and inference. Moreover, we investigate the reasons behind the asymmetric performance improvement using point clouds or RGB images as the main modality of inference. This provides a foundation for our future multimodal dataset construction with additional modalities from manufacturing scenarios.
academic

불완전한 다중모달 산업 이상 탐지: 교차 모달 증류를 통한 접근

기본 정보

  • 논문 ID: 2405.13571
  • 제목: Incomplete Multimodal Industrial Anomaly Detection via Cross-Modal Distillation
  • 저자: Wenbo Sui, Daniel Lichau, Josselin Lefèvre, Harold Phelippeau
  • 분류: cs.CV
  • 게재 저널: Information Fusion 126 (2026) 103572
  • 논문 링크: https://arxiv.org/abs/2405.13571
  • 코드 링크: https://github.com/evenrose/CMDIAD

초록

본 논문은 산업 이상 탐지에서의 실질적인 문제를 해결한다: 실제 생산 라인에서는 비용과 시간 제약으로 인해 모든 샘플에 대해 완전한 다중모달 검사를 수행할 수 없다. 저자들은 CMDIAD 프레임워크를 제안하여 다중모달 훈련, 소수 모달 추론(MTFI) 파이프라인을 구현했다. 교차 모달 지식 증류 기술을 통해 모델은 훈련 시 완전한 다중모달 데이터를 활용하면서도 추론 시 부분 모달만으로 향상된 성능을 달성할 수 있다.

연구 배경 및 동기

문제 정의

산업 이상 탐지에서 기존의 다중모달 방법들은 일반적으로 훈련과 추론 시 완전한 모달 정보를 요구한다. 그러나 실제 생산 환경에서는:

  1. 비용 제약: 고해상도 검사 기술(예: 산업용 CT, 전자 현미경)은 비용이 높고 시간이 소요됨
  2. 실용성 제한: 소수의 샘플만 전체 모달 검사를 수행할 수 있으며, 대부분의 샘플은 1-2가지 빠른 온라인 검사 방법으로만 평가 가능
  3. 데이터 활용 부족: 기존 방법은 훈련 단계의 다중모달 정보를 충분히 활용하여 단일 모달 추론 성능을 개선하지 못함

연구의 의의

이 문제는 리튬 배터리 및 복합 재료 생산 등 실제 산업 현장에서 매우 중요하며, 이를 해결하면:

  • 품질 관리 비용 절감
  • 검사 효율성 향상
  • 제한된 다중모달 훈련 데이터의 충분한 활용

기존 방법의 한계

  1. 완전 모달 의존성: 기존 다중모달 IAD 방법은 훈련과 추론 시 완전한 모달을 요구
  2. 결측 모달 처리 부족: 결측 모달에 대한 연구는 미흡하며, 주로 단순한 후기 융합 전략 사용
  3. 정보 낭비: 훈련 시 다중모달 정보를 활용하여 추론 시 단일 모달 성능을 개선할 수 없음

핵심 기여

  1. 불완전한 다중모달 IAD 최초 제안: 저자들의 지식으로는 불완전한 다중모달 데이터에 대한 산업 이상 탐지의 첫 번째 연구
  2. CMDIAD 프레임워크: 교차 모달 증류 기반의 새로운 다중모달 IAD 프레임워크 제안으로 다중모달 훈련, 소수 모달 추론 구현
  3. MTFI 파이프라인: 다중모달 훈련, 소수 모달 추론 파이프라인의 타당성과 효과성 입증
  4. 모달 관련성 분석: 서로 다른 모달 간의 정보 전달 메커니즘에 대한 심층 분석으로 향후 데이터셋 구축에 지침 제공

방법 상세 설명

작업 정의

  • 입력: 훈련 시 RGB 이미지와 3D 포인트 클라우드의 쌍 데이터; 추론 시 단일 모달만 사용
  • 출력: 이미지 수준 및 픽셀 수준의 이상 탐지 결과
  • 목표: 단일 모달 추론 성능이 해당 모달만으로 훈련 및 추론한 기준 방법을 초과하도록 함

모델 아키텍처

1. 특징 추출 모듈

  • RGB 특징 추출: 사전 훈련된 DINO ViT-B/8을 사용하여 RGB 특징 추출, 출력 차원은 R^(2Hf×2Wf×d1)
  • 포인트 클라우드 특징 추출: Point-MAE를 사용하여 포인트 클라우드 특징 추출, FPS 샘플링 및 IDW 보간을 통해 RGB와 정렬된 특징 맵 획득

2. 교차 모달 증류 네트워크

세 가지 증류 경로 제안:

특징-대-특징 (F2F):

H^f_RGB^(i,j) = F2F(R^(i,j)_PC)

3층 MLP를 사용하여 특징 공간에서 특징 공간으로의 직접 매핑 구성.

특징-대-입력 (F2I):

H^f_RGB = ℱ_RGB(H^i_RGB), H^i_RGB = F2I(R_PC)

한 모달의 특징에서 다른 모달의 입력 생성.

입력-대-특징 (I2F):

H^f_RGB = I2F(I_PC)

입력에서 직접 목표 모달의 특징 생성.

3. 메모리 뱅크 구성

탐욕 알고리즘을 사용한 핵심 집합 선택:

p_{i+1} = arg max_{p_j∈S,i≠j} D_c(p_i, p_j)

계산 효율성 향상을 위해 희소 무작위 투영을 통한 차원 축소.

4. 의사 결정 계층 융합

두 개의 원-클래스 서포트 벡터 머신을 사용한 분류 및 분할:

c = C_c(αψ(F_PC, M_PC), βψ(F_RGB, M_RGB))
s = C_s(αφ(F_PC, M_PC), βφ(F_RGB, M_RGB))

기술 혁신점

  1. 교차 모달 환각 생성: 교차 모달 매핑 학습을 통해 추론 시 결측 모달의 "환각" 특징 생성
  2. 다중 경로 증류 전략: 계산 복잡도와 성능의 균형을 맞추는 세 가지 서로 다른 수준의 증류 방법 제공
  3. 비대칭 성능 분석: 서로 다른 증류 방향의 성능 차이 및 그 원인에 대한 심층 분석

실험 설정

데이터셋

  • MVTec 3D-AD: 10개 물체 클래스, 각 클래스당 3-5가지 결함 유형, 픽셀 수준 이진 주석 제공
  • Eyecandies: 합성 RGB+3D 이상 탐지 데이터셋

평가 지표

  • I-AUROC: 이미지 수준 이상 탐지의 ROC 곡선 아래 면적
  • P-AUROC: 픽셀 수준 이상 탐지의 ROC 곡선 아래 면적
  • AUPRO: 평균 영역별 중복 면적, 이상 크기의 평가 영향 감소

비교 방법

  • DualBanksPCs/RGB: 단일 모달만 사용하는 이중 메모리 뱅크 방법
  • Shape-guided: 포인트 클라우드용 설계된 SOTA 방법
  • M3DM: 다중모달 메모리 뱅크 방법
  • AST: 비대칭 교사-학생 네트워크

구현 세부사항

  • 최적화기: Adam, 배치 크기 32, 10 에포크 워밍업
  • 학습률: F2F 및 F2I는 0.0005, I2F는 0.0003
  • 훈련 에포크: 100 에포크, 검증 집합 기반 조기 종료
  • 하드웨어: NVIDIA RTX A6000, 256GB 메모리

실험 결과

주요 결과

MTFI 파이프라인(포인트 클라우드 추론) 성능:

  • F2F 방법이 MVTec 3D-AD에서 I-AUROC 0.938, AUPRO 0.934 달성
  • DualBanksPCs 기준 대비 I-AUROC 7.8% 향상, AUPRO 2.3% 향상
  • SOTA의 Shape-guided 방법 초과(I-AUROC 2.2% 향상)

성능 비교 표:

방법I-AUROCAUPRO
Shape-guided0.9160.931
DualBanksPCs0.8600.911
Ours F2F0.9380.934
Ours F2I0.8630.912
Ours I2F0.8200.942

비대칭 성능 현상

MTFI 파이프라인(RGB 추론):

  • 미미한 개선만 달성, F2F 방법의 I-AUROC는 0.851에서 0.856으로만 향상
  • RGB에서 포인트 클라우드 환각 생성의 효과가 제한적임을 시사

절제 실험

  1. 서로 다른 특징 추출기: ViT-S/8, ViT-B/8-in21k 및 Point-Bert에서 방법의 일반성 검증
  2. 거리 메트릭 비교: L2 거리가 대부분의 경우 최고 성능 달성
  3. 핵심 집합 비율: 10%의 핵심 집합 선택 비율이 최적의 성능 균형 달성

사례 분석

시각화 분석을 통해 발견:

  1. 텍스처 이상: Cable Gland의 "thread" 이상의 경우, 포인트 클라우드에서 형태 변화는 미미하지만 RGB에서 텍스처 차이가 명확
  2. 형태 이상: "bent" 이상의 경우, 공간 정보가 필요하며 RGB 이미지는 충분한 정보 제공 어려움
  3. 복합 이상: Cookie의 "crack"과 Foam의 "contamination" 이상은 다중모달 정보의 협력 필요

관련 연구

비지도 2D 산업 이상 탐지

  • 특징 임베딩 방법: 교사-학생 아키텍처, 원-클래스 분류, 특징 분포 매핑
  • 재구성 방법: 자동 인코더, GAN, 확산 모델
  • 메모리 뱅크 방법: PatchCore 등 정상 특징 선택 및 보존을 통한 대조

3D 및 다중모달 RGB-3D 산업 이상 탐지

  • AST: 학생 네트워크의 이상 학습을 피하는 비대칭 교사-학생 네트워크
  • M3DM: 사전 훈련된 특징 추출기를 사용하는 다중모달 메모리 뱅크 방법
  • DADA: RGB-3D의 결합 표현 학습

교차 모달 지식 증류

  • 비디오 동작 인식: RGB-D 교차 모달 환각 네트워크
  • 의료 이미지 분할: 결측 모달 처리를 위한 학습 전략
  • 현저성 탐지: 교차 모달 특징 학습

결론 및 토론

주요 결론

  1. MTFI 파이프라인 타당성: 다중모달 훈련, 소수 모달 추론의 효과성 입증
  2. 비대칭 성능: 포인트 클라우드 추론 시 현저한 개선 vs RGB 추론 시 미미한 향상
  3. 정보 전달 메커니즘: 공유된 텍스처 정보는 교차 모달 전달 가능하지만 공간 정보는 RGB에서 추론하기 어려움

한계

  1. 사전 훈련 의존성: 대규모 데이터셋의 사전 훈련된 특징 추출기에 의존
  2. 데이터 요구: 대량의 정렬된 다중모달 훈련 데이터 필요
  3. 계산 오버헤드: 2단계 훈련으로 인한 계산 복잡도 증가
  4. 모달 제한: 현재 RGB 및 포인트 클라우드 모달에서만 검증

향후 방향

  1. 추가 모달 확장: 초음파, 적외선 등 산업 검사 모달로 확장
  2. 사전 훈련 의존성 감소: 대규모 사전 훈련에 의존하지 않는 방법 탐색
  3. 실제 배포: 실제 산업 현장에서 데이터 수집 및 검증

심층 평가

장점

  1. 실질적 의의 중대: 산업계의 실제 문제점 해결
  2. 방법 혁신성: 불완전한 다중모달 IAD에 교차 모달 증류 최초 적용
  3. 충분한 실험: 다양한 데이터셋 및 특징 추출기에서 방법의 효과성 검증
  4. 심층 분석: 비대칭 성능 현상에 대한 합리적 설명 제공
  5. 높은 공학적 가치: F2F 방법의 낮은 계산 오버헤드로 실제 배포에 적합

부족한 점

  1. 이론적 분석 부족: 교차 모달 정보 전달에 대한 이론적 분석 부재
  2. 데이터셋 제한: 주로 합성 및 실험실 데이터에서 검증, 실제 산업 환경 검증 부족
  3. 모달 확장성: 현재 RGB 및 포인트 클라우드로 제한, 다른 모달 확장 능력 미지수
  4. 초매개변수 민감성: 서로 다른 증류 네트워크에 대해 학습률 등 초매개변수 조정 필요

영향력

  1. 학술적 기여: 불완전한 다중모달 학습에 새로운 연구 방향 제시
  2. 실용적 가치: 산업 품질 관리에 비용 효율적 솔루션 제공
  3. 재현성: 오픈 소스 코드 제공으로 재현 및 확장 용이
  4. 영감: 다른 분야의 불완전한 다중모달 문제에 참고 제공

적용 시나리오

  1. 산업 품질 관리: 특히 리튬 배터리, 복합 재료 등 고가치 제품 생산
  2. 의료 진단: 다양한 영상 모달이지만 비용 제약이 있는 시나리오
  3. 자동 운전: 센서 고장 또는 비용 최적화 시나리오
  4. 보안 감시: 다중모달 센서 배포이지만 유지보수 비용 고려 시나리오

참고문헌

본 논문은 67편의 관련 문헌을 인용하며, 주로 다음을 포함:

  • 산업 이상 탐지 분야의 고전 방법(PatchCore, M3DM 등)
  • 교차 모달 지식 증류의 관련 연구
  • 3D 포인트 클라우드 처리 및 다중모달 학습의 기초 방법
  • MVTec 3D-AD 등 중요 데이터셋의 원본 논문

종합 평가: 이는 실제 산업 문제를 해결하는 고품질 논문으로, 제안된 CMDIAD 프레임워크는 중요한 이론적 의의와 실용적 가치를 가진다. 이론적 분석 및 실제 현장 검증 측면에서 개선의 여지가 있지만, 그 혁신성과 실용성으로 인해 해당 분야의 중요한 기여가 된다.