2025-11-22T05:58:16.782547

Detecting spills using thermal imaging, pretrained deep learning models, and a robotic platform

Yeghiyan, Azar, Butani et al.
This paper presents a real-time spill detection system that utilizes pretrained deep learning models with RGB and thermal imaging to classify spill vs. no-spill scenarios across varied environments. Using a balanced binary dataset (4,000 images), our experiments demonstrate the advantages of thermal imaging in inference speed, accuracy, and model size. We achieve up to 100% accuracy using lightweight models like VGG19 and NasNetMobile, with thermal models performing faster and more robustly across different lighting conditions. Our system runs on consumer-grade hardware (RTX 4080) and achieves inference times as low as 44 ms with model sizes under 350 MB, highlighting its deployability in safety-critical contexts. Results from experiments with a real robot and test datasets indicate that a VGG19 model trained on thermal imaging performs best.
academic

열화상 이미징, 사전학습된 심층학습 모델, 로봇 플랫폼을 이용한 유출 감지

기본 정보

  • 논문 ID: 2510.08770
  • 제목: Detecting spills using thermal imaging, pretrained deep learning models, and a robotic platform
  • 저자: Gregory Yeghiyan (Stevenson High School), Jurius Azar (Manoogian High School), Devson Butani (Lawrence Technological University), Chan-Jin Chung (Lawrence Technological University)
  • 분류: cs.CV (컴퓨터 비전), cs.LG (기계학습), cs.RO (로봇공학)
  • 발표 시간: 2025년
  • 논문 링크: https://arxiv.org/abs/2510.08770

초록

본 논문은 사전학습된 심층학습 모델과 RGB 및 열화상 기술을 결합하여 다양한 환경에서 유출과 비유출 장면을 분류하는 실시간 유출 감지 시스템을 제안한다. 균형잡힌 이진 분류 데이터셋(4,000장 이미지)을 사용한 실험을 통해 열화상의 추론 속도, 정확도, 모델 크기 측면에서의 우수성을 입증했다. VGG19 및 NasNetMobile 등 경량 모델을 사용하여 100%의 정확도를 달성했으며, 열화상 모델은 다양한 조명 조건에서 더 빠르고 견고한 성능을 보였다. 시스템은 소비자급 하드웨어(RTX 4080)에서 실행되며 추론 시간은 44밀리초 이하, 모델 크기는 350MB 이하로 안전 관련 응용 분야에서의 배포 가능성을 강조한다.

연구 배경 및 동기

문제 정의

유출 감지는 카페, 식당, 소매점 등 동적 환경에서의 공공 안전에 매우 중요하며, 적시에 발견되지 않은 유출은 종종 미끄러짐 및 부상 사고로 이어진다.

문제의 중요성

  1. 안전 요구사항: 공공장소의 유출은 우발적 부상의 주요 원인
  2. 실시간성 요구: 사고 예방을 위한 빠른 대응 필요
  3. 환경 적응성: 다양한 조명 및 환경 조건에서 안정적으로 작동해야 함

기존 방법의 한계

  1. 전통적 감지 방법: 침입식 하드웨어에 의존하며 응답 시간 지연
  2. RGB 시각 시스템: 조명 변화 및 표면 반사에 쉽게 영향을 받음
  3. 복잡한 환경 적응성 부족: 저조도, 눈부심 또는 복잡한 반사 조건에서 성능 저하

연구 동기

열화상 기술을 통합하고 사전학습된 합성곱 신경망에서의 효과성을 평가하여 실시간, 정확, 경량의 유출 감지를 구현한다.

핵심 기여

  1. 다중 모달 비교 연구: RGB, 열화상 및 결합 모달의 유출 감지 작업에서의 성능을 체계적으로 비교
  2. 열화상 우수성 검증: 추론 속도, 정확도, 모델 크기 측면에서 열화상의 우수성 입증
  3. 실용 시스템 개발: 소비자급 하드웨어 기반의 실시간 유출 감지 시스템 개발
  4. 데이터셋 구축: 다양한 액체 및 환경을 포함한 4,000장 이미지의 균형잡힌 이진 분류 데이터셋 생성
  5. 모델 성능 평가: 다양한 사전학습 모델에 대한 포괄적인 성능 평가 및 비교

방법론 상세 설명

작업 정의

입력: RGB 카메라 및 열화상 카메라의 이미지 스트림 출력: 이진 분류 결과(유출/비유출) 제약 조건: 실시간성 요구(낮은 지연), 경량 모델(배포 적합성)

열화상 기술 원리

물리적 우수성

  1. 온도 대비: 열화상 카메라는 표면에서 방출되는 장파 적외선 복사를 측정하며, 신호는 표면 온도 및 방사율에 비례
  2. 열 특성:
    • 액체(뜨거운 음료 또는 차가운 음료)는 환경 바닥 온도와 다르므로 감지 가능한 열 대비 생성
    • 액체는 더 높은 비열용량(예: 물 4.186 J/g°C)을 가지며 열 관성이 고체 바닥 재료와 다름
    • 증발 및 열 전달은 유출 경계에서 특성 구배 생성
  3. 방사율 차이: 액체와 일반적인 바닥 재료(타일, 목재)의 방사율이 다름
  4. 조명 독립성: 열화상은 반사된 가시광이 아닌 방출된 적외선 복사를 감지하므로 저조도, 눈부심 조건에서도 효과적

실패 사례

  1. 열 평형: 유출 액체가 바닥과 같은 온도이고 방사율이 유사할 때
  2. 얇은 액체막: 바닥과의 열 교환이 빠르고 빠르게 평형에 도달
  3. 환경 간섭: 인근 열원, 햇빛, 따뜻한 기계 장비로 인한 열 잡음
  4. 반사 인공물: 고반사 표면의 열 복사 반사 및 다층 바닥의 열 전도

데이터 수집 시스템

하드웨어 구성

  • 열화상 카메라: Topdon TC001
  • RGB 카메라: Genius WideCam F100
  • 컴퓨팅 플랫폼: Lenovo Legion Pro 7i with NVIDIA RTX 4080
  • 로봇 플랫폼: 이중 카메라 탑재 이동 로봇

데이터셋 사양

  • 총량: 4,000장 이미지
  • 분포: RGB 및 열화상 각 2,000장, 유출 및 비유출 각 2,000장
  • 액체 유형: 물, 콜라, 빨간 과일 주스, 노란 과일 주스
  • 환경: Atrium(타일 바닥), J234(광택 콘크리트 바닥)
  • 유출 크기: 소형 유출 직경 2-4인치, 대형 유출 직경 최대 12인치
  • 해상도: 열화상 256×192, RGB 640×360, 결합 512×192

데이터 전처리

  1. 데이터 분할: 70-20-10(훈련-검증-테스트)
  2. 이미지 정렬: 자르기 및 원근 변환을 통해 RGB 및 열화상 관점 일치
  3. 다중 모달 융합: 측면 연결(열화상 좌측, RGB 우측)

모델 아키텍처 및 훈련

사전학습 모델 선택

다양한 사전학습 CNN 아키텍처 평가: VGG19, ResNet50, EfficientNet 시리즈, InceptionV3, DenseNet121, NasNetMobile 등

훈련 전략

  • 미세 조정 전략: 마지막 5개 층 미세 조정
  • 최적화기: RMSprop (lr=1e-5)
  • 손실 함수: 이진 교차 엔트로피
  • 조기 중단 메커니즘: patience=5
  • 배치 크기: 훈련/검증 8, 테스트 2
  • 데이터 증강: 수평 뒤집기, 경미한 회전(factor=0.01), 대비 변화(factor=0.01)

실험 설정

데이터셋 상세 정보

  • 환경 조건: Atrium은 일관된 조명 유지, J234는 동적 자연광
  • 액체 선택: 다양한 온도 및 광학 특성의 액체 포함
  • 수집 각도: 다양한 위치 및 각도, 환경 열원 격리

평가 지표

  1. 테스트 정확도: 테스트 셋에서의 분류 정확도
  2. 실시간 시연 정확도: 실제 배포 시의 정확도
  3. 추론 시간: 단일 추론의 시간 오버헤드
  4. 모델 크기: 모델 파일 크기

실험 설계

  1. 모달 비교: RGB vs 열화상 vs 결합 모달
  2. 환경-액체 조합: 8가지 조합의 성능 평가
  3. 모델 아키텍처 비교: 11가지 사전학습 모델의 성능 대비

실험 결과

주요 결과

모달 비교(VGG19)

이미지 유형테스트 정확도시연 정확도모델 크기추론 시간
열화상100%100%324.6 MB44 ms
RGB98.84%100%1.0 GB55 ms
결합100%60%525.9 MB47 ms

열화상-VGG19 각 조합 성능

모든 8가지 방-액체 조합이 달성:

  • 테스트 정확도: 100%
  • 시연 정확도: 100%
  • 모델 크기: 324.6 MB
  • 추론 시간: 44-45 ms

다중 모델 아키텍처 비교

모델테스트 정확도시연 정확도모델 크기추론 시간
VGG19100%100%324.6 MB46 ms
ResNet5099.66%---
EfficientNetB399.15%---
NasNetMobile100%100%440.3 MB55 ms
InceptionV398.88%---

주요 발견

  1. 열화상 우수성 명확:
    • 추론 속도 최고(44ms vs 55ms)
    • 모델 크기 최소(324.6MB vs 1.0GB)
    • 실시간 배포 효과 최고
  2. VGG19 최적 선택:
    • 100% 정확도를 달성한 모델 중 VGG19가 NasNetMobile보다 9ms 빠름
    • 모델 크기 115.7MB 더 작음
  3. 환경 견고성: 열화상 모델은 다양한 방, 액체 유형에서 100% 정확도 유지
  4. 결합 모달 한계: 테스트 정확도는 높지만 실시간 시연 정확도는 60%에 불과

관련 연구

RGB/RGB-D 시각 방법

  • Bhutad 및 Patil: 1,976장의 주석 이미지 적수 및 습윤 표면 데이터셋 발표
  • Gawdzik 및 Orłowski: 산업 환경에서 Mask R-CNN을 사용한 유출 액체 감지 및 분할
  • Yang 등: 색상, 편광 및 깊이 정보를 융합하는 편광 RGB-D 프레임워크 제안

열화상 액체 감지

  • Appuhamy 등: 열 카메라 기반 표면 습도 매핑 방법 개발
  • Bao 등: 적외선 및 가시광 이중 카메라 시스템으로 파이프라인 누출 감지
  • Zhang & Zhang: 파이프라인 누출 모니터링을 위해 열 이미지를 CNN에 입력

다중 모달 하이브리드 시스템

기존 방법은 대부분 수작업으로 설계된 융합 또는 다단계 파이프라인을 채택하며, 본 논문은 다중 모달 데이터에 대한 엔드-투-엔드 CNN 학습을 채택한다.

경량 실시간 모델

  • Bouguettaya 등: 모바일 CNN 조사, MobileNet은 Jetson TX2에서 28 FPS 달성 가능
  • 본 논문은 소비자급 하드웨어에서 사전학습 네트워크의 실행 가능성 평가에 중점

결론 및 논의

주요 결론

다양한 조명 조건과 격리된 환경 열원을 가진 환경에서 열화상으로 훈련된 VGG19 이미지 분류 모델은 추론 시간, 테스트 정확도 및 실시간 배포 정확도 측면에서 최고의 성능을 제공한다.

한계

  1. 환경 열원 민감성: 최고 성능을 달성하려면 환경 열원을 격리해야 함
  2. 열 평형 문제: 장시간 유출은 바닥과 열 평형에 도달하여 감지 어려움
  3. 데이터셋 규모: 4,000장 이미지의 데이터셋은 상대적으로 작음
  4. 환경 제한: 두 가지 실내 환경에서만 테스트됨

향후 방향

  1. 격리되지 않은 환경 테스트: 보행자 흐름 등 환경 열원이 있는 조건에서 실험
  2. 통합 방법 탐색: RGB 및 열 특성을 융합하는 통합 방법, RGB를 사용하여 열화상의 환경 열원 오분류 수정
  3. 더 큰 규모 검증: 더 다양한 환경 및 조건에서 시스템 성능 검증

심층 평가

장점

  1. 체계적 비교: 다양한 모달 및 모델 아키텍처의 성능을 포괄적으로 비교하여 실제 응용에 명확한 지침 제공
  2. 높은 실용성: 소비자급 하드웨어에서 실시간 성능을 구현하여 매우 강한 실제 배포 가치 보유
  3. 견고한 이론적 기초: 열화상의 물리적 우수성 및 유출 감지에서의 실패 메커니즘을 상세히 분석
  4. 합리적 실험 설계: 다양한 액체 유형, 환경 조건 및 평가 차원 포함
  5. 설득력 있는 결과: 100% 정확도 및 44ms 추론 시간이 방법의 효과성 입증

부족한 점

  1. 데이터셋 규모 제한: 4,000장 이미지는 심층학습 관점에서 상대적으로 작으며 과적합 위험 가능
  2. 환경 조건 제한: 격리된 환경 열원의 이상적 조건에서만 테스트되어 실제 응용 시나리오가 더 복잡할 수 있음
  3. 일반화 능력 미흡 검증: 두 가지 실내 환경에서만 테스트되어 야외 또는 기타 환경에 대한 적응성 미지수
  4. 장기 안정성 미평가: 장기 운영의 안정성 및 신뢰성 평가 부족
  5. 비용-효과 분석 부재: 열화상 장비 비용과 성능 향상의 균형 분석 미제공

영향력

  1. 학술적 기여: 안전 응용에서 컴퓨터 비전의 다중 모달 융합에 대한 가치 있는 경험 제공
  2. 실용적 가치: 상업 및 산업 환경의 안전 모니터링 시스템에 실행 가능한 기술 솔루션 제공
  3. 재현성: 상세한 실험 설정 및 GitHub 코드 저장소 제공으로 재현 및 확장 용이

적용 시나리오

  1. 실내 상업 환경: 식당, 카페, 소매점 등 실시간 안전 모니터링이 필요한 장소
  2. 산업 안전 모니터링: 화학 공장, 창고 등 액체 누출 감지가 필요한 산업 환경
  3. 로봇 네비게이션: 이동 로봇이 지면 장애물 및 위험 지역을 인식해야 하는 경우
  4. 스마트 건물: 건물 관리 시스템에 통합하여 예방적 안전 모니터링 수행

참고문헌

논문은 열화상 감지, RGB 시각 방법, 다중 모달 융합 및 경량 모델 등 관련 분야의 중요한 연구를 포함한 11개의 관련 문헌을 인용하여 연구에 충분한 이론적 기초 및 비교 기준을 제공한다.


종합 평가: 이는 매우 실용성이 높은 응용 연구 논문으로, 체계적인 실험을 통해 열화상이 유출 감지 작업에서의 우수성을 검증했다. 데이터 규모 및 환경 복잡성 측면에서 한계가 있지만, 명확한 결론과 실용적인 시스템 설계는 관련 응용 분야에 가치 있는 참고자료를 제공한다.