2025-11-22T05:58:16.782547

Detecting spills using thermal imaging, pretrained deep learning models, and a robotic platform

Yeghiyan, Azar, Butani et al.

This paper presents a real-time spill detection system that utilizes pretrained deep learning models with RGB and thermal imaging to classify spill vs. no-spill scenarios across varied environments. Using a balanced binary dataset (4,000 images), our experiments demonstrate the advantages of thermal imaging in inference speed, accuracy, and model size. We achieve up to 100% accuracy using lightweight models like VGG19 and NasNetMobile, with thermal models performing faster and more robustly across different lighting conditions. Our system runs on consumer-grade hardware (RTX 4080) and achieves inference times as low as 44 ms with model sizes under 350 MB, highlighting its deployability in safety-critical contexts. Results from experiments with a real robot and test datasets indicate that a VGG19 model trained on thermal imaging performs best.

academic

熱画像、事前学習済み深層学習モデル、およびロボットプラットフォームを用いた液体流出検出

基本情報

論文ID: 2510.08770
タイトル: Detecting spills using thermal imaging, pretrained deep learning models, and a robotic platform
著者: Gregory Yeghiyan (Stevenson High School)、Jurius Azar (Manoogian High School)、Devson Butani (Lawrence Technological University)、Chan-Jin Chung (Lawrence Technological University)
分類: cs.CV (コンピュータビジョン)、cs.LG (機械学習)、cs.RO (ロボティクス)
発表時期: 2025年
論文リンク: https://arxiv.org/abs/2510.08770

要約

本論文は、事前学習済み深層学習モデルとRGB及び熱画像技術を組み合わせた、リアルタイム液体流出検出システムを提案している。異なる環境における流出シーン及び非流出シーンの分類に、バランスの取れた二値分類データセット(4,000枚の画像)を使用した実験により、推論速度、精度、モデルサイズの観点から熱画像の優位性が実証された。VGG19及びNasNetMobileなどの軽量モデルを用いて最大100%の精度を達成し、熱画像モデルは異なる照明条件下でより高速かつロバストな性能を示した。システムはコンシューマグレードハードウェア(RTX 4080)上で動作し、推論時間は44ミリ秒以下、モデルサイズは350MB以下であり、安全性が重要なアプリケーションにおける配置可能性を強調している。

研究背景と動機

問題定義

液体流出検出は、カフェ、レストラン、小売スペースなどの動的環境における公共安全にとって重要であり、タイムリーに発見されない流出はしばしば転倒および怪我事故につながる。

問題の重要性

安全性の必要性: 公共の場所における液体流出は予期しない怪我の主要な原因である
リアルタイム性の要件: 事故防止のための迅速な対応が必要である
環境適応性: システムは様々な照明および環境条件下で安定して動作する必要がある

既存手法の限界

従来の検出手法: 侵襲的なハードウェアに依存し、応答時間の遅延がある
RGB視覚システム: 照明変化および表面反射の影響を受けやすい
複雑な環境への適応性の欠如: 低照度、グレア、または複雑な反射条件下でのパフォーマンス低下

研究動機

熱画像技術を統合し、事前学習済み畳み込みニューラルネットワークにおけるその有効性を評価することにより、リアルタイム、正確、軽量の液体流出検出を実現する。

核心的貢献

マルチモーダル比較研究: RGB、熱画像、および複合モーダルの液体流出検出タスクにおけるパフォーマンスの体系的比較
熱画像優位性の検証: 推論速度、精度、モデルサイズの観点から熱画像の優位性を実証
実用的システムの開発: コンシューマグレードハードウェアに基づくリアルタイム液体流出検出システムの開発
データセット構築: 複数の液体および環境を含む4,000枚の画像からなるバランスの取れた二値分類データセットの作成
モデルパフォーマンス評価: 複数の事前学習済みモデルの包括的なパフォーマンス評価と比較

方法論の詳細

タスク定義

入力: RGB カメラおよび熱画像カメラからの画像ストリーム出力: 二値分類結果(流出/非流出) 制約条件: リアルタイム性要件(低遅延)、軽量モデル(配置に適した)

熱画像技術の原理

物理的優位性

温度コントラスト: 熱画像カメラは表面から放射される長波赤外線放射を測定し、信号は表面温度および放射率に正比例する
熱特性:
- 液体(熱飲料または冷飲料)は周囲の床面温度と異なり、検出可能な熱コントラストを生成する
- 液体はより高い比熱容量を有する(例えば水は4.186 J/g°C)、熱慣性は固体床材料と異なる
- 蒸発および熱伝達は流出境界に特性勾配を生成する
放射率の相違: 液体および一般的な床材料(タイル、木材)の放射率は異なる
照明独立性: 熱画像は反射された可視光ではなく放射された赤外線放射を感知するため、低照度およびグレア条件下でも有効である

失敗ケース

熱平衡: 流出液体が床面温度と同じであり、放射率が類似している場合
薄液膜: 床面との熱交換が迅速であり、急速に平衡に達する
環境干渉: 近くの熱源、日光、温暖な機械装置による熱ノイズ
反射アーティファクト: 高反射表面の熱放射反射および多層床の熱伝導

データ収集システム

ハードウェア構成

熱画像カメラ: Topdon TC001
RGB カメラ: Genius WideCam F100
計算プラットフォーム: Lenovo Legion Pro 7i with NVIDIA RTX 4080
ロボットプラットフォーム: デュアルカメラを搭載した移動ロボット

データセット仕様

総量: 4,000枚の画像
分布: RGB および熱画像各2,000枚、流出および非流出各2,000枚
液体タイプ: 水、コーラ、赤果汁、黄果汁
環境: Atrium(タイル床)、J234(研磨コンクリート床)
流出サイズ: 小型流出直径2～4インチ、大型流出直径最大12インチ
解像度: 熱画像256×192、RGB 640×360、複合512×192

データ前処理

データ分割: 70-20-10(訓練-検証-テスト)
画像レジストレーション: トリミングおよび透視変換によるRGBと熱画像の視点マッチング
マルチモーダル融合: 側辺連結(熱画像が左、RGBが右)

モデルアーキテクチャと訓練

事前学習済みモデルの選択

複数の事前学習済みCNNアーキテクチャを評価: VGG19、ResNet50、EfficientNetシリーズ、InceptionV3、DenseNet121、NasNetMobileなど

訓練戦略

ファインチューニング戦略: 最後の5層をファインチューニング
オプティマイザー: RMSprop (lr=1e-5)
損失関数: 二値交差エントロピー
早期停止メカニズム: patience=5
バッチサイズ: 訓練/検証8、テスト2
データ拡張: 水平反転、軽微な回転(factor=0.01)、コントラスト変化(factor=0.01)

実験設定

データセット詳細

環境条件: Atriumは一貫した照明を保持、J234は動的な自然光照
液体選択: 異なる温度および光学特性を有する液体を含む
採集角度: 複数の位置および角度、環境熱源の隔離

評価指標

テスト精度: テストセット上の分類精度
リアルタイムデモンストレーション精度: 実際の配置時の精度
推論時間: 単一推論の時間オーバーヘッド
モデルサイズ: モデルファイルサイズ

実験設計

モーダル比較: RGB対熱画像対複合モーダル
環境-液体組み合わせ: 8つの組み合わせのパフォーマンス評価
モデルアーキテクチャ比較: 11の事前学習済みモデルのパフォーマンス比較

実験結果

主要結果

モーダル比較(VGG19)

画像タイプ	テスト精度	デモ精度	モデルサイズ	推論時間
熱画像	100%	100%	324.6 MB	44 ms
RGB	98.84%	100%	1.0 GB	55 ms
複合	100%	60%	525.9 MB	47 ms

熱画像-VGG19各組み合わせパフォーマンス

すべての8つのルーム-液体組み合わせが達成:

テスト精度: 100%
デモ精度: 100%
モデルサイズ: 324.6 MB
推論時間: 44-45 ms

マルチモデルアーキテクチャ比較

モデル	テスト精度	デモ精度	モデルサイズ	推論時間
VGG19	100%	100%	324.6 MB	46 ms
ResNet50	99.66%	-	-	-
EfficientNetB3	99.15%	-	-	-
NasNetMobile	100%	100%	440.3 MB	55 ms
InceptionV3	98.88%	-	-	-

主要な発見

熱画像の明らかな優位性:
- 最速の推論速度(44ms対55ms)
- 最小のモデルサイズ(324.6MB対1.0GB)
- 最良のリアルタイム配置効果
VGG19が最適な選択:
- 100%精度を達成するモデルの中で、VGG19はNasNetMobileより9ms高速
- モデルサイズは115.7MB小さい
環境ロバストネス: 熱画像モデルは異なるルーム、液体タイプ全体で100%精度を維持
複合モーダルの制限: テスト精度は高いが、リアルタイムデモ精度はわずか60%