This paper presents a real-time spill detection system that utilizes pretrained deep learning models with RGB and thermal imaging to classify spill vs. no-spill scenarios across varied environments. Using a balanced binary dataset (4,000 images), our experiments demonstrate the advantages of thermal imaging in inference speed, accuracy, and model size. We achieve up to 100% accuracy using lightweight models like VGG19 and NasNetMobile, with thermal models performing faster and more robustly across different lighting conditions. Our system runs on consumer-grade hardware (RTX 4080) and achieves inference times as low as 44 ms with model sizes under 350 MB, highlighting its deployability in safety-critical contexts. Results from experiments with a real robot and test datasets indicate that a VGG19 model trained on thermal imaging performs best.
- 論文ID: 2510.08770
- タイトル: Detecting spills using thermal imaging, pretrained deep learning models, and a robotic platform
- 著者: Gregory Yeghiyan (Stevenson High School)、Jurius Azar (Manoogian High School)、Devson Butani (Lawrence Technological University)、Chan-Jin Chung (Lawrence Technological University)
- 分類: cs.CV (コンピュータビジョン)、cs.LG (機械学習)、cs.RO (ロボティクス)
- 発表時期: 2025年
- 論文リンク: https://arxiv.org/abs/2510.08770
本論文は、事前学習済み深層学習モデルとRGB及び熱画像技術を組み合わせた、リアルタイム液体流出検出システムを提案している。異なる環境における流出シーン及び非流出シーンの分類に、バランスの取れた二値分類データセット(4,000枚の画像)を使用した実験により、推論速度、精度、モデルサイズの観点から熱画像の優位性が実証された。VGG19及びNasNetMobileなどの軽量モデルを用いて最大100%の精度を達成し、熱画像モデルは異なる照明条件下でより高速かつロバストな性能を示した。システムはコンシューマグレードハードウェア(RTX 4080)上で動作し、推論時間は44ミリ秒以下、モデルサイズは350MB以下であり、安全性が重要なアプリケーションにおける配置可能性を強調している。
液体流出検出は、カフェ、レストラン、小売スペースなどの動的環境における公共安全にとって重要であり、タイムリーに発見されない流出はしばしば転倒および怪我事故につながる。
- 安全性の必要性: 公共の場所における液体流出は予期しない怪我の主要な原因である
- リアルタイム性の要件: 事故防止のための迅速な対応が必要である
- 環境適応性: システムは様々な照明および環境条件下で安定して動作する必要がある
- 従来の検出手法: 侵襲的なハードウェアに依存し、応答時間の遅延がある
- RGB視覚システム: 照明変化および表面反射の影響を受けやすい
- 複雑な環境への適応性の欠如: 低照度、グレア、または複雑な反射条件下でのパフォーマンス低下
熱画像技術を統合し、事前学習済み畳み込みニューラルネットワークにおけるその有効性を評価することにより、リアルタイム、正確、軽量の液体流出検出を実現する。
- マルチモーダル比較研究: RGB、熱画像、および複合モーダルの液体流出検出タスクにおけるパフォーマンスの体系的比較
- 熱画像優位性の検証: 推論速度、精度、モデルサイズの観点から熱画像の優位性を実証
- 実用的システムの開発: コンシューマグレードハードウェアに基づくリアルタイム液体流出検出システムの開発
- データセット構築: 複数の液体および環境を含む4,000枚の画像からなるバランスの取れた二値分類データセットの作成
- モデルパフォーマンス評価: 複数の事前学習済みモデルの包括的なパフォーマンス評価と比較
入力: RGB カメラおよび熱画像カメラからの画像ストリーム
出力: 二値分類結果(流出/非流出)
制約条件: リアルタイム性要件(低遅延)、軽量モデル(配置に適した)
- 温度コントラスト: 熱画像カメラは表面から放射される長波赤外線放射を測定し、信号は表面温度および放射率に正比例する
- 熱特性:
- 液体(熱飲料または冷飲料)は周囲の床面温度と異なり、検出可能な熱コントラストを生成する
- 液体はより高い比熱容量を有する(例えば水は4.186 J/g°C)、熱慣性は固体床材料と異なる
- 蒸発および熱伝達は流出境界に特性勾配を生成する
- 放射率の相違: 液体および一般的な床材料(タイル、木材)の放射率は異なる
- 照明独立性: 熱画像は反射された可視光ではなく放射された赤外線放射を感知するため、低照度およびグレア条件下でも有効である
- 熱平衡: 流出液体が床面温度と同じであり、放射率が類似している場合
- 薄液膜: 床面との熱交換が迅速であり、急速に平衡に達する
- 環境干渉: 近くの熱源、日光、温暖な機械装置による熱ノイズ
- 反射アーティファクト: 高反射表面の熱放射反射および多層床の熱伝導
- 熱画像カメラ: Topdon TC001
- RGB カメラ: Genius WideCam F100
- 計算プラットフォーム: Lenovo Legion Pro 7i with NVIDIA RTX 4080
- ロボットプラットフォーム: デュアルカメラを搭載した移動ロボット
- 総量: 4,000枚の画像
- 分布: RGB および熱画像各2,000枚、流出および非流出各2,000枚
- 液体タイプ: 水、コーラ、赤果汁、黄果汁
- 環境: Atrium(タイル床)、J234(研磨コンクリート床)
- 流出サイズ: 小型流出直径2~4インチ、大型流出直径最大12インチ
- 解像度: 熱画像256×192、RGB 640×360、複合512×192
- データ分割: 70-20-10(訓練-検証-テスト)
- 画像レジストレーション: トリミングおよび透視変換によるRGBと熱画像の視点マッチング
- マルチモーダル融合: 側辺連結(熱画像が左、RGBが右)
複数の事前学習済みCNNアーキテクチャを評価: VGG19、ResNet50、EfficientNetシリーズ、InceptionV3、DenseNet121、NasNetMobileなど
- ファインチューニング戦略: 最後の5層をファインチューニング
- オプティマイザー: RMSprop (lr=1e-5)
- 損失関数: 二値交差エントロピー
- 早期停止メカニズム: patience=5
- バッチサイズ: 訓練/検証8、テスト2
- データ拡張: 水平反転、軽微な回転(factor=0.01)、コントラスト変化(factor=0.01)
- 環境条件: Atriumは一貫した照明を保持、J234は動的な自然光照
- 液体選択: 異なる温度および光学特性を有する液体を含む
- 採集角度: 複数の位置および角度、環境熱源の隔離
- テスト精度: テストセット上の分類精度
- リアルタイムデモンストレーション精度: 実際の配置時の精度
- 推論時間: 単一推論の時間オーバーヘッド
- モデルサイズ: モデルファイルサイズ
- モーダル比較: RGB対熱画像対複合モーダル
- 環境-液体組み合わせ: 8つの組み合わせのパフォーマンス評価
- モデルアーキテクチャ比較: 11の事前学習済みモデルのパフォーマンス比較
| 画像タイプ | テスト精度 | デモ精度 | モデルサイズ | 推論時間 |
|---|
| 熱画像 | 100% | 100% | 324.6 MB | 44 ms |
| RGB | 98.84% | 100% | 1.0 GB | 55 ms |
| 複合 | 100% | 60% | 525.9 MB | 47 ms |
すべての8つのルーム-液体組み合わせが達成:
- テスト精度: 100%
- デモ精度: 100%
- モデルサイズ: 324.6 MB
- 推論時間: 44-45 ms
| モデル | テスト精度 | デモ精度 | モデルサイズ | 推論時間 |
|---|
| VGG19 | 100% | 100% | 324.6 MB | 46 ms |
| ResNet50 | 99.66% | - | - | - |
| EfficientNetB3 | 99.15% | - | - | - |
| NasNetMobile | 100% | 100% | 440.3 MB | 55 ms |
| InceptionV3 | 98.88% | - | - | - |
- 熱画像の明らかな優位性:
- 最速の推論速度(44ms対55ms)
- 最小のモデルサイズ(324.6MB対1.0GB)
- 最良のリアルタイム配置効果
- VGG19が最適な選択:
- 100%精度を達成するモデルの中で、VGG19はNasNetMobileより9ms高速
- モデルサイズは115.7MB小さい
- 環境ロバストネス: 熱画像モデルは異なるルーム、液体タイプ全体で100%精度を維持
- 複合モーダルの制限: テスト精度は高いが、リアルタイムデモ精度はわずか60%
- Bhutadおよび Patil: 1,976枚の標注画像からなる積水および湿表面データセットを公開
- Gawdzikおよび Orłowski: 工業環境における流出液体の検出および分割にMask R-CNNを使用
- Yangら: 色、偏光、深度情報を融合した偏光RGB-Dフレームワークを提案
- Appuhamyら: 熱カメラに基づく表面湿度マッピング手法を開発
- Baoら: パイプラインリーク検出のための赤外線および可視光デュアルカメラシステムを設計
- Zhang & Zhang: パイプラインリーク監視のためにCNNに熱画像を入力
既存手法は手工設計の融合または多段階パイプラインを採用することが多いが、本論文はマルチモーダルデータを学習するエンドツーエンドCNNを採用している。
- Bouguettayaら: モバイルCNNを調査、MobileNetはJetson TX2上で28 FPSに達することが可能
- 本論文はコンシューマグレードハードウェア上の事前学習済みネットワークの実行可能性評価に焦点を当てている
多様な照明条件および隔離された環境熱源を有する環境において、熱画像で訓練されたVGG19画像分類モデルは、推論時間、テスト精度、およびリアルタイム配置精度の観点から最良のパフォーマンスを提供する。
- 環境熱源への感度: 最適なパフォーマンスを達成するには環境熱源の隔離が必要
- 熱平衡問題: 長期間の流出は床面と熱平衡に達し、検出が困難になる可能性がある
- データセットサイズ: 4,000枚の画像のデータセットは深層学習にとって比較的小さい
- 環境制限: 2つの室内環境でのみテスト
- 非隔離環境テスト: 歩行者流などの環境熱源を含む条件下での実験
- 統合手法の探索: RGB特性と熱特性を融合させた統合手法、熱画像における環境熱源の誤分類を修正するためのRGBの利用
- より大規模な検証: より多様な環境および条件下でのシステムパフォーマンスの検証
- 体系的比較: 異なるモーダルおよびモデルアーキテクチャのパフォーマンスの包括的比較により、実際のアプリケーションに明確な指針を提供
- 実用性: コンシューマグレードハードウェア上でのリアルタイムパフォーマンス実現により、実際の配置価値が高い
- 理論的基礎が堅牢: 熱画像の物理的優位性および液体流出検出における失敗メカニズムの詳細な分析
- 合理的な実験設計: 複数の液体タイプ、環境条件、および評価次元を含む
- 説得力のある結果: 100%の精度および44msの推論時間は手法の有効性を証明
- データセットサイズの制限: 4,000枚の画像は深層学習にとって比較的小さく、過適合のリスクが存在する可能性がある
- 環境条件の制限: 隔離された環境熱源の理想的な条件下でのみテスト、実際のアプリケーションシナリオはより複雑である可能性がある
- 汎化能力の不十分な検証: 2つの室内環境でのみテスト、屋外またはその他のタイプの環境への適応性は不明
- 長期安定性の未評価: 長期運用の安定性および信頼性評価の欠如
- 費用対効果分析の欠落: 熱画像機器のコストとパフォーマンス向上のトレードオフ分析が提供されていない
- 学術的貢献: 安全アプリケーションにおけるコンピュータビジョンのマルチモーダル融合に価値のある経験を提供
- 実用的価値: 商業および工業環境における安全監視システムに実行可能な技術ソリューションを提供
- 再現性: 詳細な実験設定およびGitHubコードリポジトリを提供し、再現および拡張を容易にする
- 室内商業環境: リアルタイム安全監視が必要なレストラン、カフェ、小売店
- 工業安全監視: 液体リーク検出が必要な化学工場、倉庫などの工業環境
- ロボットナビゲーション: 床面障害物および危険区域を識別する必要がある移動ロボット
- スマートビルディング: 予防的安全監視のための建物管理システムへの統合
論文は熱画像検出、RGB視覚手法、マルチモーダル融合、および軽量モデルなど関連分野の重要な業績を含む11の関連文献を引用しており、研究に十分な理論的基礎と比較ベンチマークを提供している。
総合評価: これは実用性の高い応用研究論文であり、液体流出検出タスクにおける熱画像の優位性を体系的な実験により検証している。データ規模および環境複雑性の観点から制限が存在するが、その明確な結論および実用的なシステム設計は関連アプリケーションに価値のある参考を提供する。