2025-11-22T05:58:16.782547

Detecting spills using thermal imaging, pretrained deep learning models, and a robotic platform

Yeghiyan, Azar, Butani et al.
This paper presents a real-time spill detection system that utilizes pretrained deep learning models with RGB and thermal imaging to classify spill vs. no-spill scenarios across varied environments. Using a balanced binary dataset (4,000 images), our experiments demonstrate the advantages of thermal imaging in inference speed, accuracy, and model size. We achieve up to 100% accuracy using lightweight models like VGG19 and NasNetMobile, with thermal models performing faster and more robustly across different lighting conditions. Our system runs on consumer-grade hardware (RTX 4080) and achieves inference times as low as 44 ms with model sizes under 350 MB, highlighting its deployability in safety-critical contexts. Results from experiments with a real robot and test datasets indicate that a VGG19 model trained on thermal imaging performs best.
academic

Detecting spills using thermal imaging, pretrained deep learning models, and a robotic platform

基本信息

  • 论文ID: 2510.08770
  • 标题: Detecting spills using thermal imaging, pretrained deep learning models, and a robotic platform
  • 作者: Gregory Yeghiyan (Stevenson High School), Jurius Azar (Manoogian High School), Devson Butani (Lawrence Technological University), Chan-Jin Chung (Lawrence Technological University)
  • 分类: cs.CV (Computer Vision), cs.LG (Machine Learning), cs.RO (Robotics)
  • 发表时间: 2025年
  • 论文链接: https://arxiv.org/abs/2510.08770

摘要

本文提出了一个实时溢出检测系统,利用预训练深度学习模型结合RGB和热成像技术,在不同环境中对溢出与非溢出场景进行分类。使用平衡的二分类数据集(4,000张图像),实验证明了热成像在推理速度、准确率和模型大小方面的优势。使用VGG19和NasNetMobile等轻量级模型实现了高达100%的准确率,热成像模型在不同光照条件下表现更快更稳健。系统运行在消费级硬件(RTX 4080)上,推理时间低至44毫秒,模型大小不超过350MB,突出了其在安全关键应用中的可部署性。

研究背景与动机

问题定义

溢出检测对于动态环境(如咖啡厅、餐厅、零售空间)的公共安全至关重要,未及时发现的溢出经常导致滑倒和受伤事故。

问题重要性

  1. 安全需求:公共场所的溢出是造成意外伤害的主要原因
  2. 实时性要求:需要快速响应以防止事故发生
  3. 环境适应性:系统需要在各种光照和环境条件下稳定工作

现有方法局限性

  1. 传统检测方法:依赖侵入式硬件,响应时间延迟
  2. RGB视觉系统:容易受光照变化和表面反射影响
  3. 复杂环境适应性差:在低光照、眩光或复杂反射条件下性能下降

研究动机

通过整合热成像技术并评估其在预训练卷积神经网络中的有效性,实现实时、准确、轻量级的溢出检测。

核心贡献

  1. 多模态比较研究:系统性比较了RGB、热成像和组合模态在溢出检测任务中的性能
  2. 热成像优势验证:证明了热成像在推理速度、准确率和模型大小方面的优势
  3. 实用系统开发:开发了基于消费级硬件的实时溢出检测系统
  4. 数据集构建:创建了包含4,000张图像的平衡二分类数据集,涵盖多种液体和环境
  5. 模型性能评估:对多种预训练模型进行了全面的性能评估和比较

方法详解

任务定义

输入:来自RGB相机和热成像相机的图像流 输出:二分类结果(溢出/非溢出) 约束条件:实时性要求(低延迟)、轻量级模型(适合部署)

热成像技术原理

物理优势

  1. 温度对比:热成像相机测量表面发射的长波红外辐射,信号与表面温度和发射率成正比
  2. 热特征
    • 液体(热饮或冷饮)与环境地面温度不同,产生可检测的热对比
    • 液体具有更高的比热容(如水为4.186 J/g°C),热惯性与固体地面材料不同
    • 蒸发和传热在溢出边界产生特征梯度
  3. 发射率差异:液体和常见地面材料(瓷砖、木材)的发射率不同
  4. 光照独立性:热成像感测发射的红外辐射而非反射的可见光,在低光照、眩光条件下仍然有效

失效情况

  1. 热平衡:溢出液体与地面温度相同且发射率相似时
  2. 薄液膜:与地面热交换快速,快速达到平衡
  3. 环境干扰:附近热源、阳光、温暖机械设备产生热杂波
  4. 反射伪影:高反射表面的热辐射反射和多层地面的热传导

数据收集系统

硬件配置

  • 热成像相机:Topdon TC001
  • RGB相机:Genius WideCam F100
  • 计算平台:Lenovo Legion Pro 7i with NVIDIA RTX 4080
  • 机器人平台:搭载双相机的移动机器人

数据集规格

  • 总量:4,000张图像
  • 分布:RGB和热成像各2,000张,溢出和非溢出各2,000张
  • 液体类型:水、可乐、红果汁、黄果汁
  • 环境:Atrium(瓷砖地面)、J234(抛光混凝土地面)
  • 溢出尺寸:小型溢出直径2-4英寸,大型溢出直径达12英寸
  • 分辨率:热成像256×192,RGB 640×360,组合512×192

数据预处理

  1. 数据分割:70-20-10(训练-验证-测试)
  2. 图像配准:通过裁剪和透视变换匹配RGB和热成像视角
  3. 多模态融合:侧边拼接(热成像在左,RGB在右)

模型架构与训练

预训练模型选择

评估了多种预训练CNN架构:VGG19、ResNet50、EfficientNet系列、InceptionV3、DenseNet121、NasNetMobile等

训练策略

  • 微调策略:最后5层微调
  • 优化器:RMSprop (lr=1e-5)
  • 损失函数:二元交叉熵
  • 早停机制:patience=5
  • 批大小:训练/验证8,测试2
  • 数据增强:水平翻转、轻微旋转(factor=0.01)、对比度变化(factor=0.01)

实验设置

数据集详情

  • 环境条件:Atrium保持一致光照,J234动态自然光照
  • 液体选择:涵盖不同温度和光学特性的液体
  • 采集角度:多种位置和角度,隔离环境热源

评价指标

  1. 测试准确率:在测试集上的分类准确率
  2. 实时演示准确率:实际部署时的准确率
  3. 推理时间:单次推理的时间开销
  4. 模型大小:模型文件大小

实验设计

  1. 模态比较:RGB vs 热成像 vs 组合模态
  2. 环境-液体组合:8种组合的性能评估
  3. 模型架构比较:11种预训练模型的性能对比

实验结果

主要结果

模态比较(VGG19)

图像类型测试准确率演示准确率模型大小推理时间
热成像100%100%324.6 MB44 ms
RGB98.84%100%1.0 GB55 ms
组合100%60%525.9 MB47 ms

热成像-VGG19各组合性能

所有8种房间-液体组合均达到:

  • 测试准确率:100%
  • 演示准确率:100%
  • 模型大小:324.6 MB
  • 推理时间:44-45 ms

多模型架构比较

模型测试准确率演示准确率模型大小推理时间
VGG19100%100%324.6 MB46 ms
ResNet5099.66%---
EfficientNetB399.15%---
NasNetMobile100%100%440.3 MB55 ms
InceptionV398.88%---

关键发现

  1. 热成像优势明显
    • 推理速度最快(44ms vs 55ms)
    • 模型大小最小(324.6MB vs 1.0GB)
    • 实时部署效果最佳
  2. VGG19最优选择
    • 在达到100%准确率的模型中,VGG19比NasNetMobile快9ms
    • 模型大小小115.7MB
  3. 环境鲁棒性:热成像模型在不同房间、液体类型下均保持100%准确率
  4. 组合模态局限性:虽然测试准确率高,但实时演示准确率仅60%

相关工作

RGB/RGB-D视觉方法

  • Bhutad和Patil:发布1,976张标注图像的积水和湿表面数据集
  • Gawdzik和Orłowski:使用Mask R-CNN在工业环境中检测和分割溢出液体
  • Yang等:提出偏振RGB-D框架融合颜色、偏振和深度信息

热成像液体检测

  • Appuhamy等:开发基于热相机的表面湿度映射方法
  • Bao等:设计红外和可见光双相机系统检测管道泄漏
  • Zhang & Zhang:将热图像输入CNN进行管道泄漏监测

多模态混合系统

现有方法多采用手工设计的融合或多阶段管道,本文采用端到端CNN学习多模态数据。

轻量级实时模型

  • Bouguettaya等:调研移动CNN,MobileNet在Jetson TX2上可达28 FPS
  • 本文重点评估预训练网络在消费级硬件上的可行性

结论与讨论

主要结论

在具有多样化光照条件和隔离环境热源的环境中,基于热成像训练的VGG19图像分类模型在推理时间、测试准确率和实时部署准确率方面提供最佳性能。

局限性

  1. 环境热源敏感性:需要隔离环境热源才能达到最佳性能
  2. 热平衡问题:长时间溢出可能与地面达到热平衡而难以检测
  3. 数据集规模:4,000张图像的数据集相对较小
  4. 环境限制:仅在两种室内环境中测试

未来方向

  1. 非隔离环境测试:在包含行人流量等环境热源的条件下进行实验
  2. 集成方法探索:融合RGB和热特征的集成方法,利用RGB纠正热成像中的环境热源误分类
  3. 更大规模验证:在更多样化的环境和条件下验证系统性能

深度评价

优点

  1. 系统性比较:全面比较了不同模态和模型架构的性能,为实际应用提供了明确指导
  2. 实用性强:在消费级硬件上实现了实时性能,具有很强的实际部署价值
  3. 理论基础扎实:详细分析了热成像在溢出检测中的物理优势和失效机制
  4. 实验设计合理:涵盖多种液体类型、环境条件和评价维度
  5. 结果具说服力:100%的准确率和44ms的推理时间证明了方法的有效性

不足

  1. 数据集规模限制:4,000张图像对于深度学习来说相对较小,可能存在过拟合风险
  2. 环境条件受限:仅在隔离环境热源的理想条件下测试,实际应用场景可能更复杂
  3. 泛化能力未充分验证:仅在两种室内环境中测试,对户外或其他类型环境的适应性未知
  4. 长期稳定性未评估:缺乏长期运行的稳定性和可靠性评估
  5. 成本效益分析缺失:未提供热成像设备成本与性能提升的权衡分析

影响力

  1. 学术贡献:为计算机视觉在安全应用中的多模态融合提供了有价值的经验
  2. 实用价值:为商业和工业环境中的安全监控系统提供了可行的技术方案
  3. 可复现性:提供了详细的实验设置和GitHub代码库,便于复现和扩展

适用场景

  1. 室内商业环境:餐厅、咖啡厅、零售店等需要实时安全监控的场所
  2. 工业安全监控:化工厂、仓库等需要液体泄漏检测的工业环境
  3. 机器人导航:移动机器人需要识别地面障碍物和危险区域
  4. 智能建筑:集成到楼宇管理系统中进行预防性安全监控

参考文献

论文引用了11篇相关文献,涵盖了热成像检测、RGB视觉方法、多模态融合和轻量级模型等相关领域的重要工作,为研究提供了充分的理论基础和对比基准。


总体评价:这是一篇实用性很强的应用研究论文,通过系统性的实验验证了热成像在溢出检测任务中的优势。虽然在数据规模和环境复杂性方面存在局限,但其明确的结论和实用的系统设计为相关应用提供了有价值的参考。