This paper presents a real-time spill detection system that utilizes pretrained deep learning models with RGB and thermal imaging to classify spill vs. no-spill scenarios across varied environments. Using a balanced binary dataset (4,000 images), our experiments demonstrate the advantages of thermal imaging in inference speed, accuracy, and model size. We achieve up to 100% accuracy using lightweight models like VGG19 and NasNetMobile, with thermal models performing faster and more robustly across different lighting conditions. Our system runs on consumer-grade hardware (RTX 4080) and achieves inference times as low as 44 ms with model sizes under 350 MB, highlighting its deployability in safety-critical contexts. Results from experiments with a real robot and test datasets indicate that a VGG19 model trained on thermal imaging performs best.
- 论文ID: 2510.08770
- 标题: Detecting spills using thermal imaging, pretrained deep learning models, and a robotic platform
- 作者: Gregory Yeghiyan (Stevenson High School), Jurius Azar (Manoogian High School), Devson Butani (Lawrence Technological University), Chan-Jin Chung (Lawrence Technological University)
- 分类: cs.CV (Computer Vision), cs.LG (Machine Learning), cs.RO (Robotics)
- 发表时间: 2025年
- 论文链接: https://arxiv.org/abs/2510.08770
本文提出了一个实时溢出检测系统,利用预训练深度学习模型结合RGB和热成像技术,在不同环境中对溢出与非溢出场景进行分类。使用平衡的二分类数据集(4,000张图像),实验证明了热成像在推理速度、准确率和模型大小方面的优势。使用VGG19和NasNetMobile等轻量级模型实现了高达100%的准确率,热成像模型在不同光照条件下表现更快更稳健。系统运行在消费级硬件(RTX 4080)上,推理时间低至44毫秒,模型大小不超过350MB,突出了其在安全关键应用中的可部署性。
溢出检测对于动态环境(如咖啡厅、餐厅、零售空间)的公共安全至关重要,未及时发现的溢出经常导致滑倒和受伤事故。
- 安全需求:公共场所的溢出是造成意外伤害的主要原因
- 实时性要求:需要快速响应以防止事故发生
- 环境适应性:系统需要在各种光照和环境条件下稳定工作
- 传统检测方法:依赖侵入式硬件,响应时间延迟
- RGB视觉系统:容易受光照变化和表面反射影响
- 复杂环境适应性差:在低光照、眩光或复杂反射条件下性能下降
通过整合热成像技术并评估其在预训练卷积神经网络中的有效性,实现实时、准确、轻量级的溢出检测。
- 多模态比较研究:系统性比较了RGB、热成像和组合模态在溢出检测任务中的性能
- 热成像优势验证:证明了热成像在推理速度、准确率和模型大小方面的优势
- 实用系统开发:开发了基于消费级硬件的实时溢出检测系统
- 数据集构建:创建了包含4,000张图像的平衡二分类数据集,涵盖多种液体和环境
- 模型性能评估:对多种预训练模型进行了全面的性能评估和比较
输入:来自RGB相机和热成像相机的图像流
输出:二分类结果(溢出/非溢出)
约束条件:实时性要求(低延迟)、轻量级模型(适合部署)
- 温度对比:热成像相机测量表面发射的长波红外辐射,信号与表面温度和发射率成正比
- 热特征:
- 液体(热饮或冷饮)与环境地面温度不同,产生可检测的热对比
- 液体具有更高的比热容(如水为4.186 J/g°C),热惯性与固体地面材料不同
- 蒸发和传热在溢出边界产生特征梯度
- 发射率差异:液体和常见地面材料(瓷砖、木材)的发射率不同
- 光照独立性:热成像感测发射的红外辐射而非反射的可见光,在低光照、眩光条件下仍然有效
- 热平衡:溢出液体与地面温度相同且发射率相似时
- 薄液膜:与地面热交换快速,快速达到平衡
- 环境干扰:附近热源、阳光、温暖机械设备产生热杂波
- 反射伪影:高反射表面的热辐射反射和多层地面的热传导
- 热成像相机:Topdon TC001
- RGB相机:Genius WideCam F100
- 计算平台:Lenovo Legion Pro 7i with NVIDIA RTX 4080
- 机器人平台:搭载双相机的移动机器人
- 总量:4,000张图像
- 分布:RGB和热成像各2,000张,溢出和非溢出各2,000张
- 液体类型:水、可乐、红果汁、黄果汁
- 环境:Atrium(瓷砖地面)、J234(抛光混凝土地面)
- 溢出尺寸:小型溢出直径2-4英寸,大型溢出直径达12英寸
- 分辨率:热成像256×192,RGB 640×360,组合512×192
- 数据分割:70-20-10(训练-验证-测试)
- 图像配准:通过裁剪和透视变换匹配RGB和热成像视角
- 多模态融合:侧边拼接(热成像在左,RGB在右)
评估了多种预训练CNN架构:VGG19、ResNet50、EfficientNet系列、InceptionV3、DenseNet121、NasNetMobile等
- 微调策略:最后5层微调
- 优化器:RMSprop (lr=1e-5)
- 损失函数:二元交叉熵
- 早停机制:patience=5
- 批大小:训练/验证8,测试2
- 数据增强:水平翻转、轻微旋转(factor=0.01)、对比度变化(factor=0.01)
- 环境条件:Atrium保持一致光照,J234动态自然光照
- 液体选择:涵盖不同温度和光学特性的液体
- 采集角度:多种位置和角度,隔离环境热源
- 测试准确率:在测试集上的分类准确率
- 实时演示准确率:实际部署时的准确率
- 推理时间:单次推理的时间开销
- 模型大小:模型文件大小
- 模态比较:RGB vs 热成像 vs 组合模态
- 环境-液体组合:8种组合的性能评估
- 模型架构比较:11种预训练模型的性能对比
| 图像类型 | 测试准确率 | 演示准确率 | 模型大小 | 推理时间 |
|---|
| 热成像 | 100% | 100% | 324.6 MB | 44 ms |
| RGB | 98.84% | 100% | 1.0 GB | 55 ms |
| 组合 | 100% | 60% | 525.9 MB | 47 ms |
所有8种房间-液体组合均达到:
- 测试准确率:100%
- 演示准确率:100%
- 模型大小:324.6 MB
- 推理时间:44-45 ms
| 模型 | 测试准确率 | 演示准确率 | 模型大小 | 推理时间 |
|---|
| VGG19 | 100% | 100% | 324.6 MB | 46 ms |
| ResNet50 | 99.66% | - | - | - |
| EfficientNetB3 | 99.15% | - | - | - |
| NasNetMobile | 100% | 100% | 440.3 MB | 55 ms |
| InceptionV3 | 98.88% | - | - | - |
- 热成像优势明显:
- 推理速度最快(44ms vs 55ms)
- 模型大小最小(324.6MB vs 1.0GB)
- 实时部署效果最佳
- VGG19最优选择:
- 在达到100%准确率的模型中,VGG19比NasNetMobile快9ms
- 模型大小小115.7MB
- 环境鲁棒性:热成像模型在不同房间、液体类型下均保持100%准确率
- 组合模态局限性:虽然测试准确率高,但实时演示准确率仅60%
- Bhutad和Patil:发布1,976张标注图像的积水和湿表面数据集
- Gawdzik和Orłowski:使用Mask R-CNN在工业环境中检测和分割溢出液体
- Yang等:提出偏振RGB-D框架融合颜色、偏振和深度信息
- Appuhamy等:开发基于热相机的表面湿度映射方法
- Bao等:设计红外和可见光双相机系统检测管道泄漏
- Zhang & Zhang:将热图像输入CNN进行管道泄漏监测
现有方法多采用手工设计的融合或多阶段管道,本文采用端到端CNN学习多模态数据。
- Bouguettaya等:调研移动CNN,MobileNet在Jetson TX2上可达28 FPS
- 本文重点评估预训练网络在消费级硬件上的可行性
在具有多样化光照条件和隔离环境热源的环境中,基于热成像训练的VGG19图像分类模型在推理时间、测试准确率和实时部署准确率方面提供最佳性能。
- 环境热源敏感性:需要隔离环境热源才能达到最佳性能
- 热平衡问题:长时间溢出可能与地面达到热平衡而难以检测
- 数据集规模:4,000张图像的数据集相对较小
- 环境限制:仅在两种室内环境中测试
- 非隔离环境测试:在包含行人流量等环境热源的条件下进行实验
- 集成方法探索:融合RGB和热特征的集成方法,利用RGB纠正热成像中的环境热源误分类
- 更大规模验证:在更多样化的环境和条件下验证系统性能
- 系统性比较:全面比较了不同模态和模型架构的性能,为实际应用提供了明确指导
- 实用性强:在消费级硬件上实现了实时性能,具有很强的实际部署价值
- 理论基础扎实:详细分析了热成像在溢出检测中的物理优势和失效机制
- 实验设计合理:涵盖多种液体类型、环境条件和评价维度
- 结果具说服力:100%的准确率和44ms的推理时间证明了方法的有效性
- 数据集规模限制:4,000张图像对于深度学习来说相对较小,可能存在过拟合风险
- 环境条件受限:仅在隔离环境热源的理想条件下测试,实际应用场景可能更复杂
- 泛化能力未充分验证:仅在两种室内环境中测试,对户外或其他类型环境的适应性未知
- 长期稳定性未评估:缺乏长期运行的稳定性和可靠性评估
- 成本效益分析缺失:未提供热成像设备成本与性能提升的权衡分析
- 学术贡献:为计算机视觉在安全应用中的多模态融合提供了有价值的经验
- 实用价值:为商业和工业环境中的安全监控系统提供了可行的技术方案
- 可复现性:提供了详细的实验设置和GitHub代码库,便于复现和扩展
- 室内商业环境:餐厅、咖啡厅、零售店等需要实时安全监控的场所
- 工业安全监控:化工厂、仓库等需要液体泄漏检测的工业环境
- 机器人导航:移动机器人需要识别地面障碍物和危险区域
- 智能建筑:集成到楼宇管理系统中进行预防性安全监控
论文引用了11篇相关文献,涵盖了热成像检测、RGB视觉方法、多模态融合和轻量级模型等相关领域的重要工作,为研究提供了充分的理论基础和对比基准。
总体评价:这是一篇实用性很强的应用研究论文,通过系统性的实验验证了热成像在溢出检测任务中的优势。虽然在数据规模和环境复杂性方面存在局限,但其明确的结论和实用的系统设计为相关应用提供了有价值的参考。