2025-11-22T05:58:16.782547

Detecting spills using thermal imaging, pretrained deep learning models, and a robotic platform

Yeghiyan, Azar, Butani et al.
This paper presents a real-time spill detection system that utilizes pretrained deep learning models with RGB and thermal imaging to classify spill vs. no-spill scenarios across varied environments. Using a balanced binary dataset (4,000 images), our experiments demonstrate the advantages of thermal imaging in inference speed, accuracy, and model size. We achieve up to 100% accuracy using lightweight models like VGG19 and NasNetMobile, with thermal models performing faster and more robustly across different lighting conditions. Our system runs on consumer-grade hardware (RTX 4080) and achieves inference times as low as 44 ms with model sizes under 350 MB, highlighting its deployability in safety-critical contexts. Results from experiments with a real robot and test datasets indicate that a VGG19 model trained on thermal imaging performs best.
academic

Detección de derrames utilizando imágenes térmicas, modelos de aprendizaje profundo preentrenados y una plataforma robótica

Información Básica

  • ID del Artículo: 2510.08770
  • Título: Detecting spills using thermal imaging, pretrained deep learning models, and a robotic platform
  • Autores: Gregory Yeghiyan (Stevenson High School), Jurius Azar (Manoogian High School), Devson Butani (Lawrence Technological University), Chan-Jin Chung (Lawrence Technological University)
  • Clasificación: cs.CV (Visión por Computadora), cs.LG (Aprendizaje Automático), cs.RO (Robótica)
  • Fecha de Publicación: 2025
  • Enlace del Artículo: https://arxiv.org/abs/2510.08770

Resumen

Este artículo propone un sistema de detección de derrames en tiempo real que utiliza modelos de aprendizaje profundo preentrenados combinados con imágenes térmicas e RGB para clasificar escenarios de derrames y no-derrames en diversos entornos. Utilizando un conjunto de datos balanceado de clasificación binaria (4,000 imágenes), los experimentos demuestran las ventajas de la imágenes térmicas en velocidad de inferencia, precisión y tamaño del modelo. Se logró una precisión de hasta el 100% utilizando modelos ligeros como VGG19 y NasNetMobile, con los modelos de imágenes térmicas demostrando un desempeño más rápido y robusto bajo diferentes condiciones de iluminación. El sistema se ejecuta en hardware de consumo (RTX 4080) con tiempos de inferencia tan bajos como 44 milisegundos y tamaños de modelo no superiores a 350MB, destacando su capacidad de implementación en aplicaciones críticas de seguridad.

Antecedentes de Investigación y Motivación

Definición del Problema

La detección de derrames es crucial para la seguridad pública en entornos dinámicos (como cafeterías, restaurantes y espacios comerciales), donde los derrames no detectados a tiempo frecuentemente resultan en accidentes por resbalones y lesiones.

Importancia del Problema

  1. Requisitos de Seguridad: Los derrames en espacios públicos son una causa principal de lesiones accidentales
  2. Requisitos de Tiempo Real: Se requiere una respuesta rápida para prevenir accidentes
  3. Adaptabilidad Ambiental: El sistema necesita funcionar de manera estable bajo diversas condiciones de iluminación y ambientales

Limitaciones de Métodos Existentes

  1. Métodos de Detección Tradicionales: Dependen de hardware invasivo con retrasos en el tiempo de respuesta
  2. Sistemas de Visión RGB: Son susceptibles a cambios de iluminación y reflejos de superficie
  3. Pobre Adaptabilidad en Entornos Complejos: El desempeño se degrada bajo iluminación baja, deslumbramiento o condiciones de reflexión compleja

Motivación de la Investigación

Lograr la detección de derrames en tiempo real, precisa y ligera mediante la integración de tecnología de imágenes térmicas y la evaluación de su efectividad en redes neuronales convolucionales preentrenadas.

Contribuciones Principales

  1. Estudio Comparativo Multimodal: Comparación sistemática del desempeño de RGB, imágenes térmicas y modalidades combinadas en la tarea de detección de derrames
  2. Verificación de Ventajas de Imágenes Térmicas: Demostración de las ventajas de las imágenes térmicas en velocidad de inferencia, precisión y tamaño del modelo
  3. Desarrollo de Sistema Práctico: Desarrollo de un sistema de detección de derrames en tiempo real basado en hardware de consumo
  4. Construcción de Conjunto de Datos: Creación de un conjunto de datos balanceado de clasificación binaria con 4,000 imágenes que abarca múltiples líquidos y entornos
  5. Evaluación del Desempeño del Modelo: Evaluación y comparación exhaustiva del desempeño de múltiples modelos preentrenados

Explicación Detallada de Métodos

Definición de la Tarea

Entrada: Flujo de imágenes de cámaras RGB y de imágenes térmicas Salida: Resultado de clasificación binaria (derrame/no-derrame) Restricciones: Requisitos de tiempo real (baja latencia), modelo ligero (apto para implementación)

Principios de la Tecnología de Imágenes Térmicas

Ventajas Físicas

  1. Contraste de Temperatura: Las cámaras de imágenes térmicas miden la radiación infrarroja de onda larga emitida por la superficie, siendo la señal proporcional a la temperatura y emisividad de la superficie
  2. Características Térmicas:
    • Los líquidos (bebidas calientes o frías) tienen temperaturas diferentes a la del piso ambiental, produciendo contraste térmico detectable
    • Los líquidos tienen mayor capacidad calorífica específica (como el agua con 4.186 J/g°C), con inercia térmica diferente a los materiales del piso sólido
    • La evaporación y transferencia de calor producen gradientes característicos en los bordes del derrame
  3. Diferencias de Emisividad: Los líquidos y materiales comunes de piso (cerámica, madera) tienen emisividades diferentes
  4. Independencia de Iluminación: Las imágenes térmicas detectan radiación infrarroja emitida en lugar de luz visible reflejada, siendo efectivas bajo iluminación baja y condiciones de deslumbramiento

Casos de Fallo

  1. Equilibrio Térmico: Cuando el líquido derramado y el piso tienen la misma temperatura y emisividad similar
  2. Películas de Líquido Delgadas: Con intercambio de calor rápido con el piso, alcanzando rápidamente el equilibrio
  3. Interferencia Ambiental: Fuentes de calor cercanas, luz solar, equipos mecánicos cálidos producen ruido térmico
  4. Artefactos de Reflexión: Reflexión de radiación térmica en superficies altamente reflectantes y conducción térmica en pisos multicapa

Sistema de Recopilación de Datos

Configuración de Hardware

  • Cámara de Imágenes Térmicas: Topdon TC001
  • Cámara RGB: Genius WideCam F100
  • Plataforma de Computación: Lenovo Legion Pro 7i con NVIDIA RTX 4080
  • Plataforma Robótica: Robot móvil equipado con doble cámara

Especificaciones del Conjunto de Datos

  • Volumen Total: 4,000 imágenes
  • Distribución: 2,000 imágenes de imágenes térmicas y RGB respectivamente, 2,000 derrames y no-derrames respectivamente
  • Tipos de Líquidos: Agua, cola, jugo rojo, jugo amarillo
  • Entornos: Atrium (piso de cerámica), J234 (piso de concreto pulido)
  • Tamaños de Derrame: Derrames pequeños con diámetro de 2-4 pulgadas, derrames grandes con diámetro hasta 12 pulgadas
  • Resolución: Imágenes térmicas 256×192, RGB 640×360, combinadas 512×192

Preprocesamiento de Datos

  1. División de Datos: 70-20-10 (entrenamiento-validación-prueba)
  2. Registro de Imágenes: Coincidencia de perspectivas RGB y de imágenes térmicas mediante recorte y transformación de perspectiva
  3. Fusión Multimodal: Concatenación lateral (imágenes térmicas a la izquierda, RGB a la derecha)

Arquitectura del Modelo y Entrenamiento

Selección de Modelos Preentrenados

Evaluación de múltiples arquitecturas CNN preentrenadas: VGG19, ResNet50, serie EfficientNet, InceptionV3, DenseNet121, NasNetMobile, entre otros

Estrategia de Entrenamiento

  • Estrategia de Ajuste Fino: Ajuste fino de las últimas 5 capas
  • Optimizador: RMSprop (lr=1e-5)
  • Función de Pérdida: Entropía cruzada binaria
  • Mecanismo de Parada Temprana: patience=5
  • Tamaño de Lote: Entrenamiento/validación 8, prueba 2
  • Aumento de Datos: Volteo horizontal, rotación ligera (factor=0.01), cambio de contraste (factor=0.01)

Configuración Experimental

Detalles del Conjunto de Datos

  • Condiciones Ambientales: Atrium mantiene iluminación consistente, J234 con iluminación natural dinámica
  • Selección de Líquidos: Abarca líquidos con diferentes temperaturas y propiedades ópticas
  • Ángulos de Captura: Múltiples posiciones y ángulos, aislando fuentes de calor ambiental

Métricas de Evaluación

  1. Precisión de Prueba: Precisión de clasificación en el conjunto de prueba
  2. Precisión de Demostración en Tiempo Real: Precisión durante la implementación real
  3. Tiempo de Inferencia: Costo de tiempo de una única inferencia
  4. Tamaño del Modelo: Tamaño del archivo del modelo

Diseño Experimental

  1. Comparación de Modalidades: RGB vs imágenes térmicas vs modalidad combinada
  2. Combinaciones Ambiente-Líquido: Evaluación del desempeño de 8 combinaciones
  3. Comparación de Arquitecturas de Modelo: Comparación del desempeño de 11 modelos preentrenados

Resultados Experimentales

Resultados Principales

Comparación de Modalidades (VGG19)

Tipo de ImagenPrecisión de PruebaPrecisión de DemostraciónTamaño del ModeloTiempo de Inferencia
Imágenes Térmicas100%100%324.6 MB44 ms
RGB98.84%100%1.0 GB55 ms
Combinada100%60%525.9 MB47 ms

Desempeño de Imágenes Térmicas-VGG19 por Combinación

Todas las 8 combinaciones de sala-líquido alcanzaron:

  • Precisión de Prueba: 100%
  • Precisión de Demostración: 100%
  • Tamaño del Modelo: 324.6 MB
  • Tiempo de Inferencia: 44-45 ms

Comparación de Múltiples Arquitecturas de Modelo

ModeloPrecisión de PruebaPrecisión de DemostraciónTamaño del ModeloTiempo de Inferencia
VGG19100%100%324.6 MB46 ms
ResNet5099.66%---
EfficientNetB399.15%---
NasNetMobile100%100%440.3 MB55 ms
InceptionV398.88%---

Hallazgos Clave

  1. Ventajas Evidentes de Imágenes Térmicas:
    • Velocidad de inferencia más rápida (44ms vs 55ms)
    • Tamaño de modelo más pequeño (324.6MB vs 1.0GB)
    • Mejor desempeño en implementación en tiempo real
  2. VGG19 como Opción Óptima:
    • Entre los modelos que alcanzan precisión del 100%, VGG19 es 9ms más rápido que NasNetMobile
    • Tamaño de modelo 115.7MB más pequeño
  3. Robustez Ambiental: Los modelos de imágenes térmicas mantienen precisión del 100% en diferentes salas y tipos de líquidos
  4. Limitaciones de Modalidad Combinada: Aunque la precisión de prueba es alta, la precisión de demostración en tiempo real es solo del 60%

Trabajo Relacionado

Métodos de Visión RGB/RGB-D

  • Bhutad y Patil: Publicación de conjunto de datos de 1,976 imágenes anotadas de agua estancada y superficies mojadas
  • Gawdzik y Orłowski: Uso de Mask R-CNN para detectar y segmentar líquidos derramados en entornos industriales
  • Yang et al.: Propuesta de marco RGB-D polarizado que fusiona información de color, polarización y profundidad

Detección de Líquidos con Imágenes Térmicas

  • Appuhamy et al.: Desarrollo de método de mapeo de humedad de superficie basado en cámara térmica
  • Bao et al.: Diseño de sistema de doble cámara infrarroja y visible para detectar fugas de tuberías
  • Zhang & Zhang: Entrada de imágenes térmicas en CNN para monitoreo de fugas de tuberías

Sistemas Híbridos Multimodales

Los métodos existentes adoptan principalmente fusión diseñada manualmente o canalizaciones multietapa, mientras que este artículo adopta aprendizaje CNN de extremo a extremo en datos multimodales.

Modelos Ligeros en Tiempo Real

  • Bouguettaya et al.: Revisión de CNN móviles, MobileNet alcanza 28 FPS en Jetson TX2
  • Este artículo se enfoca en evaluar la viabilidad de redes preentrenadas en hardware de consumo

Conclusiones y Discusión

Conclusiones Principales

En entornos con condiciones de iluminación diversas y fuentes de calor ambiental aisladas, el modelo de clasificación de imágenes VGG19 entrenado con imágenes térmicas proporciona el mejor desempeño en términos de tiempo de inferencia, precisión de prueba y precisión de implementación en tiempo real.

Limitaciones

  1. Sensibilidad a Fuentes de Calor Ambiental: Se requiere aislamiento de fuentes de calor ambiental para lograr desempeño óptimo
  2. Problema de Equilibrio Térmico: Los derrames prolongados pueden alcanzar equilibrio térmico con el piso, siendo difíciles de detectar
  3. Escala del Conjunto de Datos: El conjunto de datos de 4,000 imágenes es relativamente pequeño
  4. Restricciones Ambientales: Solo se ha probado en dos entornos interiores

Direcciones Futuras

  1. Pruebas en Entornos No Aislados: Experimentación bajo condiciones con flujo de peatones y otras fuentes de calor ambiental
  2. Exploración de Métodos de Integración: Métodos de integración que fusionen características RGB y térmicas, utilizando RGB para corregir clasificaciones erróneas causadas por fuentes de calor ambiental en imágenes térmicas
  3. Validación a Mayor Escala: Verificación del desempeño del sistema en entornos y condiciones más diversas

Evaluación Profunda

Fortalezas

  1. Comparación Sistemática: Comparación exhaustiva del desempeño de diferentes modalidades y arquitecturas de modelo, proporcionando orientación clara para aplicaciones prácticas
  2. Fuerte Practicidad: Logro de desempeño en tiempo real en hardware de consumo, con fuerte valor de implementación práctica
  3. Base Teórica Sólida: Análisis detallado de las ventajas físicas y mecanismos de fallo de las imágenes térmicas en detección de derrames
  4. Diseño Experimental Razonable: Abarca múltiples tipos de líquidos, condiciones ambientales y dimensiones de evaluación
  5. Resultados Convincentes: Precisión del 100% y tiempo de inferencia de 44ms demuestran la efectividad del método

Deficiencias

  1. Limitación de Escala del Conjunto de Datos: 4,000 imágenes son relativamente pequeñas para aprendizaje profundo, con posible riesgo de sobreajuste
  2. Condiciones Ambientales Limitadas: Solo se ha probado bajo condiciones ideales con fuentes de calor ambiental aisladas, siendo más complejos los escenarios de aplicación real
  3. Verificación Insuficiente de Capacidad de Generalización: Solo se ha probado en dos entornos interiores, siendo desconocida la adaptabilidad a entornos exteriores u otros tipos
  4. Falta de Evaluación de Estabilidad a Largo Plazo: Ausencia de evaluación de estabilidad y confiabilidad durante operación prolongada
  5. Falta de Análisis de Costo-Beneficio: No se proporciona análisis del equilibrio entre costo de equipos de imágenes térmicas y mejora de desempeño

Impacto

  1. Contribución Académica: Proporciona experiencia valiosa para fusión multimodal en visión por computadora aplicada a seguridad
  2. Valor Práctico: Proporciona solución técnica viable para sistemas de monitoreo de seguridad en entornos comerciales e industriales
  3. Reproducibilidad: Proporciona configuración experimental detallada y repositorio de código GitHub, facilitando reproducción y extensión

Escenarios Aplicables

  1. Entornos Comerciales Interiores: Restaurantes, cafeterías, tiendas minoristas y otros lugares que requieren monitoreo de seguridad en tiempo real
  2. Monitoreo de Seguridad Industrial: Plantas químicas, almacenes y otros entornos industriales que requieren detección de fugas de líquidos
  3. Navegación de Robots Móviles: Robots móviles que necesitan identificar obstáculos en el piso y zonas de peligro
  4. Edificios Inteligentes: Integración en sistemas de gestión de edificios para monitoreo de seguridad preventiva

Referencias

El artículo cita 11 referencias relacionadas que abarcan detección con imágenes térmicas, métodos de visión RGB, fusión multimodal y modelos ligeros, proporcionando base teórica suficiente y puntos de referencia comparativos para la investigación.


Evaluación General: Este es un artículo de investigación aplicada con fuerte practicidad que verifica sistemáticamente mediante experimentación las ventajas de las imágenes térmicas en la tarea de detección de derrames. Aunque presenta limitaciones en escala de datos y complejidad ambiental, sus conclusiones claras y diseño de sistema práctico proporcionan referencias valiosas para aplicaciones relacionadas.