2025-11-22T05:58:16.782547

Detecting spills using thermal imaging, pretrained deep learning models, and a robotic platform

Yeghiyan, Azar, Butani et al.
This paper presents a real-time spill detection system that utilizes pretrained deep learning models with RGB and thermal imaging to classify spill vs. no-spill scenarios across varied environments. Using a balanced binary dataset (4,000 images), our experiments demonstrate the advantages of thermal imaging in inference speed, accuracy, and model size. We achieve up to 100% accuracy using lightweight models like VGG19 and NasNetMobile, with thermal models performing faster and more robustly across different lighting conditions. Our system runs on consumer-grade hardware (RTX 4080) and achieves inference times as low as 44 ms with model sizes under 350 MB, highlighting its deployability in safety-critical contexts. Results from experiments with a real robot and test datasets indicate that a VGG19 model trained on thermal imaging performs best.
academic

Rilevamento di versamenti utilizzando imaging termico, modelli di deep learning preaddestrati e una piattaforma robotica

Informazioni Fondamentali

  • ID Articolo: 2510.08770
  • Titolo: Detecting spills using thermal imaging, pretrained deep learning models, and a robotic platform
  • Autori: Gregory Yeghiyan (Stevenson High School), Jurius Azar (Manoogian High School), Devson Butani (Lawrence Technological University), Chan-Jin Chung (Lawrence Technological University)
  • Classificazione: cs.CV (Computer Vision), cs.LG (Machine Learning), cs.RO (Robotics)
  • Data di Pubblicazione: 2025
  • Link Articolo: https://arxiv.org/abs/2510.08770

Riassunto

Questo articolo propone un sistema di rilevamento dei versamenti in tempo reale che utilizza modelli di deep learning preaddestrati combinati con tecniche di imaging RGB e termico per classificare scenari di versamento e non-versamento in diversi ambienti. Utilizzando un dataset bilanciato di classificazione binaria (4.000 immagini), gli esperimenti dimostrano i vantaggi dell'imaging termico in termini di velocità di inferenza, accuratezza e dimensione del modello. Modelli leggeri come VGG19 e NasNetMobile hanno raggiunto un'accuratezza fino al 100%, con i modelli di imaging termico che mostrano prestazioni più veloci e robuste in diverse condizioni di illuminazione. Il sistema funziona su hardware consumer (RTX 4080) con tempi di inferenza inferiori a 44 millisecondi e dimensioni del modello non superiori a 350MB, evidenziando la sua implementabilità in applicazioni critiche per la sicurezza.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il rilevamento dei versamenti è cruciale per la sicurezza pubblica in ambienti dinamici (come caffetterie, ristoranti, spazi commerciali), poiché i versamenti non rilevati tempestivamente causano frequentemente incidenti di scivolamento e lesioni.

Importanza del Problema

  1. Esigenze di Sicurezza: I versamenti negli spazi pubblici sono una causa principale di lesioni accidentali
  2. Requisiti di Tempo Reale: È necessaria una risposta rapida per prevenire incidenti
  3. Adattabilità Ambientale: Il sistema deve funzionare stabilmente in varie condizioni di illuminazione e ambientali

Limitazioni dei Metodi Esistenti

  1. Metodi di Rilevamento Tradizionali: Dipendono da hardware invasivo con ritardi nei tempi di risposta
  2. Sistemi di Visione RGB: Sono facilmente influenzati da variazioni di illuminazione e riflessi superficiali
  3. Scarsa Adattabilità ad Ambienti Complessi: Le prestazioni diminuiscono in condizioni di bassa illuminazione, abbagliamento o riflessi complessi

Motivazione della Ricerca

Integrare la tecnologia di imaging termico e valutare la sua efficacia nelle reti neurali convoluzionali preaddestrate per realizzare il rilevamento dei versamenti in tempo reale, accurato e leggero.

Contributi Principali

  1. Studio Comparativo Multimodale: Confronto sistematico delle prestazioni di RGB, imaging termico e modalità combinate nel compito di rilevamento dei versamenti
  2. Verifica dei Vantaggi dell'Imaging Termico: Dimostrazione dei vantaggi dell'imaging termico in termini di velocità di inferenza, accuratezza e dimensione del modello
  3. Sviluppo di Sistema Pratico: Sviluppo di un sistema di rilevamento dei versamenti in tempo reale basato su hardware consumer
  4. Costruzione del Dataset: Creazione di un dataset bilanciato di classificazione binaria con 4.000 immagini, coprendo diversi liquidi e ambienti
  5. Valutazione delle Prestazioni del Modello: Valutazione e confronto completo delle prestazioni di molteplici modelli preaddestrati

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: Flusso di immagini da fotocamera RGB e fotocamera di imaging termico Output: Risultato di classificazione binaria (versamento/non-versamento) Vincoli: Requisiti di tempo reale (bassa latenza), modello leggero (adatto per l'implementazione)

Principi della Tecnologia di Imaging Termico

Vantaggi Fisici

  1. Contrasto Termico: Le fotocamere di imaging termico misurano la radiazione infrarossa a onde lunghe emessa dalla superficie, con il segnale proporzionale alla temperatura superficiale e all'emissività
  2. Caratteristiche Termiche:
    • I liquidi (bevande calde o fredde) hanno temperature diverse dal pavimento ambientale, producendo un contrasto termico rilevabile
    • I liquidi hanno capacità termica specifica più elevata (ad esempio l'acqua è 4,186 J/g°C), con inerzia termica diversa dai materiali del pavimento solido
    • L'evaporazione e il trasferimento di calore producono gradienti caratteristici ai bordi del versamento
  3. Differenze di Emissività: I liquidi e i materiali comuni del pavimento (piastrelle, legno) hanno emissività diverse
  4. Indipendenza dall'Illuminazione: L'imaging termico rileva la radiazione infrarossa emessa piuttosto che la luce visibile riflessa, rimanendo efficace in condizioni di bassa illuminazione e abbagliamento

Casi di Fallimento

  1. Equilibrio Termico: Quando il liquido versato e il pavimento hanno la stessa temperatura ed emissività simile
  2. Film di Liquido Sottile: Scambio termico rapido con il pavimento, raggiungendo rapidamente l'equilibrio
  3. Interferenze Ambientali: Sorgenti termiche vicine, luce solare, apparecchiature meccaniche calde producono rumore termico
  4. Artefatti di Riflessione: Riflessione della radiazione termica su superfici altamente riflettenti e conduzione termica su pavimenti multistrato

Sistema di Raccolta Dati

Configurazione Hardware

  • Fotocamera di Imaging Termico: Topdon TC001
  • Fotocamera RGB: Genius WideCam F100
  • Piattaforma di Calcolo: Lenovo Legion Pro 7i con NVIDIA RTX 4080
  • Piattaforma Robotica: Robot mobile equipaggiato con doppia fotocamera

Specifiche del Dataset

  • Volume Totale: 4.000 immagini
  • Distribuzione: 2.000 immagini ciascuna per imaging termico e RGB, 2.000 versamenti e 2.000 non-versamenti
  • Tipi di Liquido: Acqua, cola, succo rosso, succo giallo
  • Ambienti: Atrium (pavimento in piastrelle), J234 (pavimento in cemento lucidato)
  • Dimensioni dei Versamenti: Versamenti piccoli con diametro 2-4 pollici, versamenti grandi fino a 12 pollici di diametro
  • Risoluzione: Imaging termico 256×192, RGB 640×360, combinato 512×192

Preprocessing dei Dati

  1. Divisione dei Dati: 70-20-10 (addestramento-validazione-test)
  2. Registrazione delle Immagini: Corrispondenza della prospettiva RGB e imaging termico attraverso ritaglio e trasformazione prospettica
  3. Fusione Multimodale: Concatenamento laterale (imaging termico a sinistra, RGB a destra)

Architettura del Modello e Addestramento

Selezione di Modelli Preaddestrati

Valutazione di molteplici architetture CNN preaddestrate: VGG19, ResNet50, serie EfficientNet, InceptionV3, DenseNet121, NasNetMobile, ecc.

Strategia di Addestramento

  • Strategia di Fine-tuning: Fine-tuning degli ultimi 5 strati
  • Ottimizzatore: RMSprop (lr=1e-5)
  • Funzione di Perdita: Entropia incrociata binaria
  • Meccanismo di Early Stopping: patience=5
  • Dimensione del Batch: Addestramento/validazione 8, test 2
  • Aumento dei Dati: Capovolgimento orizzontale, rotazione leggera (factor=0.01), variazione di contrasto (factor=0.01)

Configurazione Sperimentale

Dettagli del Dataset

  • Condizioni Ambientali: Atrium mantiene illuminazione coerente, J234 con illuminazione naturale dinamica
  • Selezione di Liquidi: Copertura di liquidi con diverse temperature e proprietà ottiche
  • Angoli di Acquisizione: Molteplici posizioni e angoli, isolamento delle sorgenti termiche ambientali

Metriche di Valutazione

  1. Accuratezza di Test: Accuratezza di classificazione sul set di test
  2. Accuratezza di Dimostrazione in Tempo Reale: Accuratezza durante l'implementazione effettiva
  3. Tempo di Inferenza: Overhead temporale di una singola inferenza
  4. Dimensione del Modello: Dimensione del file del modello

Progettazione Sperimentale

  1. Confronto Modale: RGB vs imaging termico vs modalità combinata
  2. Combinazioni Ambiente-Liquido: Valutazione delle prestazioni di 8 combinazioni
  3. Confronto Architetture di Modelli: Confronto delle prestazioni di 11 modelli preaddestrati

Risultati Sperimentali

Risultati Principali

Confronto Modale (VGG19)

Tipo di ImmagineAccuratezza di TestAccuratezza di DimostrazioneDimensione ModelloTempo di Inferenza
Imaging Termico100%100%324,6 MB44 ms
RGB98,84%100%1,0 GB55 ms
Combinato100%60%525,9 MB47 ms

Prestazioni di Imaging Termico-VGG19 per Tutte le Combinazioni

Tutte le 8 combinazioni stanza-liquido hanno raggiunto:

  • Accuratezza di Test: 100%
  • Accuratezza di Dimostrazione: 100%
  • Dimensione Modello: 324,6 MB
  • Tempo di Inferenza: 44-45 ms

Confronto di Molteplici Architetture di Modelli

ModelloAccuratezza di TestAccuratezza di DimostrazioneDimensione ModelloTempo di Inferenza
VGG19100%100%324,6 MB46 ms
ResNet5099,66%---
EfficientNetB399,15%---
NasNetMobile100%100%440,3 MB55 ms
InceptionV398,88%---

Scoperte Chiave

  1. Vantaggi Evidenti dell'Imaging Termico:
    • Velocità di inferenza più veloce (44ms vs 55ms)
    • Dimensione del modello più piccola (324,6MB vs 1,0GB)
    • Prestazioni di implementazione in tempo reale migliori
  2. VGG19 è la Scelta Ottimale:
    • Tra i modelli che raggiungono il 100% di accuratezza, VGG19 è 9ms più veloce di NasNetMobile
    • Dimensione del modello inferiore di 115,7MB
  3. Robustezza Ambientale: I modelli di imaging termico mantengono il 100% di accuratezza in diverse stanze e tipi di liquido
  4. Limitazioni della Modalità Combinata: Sebbene l'accuratezza di test sia elevata, l'accuratezza di dimostrazione in tempo reale è solo del 60%

Lavori Correlati

Metodi di Visione RGB/RGB-D

  • Bhutad e Patil: Pubblicazione di un dataset di 1.976 immagini annotate di ristagni e superfici bagnate
  • Gawdzik e Orłowski: Utilizzo di Mask R-CNN per rilevare e segmentare liquidi versati in ambienti industriali
  • Yang et al.: Proposta di un framework RGB-D polarizzato che fonde informazioni di colore, polarizzazione e profondità

Rilevamento di Liquidi con Imaging Termico

  • Appuhamy et al.: Sviluppo di un metodo di mappatura dell'umidità superficiale basato su fotocamera termica
  • Bao et al.: Progettazione di un sistema a doppia fotocamera infrarossa e visibile per rilevare perdite di tubazioni
  • Zhang & Zhang: Inserimento di immagini termiche in CNN per il monitoraggio delle perdite di tubazioni

Sistemi Ibridi Multimodali

I metodi esistenti adottano principalmente fusioni progettate manualmente o pipeline multistadio, mentre questo articolo utilizza l'apprendimento CNN end-to-end su dati multimodali.

Modelli Leggeri in Tempo Reale

  • Bouguettaya et al.: Indagine su CNN mobili, MobileNet può raggiungere 28 FPS su Jetson TX2
  • Questo articolo si concentra sulla valutazione della fattibilità di reti preaddestrate su hardware consumer

Conclusioni e Discussione

Conclusioni Principali

In ambienti con diverse condizioni di illuminazione e sorgenti termiche ambientali isolate, il modello di classificazione delle immagini VGG19 addestrato su imaging termico fornisce le migliori prestazioni in termini di tempo di inferenza, accuratezza di test e accuratezza di implementazione in tempo reale.

Limitazioni

  1. Sensibilità alle Sorgenti Termiche Ambientali: È necessario isolare le sorgenti termiche ambientali per ottenere prestazioni ottimali
  2. Problema dell'Equilibrio Termico: I versamenti prolungati possono raggiungere l'equilibrio termico con il pavimento e diventare difficili da rilevare
  3. Dimensione del Dataset: Il dataset di 4.000 immagini è relativamente piccolo
  4. Limitazioni Ambientali: Testato solo in due ambienti interni

Direzioni Future

  1. Test in Ambienti Non Isolati: Esperimenti in condizioni con flusso di persone e altre sorgenti termiche ambientali
  2. Esplorazione di Metodi di Ensemble: Metodi di ensemble che fondono caratteristiche RGB e termiche, utilizzando RGB per correggere le classificazioni errate dovute a sorgenti termiche ambientali nell'imaging termico
  3. Validazione su Scala Più Ampia: Verifica delle prestazioni del sistema in ambienti e condizioni più diversificate

Valutazione Approfondita

Punti di Forza

  1. Confronto Sistematico: Confronto completo delle prestazioni di diverse modalità e architetture di modelli, fornendo una guida chiara per le applicazioni pratiche
  2. Forte Praticità: Realizzazione di prestazioni in tempo reale su hardware consumer con forte valore di implementazione pratica
  3. Fondamenti Teorici Solidi: Analisi dettagliata dei vantaggi fisici e dei meccanismi di fallimento dell'imaging termico nel rilevamento dei versamenti
  4. Progettazione Sperimentale Ragionevole: Copertura di molteplici tipi di liquido, condizioni ambientali e dimensioni di valutazione
  5. Risultati Convincenti: L'accuratezza del 100% e il tempo di inferenza di 44ms dimostrano l'efficacia del metodo

Insufficienze

  1. Limitazione della Dimensione del Dataset: 4.000 immagini sono relativamente piccole per il deep learning, con possibile rischio di overfitting
  2. Condizioni Ambientali Limitate: Testato solo in condizioni ideali con sorgenti termiche ambientali isolate, gli scenari di applicazione reale potrebbero essere più complessi
  3. Capacità di Generalizzazione Non Completamente Verificata: Testato solo in due ambienti interni, l'adattabilità ad ambienti esterni o di altro tipo è sconosciuta
  4. Stabilità a Lungo Termine Non Valutata: Mancanza di valutazione della stabilità e dell'affidabilità dell'operazione a lungo termine
  5. Analisi Costi-Benefici Mancante: Mancanza di analisi del compromesso tra costi dell'apparecchiatura di imaging termico e miglioramento delle prestazioni

Impatto

  1. Contributo Accademico: Fornisce un'esperienza preziosa per la fusione multimodale nella visione artificiale in applicazioni di sicurezza
  2. Valore Pratico: Fornisce una soluzione tecnica fattibile per i sistemi di monitoraggio della sicurezza in ambienti commerciali e industriali
  3. Riproducibilità: Fornisce configurazione sperimentale dettagliata e repository GitHub per facilitare la riproduzione e l'estensione

Scenari Applicabili

  1. Ambienti Commerciali Interni: Ristoranti, caffetterie, negozi al dettaglio e altri luoghi che richiedono monitoraggio della sicurezza in tempo reale
  2. Monitoraggio della Sicurezza Industriale: Impianti chimici, magazzini e altri ambienti industriali che richiedono il rilevamento di perdite di liquidi
  3. Navigazione Robotica: Robot mobili che necessitano di identificare ostacoli e zone pericolose sul pavimento
  4. Edifici Intelligenti: Integrazione nei sistemi di gestione degli edifici per il monitoraggio della sicurezza preventiva

Bibliografia

L'articolo cita 11 articoli correlati, coprendo lavori importanti nei campi del rilevamento con imaging termico, metodi di visione RGB, fusione multimodale e modelli leggeri, fornendo una base teorica sufficiente e benchmark di confronto per la ricerca.


Valutazione Complessiva: Questo è un articolo di ricerca applicata con forte praticità che verifica sistematicamente i vantaggi dell'imaging termico nel compito di rilevamento dei versamenti. Sebbene presenti limitazioni nella scala dei dati e nella complessità ambientale, le sue conclusioni chiare e la progettazione pratica del sistema forniscono riferimenti preziosi per applicazioni correlate.