This paper presents a real-time spill detection system that utilizes pretrained deep learning models with RGB and thermal imaging to classify spill vs. no-spill scenarios across varied environments. Using a balanced binary dataset (4,000 images), our experiments demonstrate the advantages of thermal imaging in inference speed, accuracy, and model size. We achieve up to 100% accuracy using lightweight models like VGG19 and NasNetMobile, with thermal models performing faster and more robustly across different lighting conditions. Our system runs on consumer-grade hardware (RTX 4080) and achieves inference times as low as 44 ms with model sizes under 350 MB, highlighting its deployability in safety-critical contexts. Results from experiments with a real robot and test datasets indicate that a VGG19 model trained on thermal imaging performs best.
- Paper-ID: 2510.08770
- Titel: Detecting spills using thermal imaging, pretrained deep learning models, and a robotic platform
- Autoren: Gregory Yeghiyan (Stevenson High School), Jurius Azar (Manoogian High School), Devson Butani (Lawrence Technological University), Chan-Jin Chung (Lawrence Technological University)
- Klassifizierung: cs.CV (Computervision), cs.LG (Maschinelles Lernen), cs.RO (Robotik)
- Veröffentlichungsjahr: 2025
- Paper-Link: https://arxiv.org/abs/2510.08770
Dieses Paper präsentiert ein Echtzeit-Verschüttungserkennungssystem, das vortrainierte Deep-Learning-Modelle in Kombination mit RGB- und Wärmbildgebung nutzt, um Verschüttungs- und Nicht-Verschüttungsszenarien in verschiedenen Umgebungen zu klassifizieren. Mit einem ausgewogenen binären Klassifizierungsdatensatz (4.000 Bilder) demonstrieren Experimente die Vorteile der Wärmbildgebung in Bezug auf Inferenzgeschwindigkeit, Genauigkeit und Modellgröße. Mit leichtgewichtigen Modellen wie VGG19 und NasNetMobile wurde eine Genauigkeit von bis zu 100% erreicht, wobei Wärmbildmodelle unter verschiedenen Lichtverhältnissen schneller und robuster arbeiten. Das System läuft auf Consumer-Hardware (RTX 4080) mit Inferenzzeiten von nur 44 Millisekunden und Modellgrößen unter 350 MB und unterstreicht damit seine Einsatzbarkeit in sicherheitskritischen Anwendungen.
Die Erkennung von Verschüttungen ist für die öffentliche Sicherheit in dynamischen Umgebungen (wie Cafés, Restaurants, Einzelhandelsflächen) von entscheidender Bedeutung, da nicht rechtzeitig erkannte Verschüttungen häufig zu Sturz- und Verletzungsunfällen führen.
- Sicherheitsanforderungen: Verschüttungen an öffentlichen Orten sind eine Hauptursache für Unfallverletzungen
- Echtzeitanforderungen: Schnelle Reaktion erforderlich, um Unfälle zu verhindern
- Umgebungsadaptivität: System muss unter verschiedenen Lichtverhältnissen und Umgebungsbedingungen stabil funktionieren
- Traditionelle Erkennungsmethoden: Abhängig von invasiver Hardware mit verzögerter Reaktionszeit
- RGB-Visionssysteme: Anfällig für Lichtwechsel und Oberflächenreflexionen
- Schlechte Anpassung an komplexe Umgebungen: Leistungsabfall bei schwachem Licht, Blendung oder komplexen Reflexionsbedingungen
Durch die Integration von Wärmbildgebung und Bewertung ihrer Wirksamkeit in vortrainierten Faltungsneuronalen Netzen soll eine Echtzeit-, genaue und leichtgewichtige Verschüttungserkennung erreicht werden.
- Multimodale Vergleichsstudie: Systematischer Vergleich der Leistung von RGB, Wärmbildgebung und kombinierten Modalitäten bei der Verschüttungserkennung
- Validierung der Wärmbildvorteile: Nachweis der Überlegenheit der Wärmbildgebung in Inferenzgeschwindigkeit, Genauigkeit und Modellgröße
- Entwicklung eines praktischen Systems: Entwicklung eines Echtzeit-Verschüttungserkennungssystems basierend auf Consumer-Hardware
- Datensatzkonstruktion: Erstellung eines ausgewogenen binären Klassifizierungsdatensatzes mit 4.000 Bildern, der verschiedene Flüssigkeiten und Umgebungen abdeckt
- Modellleistungsbewertung: Umfassende Leistungsbewertung und Vergleich mehrerer vortrainierter Modelle
Eingabe: Bildstrom von RGB-Kamera und Wärmbildkamera
Ausgabe: Binäres Klassifizierungsergebnis (Verschüttung/Keine Verschüttung)
Einschränkungen: Echtzeitanforderung (niedrige Latenz), leichtgewichtiges Modell (für Bereitstellung geeignet)
- Temperaturkontrast: Wärmbildkameras messen die von der Oberfläche emittierte Langwellen-Infrarotstrahlung, wobei das Signal proportional zur Oberflächentemperatur und Emissivität ist
- Thermische Merkmale:
- Flüssigkeiten (heiße oder kalte Getränke) unterscheiden sich in der Temperatur vom Umgebungsboden und erzeugen erkennbaren Wärmekontrast
- Flüssigkeiten haben höhere spezifische Wärmekapazität (z.B. Wasser 4,186 J/g°C), thermische Trägheit unterscheidet sich von Bodenmaterialien
- Verdunstung und Wärmeleitung erzeugen charakteristische Gradienten an Verschüttungsgrenzen
- Emissivitätsunterschiede: Unterschiedliche Emissivität zwischen Flüssigkeiten und häufigen Bodenmaterialien (Fliesen, Holz)
- Lichtverhältnisse-Unabhängigkeit: Wärmbildgebung erfasst emittierte Infrarotstrahlung statt reflektiertes sichtbares Licht und funktioniert auch bei schwachem Licht und Blendung
- Thermisches Gleichgewicht: Wenn Verschüttungsflüssigkeit und Boden die gleiche Temperatur und ähnliche Emissivität haben
- Dünne Flüssigkeitsschicht: Schneller Wärmeaustausch mit Boden, schnelle Gleichgewichtseinstellung
- Umgebungsstörungen: Nahegelegene Wärmequellen, Sonnenlicht, warme Geräte erzeugen Wärmestörungen
- Reflexionsartefakte: Wärmestrahlung und Wärmeleitung auf hochreflektiven Oberflächen und mehrschichtigen Böden
- Wärmbildkamera: Topdon TC001
- RGB-Kamera: Genius WideCam F100
- Rechenplattform: Lenovo Legion Pro 7i mit NVIDIA RTX 4080
- Roboterplattform: Mobile Roboter mit Doppelkamera
- Gesamtmenge: 4.000 Bilder
- Verteilung: Je 2.000 Bilder für RGB und Wärmbildgebung, je 2.000 für Verschüttung und Nicht-Verschüttung
- Flüssigkeitstypen: Wasser, Cola, rote Fruchtsaft, gelber Fruchtsaft
- Umgebungen: Atrium (Fliesenboden), J234 (polierter Betonboden)
- Verschüttungsgröße: Kleine Verschüttungen mit 2-4 Zoll Durchmesser, große Verschüttungen bis 12 Zoll Durchmesser
- Auflösung: Wärmbildgebung 256×192, RGB 640×360, kombiniert 512×192
- Datenteilung: 70-20-10 (Training-Validierung-Test)
- Bildregistrierung: Anpassung von RGB- und Wärmbildperspektiven durch Zuschnitt und perspektivische Transformation
- Multimodale Fusion: Seitliche Verkettung (Wärmbildgebung links, RGB rechts)
Bewertung mehrerer vortrainierter CNN-Architekturen: VGG19, ResNet50, EfficientNet-Serie, InceptionV3, DenseNet121, NasNetMobile usw.
- Fine-Tuning-Strategie: Feinabstimmung der letzten 5 Schichten
- Optimierer: RMSprop (lr=1e-5)
- Verlustfunktion: Binäre Kreuzentropie
- Early-Stopping-Mechanismus: patience=5
- Batch-Größe: Training/Validierung 8, Test 2
- Datenerweiterung: Horizontale Spiegelung, leichte Rotation (factor=0,01), Kontraständerung (factor=0,01)
- Umgebungsbedingungen: Atrium mit konsistenter Beleuchtung, J234 mit dynamischer natürlicher Beleuchtung
- Flüssigkeitsauswahl: Flüssigkeiten mit unterschiedlichen Temperaturen und optischen Eigenschaften
- Erfassungswinkel: Mehrere Positionen und Winkel mit Isolierung von Umgebungswärmequellen
- Test-Genauigkeit: Klassifizierungsgenauigkeit auf dem Testdatensatz
- Live-Demo-Genauigkeit: Genauigkeit bei tatsächlicher Bereitstellung
- Inferenzzeit: Zeitaufwand für einzelne Inferenz
- Modellgröße: Größe der Modelldatei
- Modalitätsvergleich: RGB vs. Wärmbildgebung vs. kombinierte Modalität
- Umgebungs-Flüssigkeits-Kombinationen: Leistungsbewertung von 8 Kombinationen
- Modellarchitektur-Vergleich: Leistungsvergleich von 11 vortrainierten Modellen
| Bildtyp | Test-Genauigkeit | Demo-Genauigkeit | Modellgröße | Inferenzzeit |
|---|
| Wärmbildgebung | 100% | 100% | 324,6 MB | 44 ms |
| RGB | 98,84% | 100% | 1,0 GB | 55 ms |
| Kombiniert | 100% | 60% | 525,9 MB | 47 ms |
Alle 8 Raum-Flüssigkeits-Kombinationen erreichten:
- Test-Genauigkeit: 100%
- Demo-Genauigkeit: 100%
- Modellgröße: 324,6 MB
- Inferenzzeit: 44-45 ms
| Modell | Test-Genauigkeit | Demo-Genauigkeit | Modellgröße | Inferenzzeit |
|---|
| VGG19 | 100% | 100% | 324,6 MB | 46 ms |
| ResNet50 | 99,66% | - | - | - |
| EfficientNetB3 | 99,15% | - | - | - |
| NasNetMobile | 100% | 100% | 440,3 MB | 55 ms |
| InceptionV3 | 98,88% | - | - | - |
- Deutliche Wärmbildvorteile:
- Schnellste Inferenzgeschwindigkeit (44 ms vs. 55 ms)
- Kleinste Modellgröße (324,6 MB vs. 1,0 GB)
- Beste Echtzeit-Bereitstellungsleistung
- VGG19 ist optimale Wahl:
- Unter Modellen mit 100% Genauigkeit ist VGG19 9 ms schneller als NasNetMobile
- Modellgröße 115,7 MB kleiner
- Umgebungsrobustheit: Wärmbildmodelle behalten 100% Genauigkeit über verschiedene Räume und Flüssigkeitstypen
- Einschränkungen kombinierter Modalität: Obwohl Test-Genauigkeit hoch ist, beträgt Live-Demo-Genauigkeit nur 60%
- Bhutad und Patil: Veröffentlichung eines Datensatzes mit 1.976 annotierten Bildern von Pfützen und nassen Oberflächen
- Gawdzik und Orłowski: Verwendung von Mask R-CNN zur Erkennung und Segmentierung verschütteter Flüssigkeiten in Industrieumgebungen
- Yang et al.: Vorschlag eines polarisierten RGB-D-Rahmens, der Farb-, Polarisations- und Tiefeinformationen fusioniert
- Appuhamy et al.: Entwicklung einer auf Wärmkamera basierenden Oberflächenfeuchtemessungsmethode
- Bao et al.: Entwurf eines Dual-Kamera-Systems aus Infrarot und sichtbarem Licht zur Rohrleckerkennung
- Zhang & Zhang: Eingabe von Wärmebildern in CNN zur Rohrleck-Überwachung
Bestehende Methoden verwenden überwiegend handwerklich gestaltete Fusion oder mehrstufige Pipelines; dieses Paper verwendet End-to-End-CNN-Lernen für multimodale Daten.
- Bouguettaya et al.: Überblick über mobile CNNs, MobileNet erreicht 28 FPS auf Jetson TX2
- Dieses Paper konzentriert sich auf die Bewertung der Machbarkeit vortrainierter Netzwerke auf Consumer-Hardware
In Umgebungen mit vielfältigen Lichtverhältnissen und isolierten Umgebungswärmequellen bietet ein auf Wärmbildgebung trainiertes VGG19-Bildklassifizierungsmodell die beste Leistung in Bezug auf Inferenzzeit, Test-Genauigkeit und Live-Bereitstellungsgenauigkeit.
- Empfindlichkeit gegenüber Umgebungswärmequellen: Isolierung von Umgebungswärmequellen erforderlich für optimale Leistung
- Thermisches Gleichgewichtsproblem: Langzeitverschüttungen können thermales Gleichgewicht mit Boden erreichen und sind schwer zu erkennen
- Datensatzgröße: Der Datensatz mit 4.000 Bildern ist für Deep Learning relativ klein
- Umgebungsbeschränkungen: Nur in zwei Innenumgebungen getestet
- Tests in nicht isolierten Umgebungen: Experimente unter Bedingungen mit Fußgängerverkehr und anderen Umgebungswärmequellen
- Erkundung von Ensemble-Methoden: Fusion von RGB- und Wärmmerkmalen mit Ensemble-Methoden, um RGB zur Korrektur von Fehlklassifizierungen durch Umgebungswärmequellen in der Wärmbildgebung zu nutzen
- Validierung in größerem Maßstab: Systemleistung in vielfältigeren Umgebungen und Bedingungen validieren
- Systematischer Vergleich: Umfassender Vergleich verschiedener Modalitäten und Modellarchitekturen bietet klare Anleitung für praktische Anwendungen
- Hohe Praktikabilität: Echtzeitleistung auf Consumer-Hardware mit starkem praktischem Bereitstellungswert
- Solide theoretische Grundlagen: Detaillierte Analyse der physikalischen Vorteile und Ausfallmechanismen der Wärmbildgebung bei der Verschüttungserkennung
- Angemessenes experimentelles Design: Abdeckung verschiedener Flüssigkeitstypen, Umgebungsbedingungen und Bewertungsdimensionen
- Überzeugende Ergebnisse: 100% Genauigkeit und 44 ms Inferenzzeit demonstrieren Methodenwirksamkeit
- Datensatzgrößenbeschränkung: 4.000 Bilder sind für Deep Learning relativ klein mit möglichem Überanpassungsrisiko
- Begrenzte Umgebungsbedingungen: Tests nur unter idealen Bedingungen mit isolierten Umgebungswärmequellen, praktische Szenarien möglicherweise komplexer
- Unzureichend validierte Generalisierungsfähigkeit: Tests nur in zwei Innenumgebungen, Adaptivität auf Außen- oder andere Umgebungstypen unbekannt
- Langzeitstabilität nicht bewertet: Fehlende Bewertung der Stabilität und Zuverlässigkeit bei längerfristigem Betrieb
- Fehlende Kosten-Nutzen-Analyse: Keine Analyse des Kompromisses zwischen Kosten der Wärmbildausrüstung und Leistungsverbesserung
- Akademischer Beitrag: Wertvolle Erfahrung für multimodale Fusion in Computervision für Sicherheitsanwendungen
- Praktischer Wert: Machbare technische Lösung für Sicherheitsüberwachungssysteme in kommerziellen und industriellen Umgebungen
- Reproduzierbarkeit: Detaillierte experimentelle Einrichtung und GitHub-Code-Repository ermöglichen Reproduktion und Erweiterung
- Innere kommerzielle Umgebungen: Restaurants, Cafés, Einzelhandelsflächen mit Bedarf für Echtzeit-Sicherheitsüberwachung
- Industrielle Sicherheitsüberwachung: Chemiefabriken, Lagerhäuser mit Bedarf für Flüssigkeitsleckerkennung
- Roboternavigation: Mobile Roboter zur Erkennung von Bodenobstakeln und Gefahrenzonen
- Intelligente Gebäude: Integration in Gebäudemanagementsysteme für präventive Sicherheitsüberwachung
Das Paper zitiert 11 relevante Literaturquellen, die Wärmbildgebungserkennung, RGB-Visionsmethoden, multimodale Fusion und leichtgewichtige Modelle abdecken und eine solide theoretische Grundlage und Vergleichsbenchmarks für die Forschung bieten.
Gesamtbewertung: Dies ist ein praktisch sehr starkes Anwendungsforschungspapier, das durch systematische Experimente die Vorteile der Wärmbildgebung bei der Verschüttungserkennung validiert. Obwohl es Einschränkungen in Datensatzgröße und Umgebungskomplexität gibt, bieten seine klaren Schlussfolgerungen und praktisches Systemdesign wertvolle Referenzen für verwandte Anwendungen.