This paper presents a real-time spill detection system that utilizes pretrained deep learning models with RGB and thermal imaging to classify spill vs. no-spill scenarios across varied environments. Using a balanced binary dataset (4,000 images), our experiments demonstrate the advantages of thermal imaging in inference speed, accuracy, and model size. We achieve up to 100% accuracy using lightweight models like VGG19 and NasNetMobile, with thermal models performing faster and more robustly across different lighting conditions. Our system runs on consumer-grade hardware (RTX 4080) and achieves inference times as low as 44 ms with model sizes under 350 MB, highlighting its deployability in safety-critical contexts. Results from experiments with a real robot and test datasets indicate that a VGG19 model trained on thermal imaging performs best.
- ID статьи: 2510.08770
- Название: Detecting spills using thermal imaging, pretrained deep learning models, and a robotic platform
- Авторы: Gregory Yeghiyan (Stevenson High School), Jurius Azar (Manoogian High School), Devson Butani (Lawrence Technological University), Chan-Jin Chung (Lawrence Technological University)
- Категории: cs.CV (Компьютерное зрение), cs.LG (Машинное обучение), cs.RO (Робототехника)
- Дата публикации: 2025
- Ссылка на статью: https://arxiv.org/abs/2510.08770
В данной работе предложена система обнаружения разливов в реальном времени, использующая предварительно обученные модели глубокого обучения в сочетании с RGB и тепловизионной визуализацией для классификации сценариев с разливами и без разливов в различных окружающих условиях. Экспериментальные результаты на сбалансированном бинарном наборе данных (4000 изображений) демонстрируют преимущества тепловизионной визуализации с точки зрения скорости вывода, точности и размера модели. Использование легких моделей, таких как VGG19 и NasNetMobile, позволило достичь точности до 100%, при этом тепловизионные модели показали более быструю и надежную работу при различных условиях освещения. Система работает на потребительском оборудовании (RTX 4080) с временем вывода всего 44 миллисекунды и размером модели не превышающим 350 МБ, что подчеркивает ее развертываемость в критичных по безопасности приложениях.
Обнаружение разливов имеет решающее значение для общественной безопасности в динамичных окружающих условиях (таких как кафе, рестораны, розничные помещения), поскольку несвоевременно обнаруженные разливы часто приводят к несчастным случаям со скольжением и травмам.
- Требования безопасности: Разливы в общественных местах являются основной причиной непредвиденных травм
- Требования реального времени: Необходимо быстрое реагирование для предотвращения несчастных случаев
- Адаптивность к окружающей среде: Система должна стабильно работать при различных условиях освещения и окружающей среды
- Традиционные методы обнаружения: Зависят от инвазивного оборудования с задержками в ответе
- RGB визуальные системы: Подвержены влиянию изменений освещения и отражений поверхности
- Плохая адаптивность к сложным окружающим условиям: Производительность снижается при низком освещении, бликах или сложных условиях отражения
Реализация обнаружения разливов в реальном времени, точного и легкого путем интеграции тепловизионной технологии и оценки ее эффективности в предварительно обученных сверточных нейронных сетях.
- Мультимодальное сравнительное исследование: Систематическое сравнение производительности RGB, тепловизионной визуализации и комбинированных модальностей в задаче обнаружения разливов
- Верификация преимуществ тепловизионной визуализации: Доказательство преимуществ тепловизионной визуализации с точки зрения скорости вывода, точности и размера модели
- Разработка практической системы: Разработка системы обнаружения разливов в реальном времени на основе потребительского оборудования
- Построение набора данных: Создание сбалансированного бинарного набора данных из 4000 изображений, охватывающего различные жидкости и окружающие условия
- Оценка производительности модели: Комплексная оценка и сравнение производительности множества предварительно обученных моделей
Входные данные: Поток изображений с RGB камеры и тепловизионной камеры
Выходные данные: Результат бинарной классификации (разлив/без разлива)
Ограничения: Требования реального времени (низкая задержка), легкие модели (пригодные для развертывания)
- Тепловой контраст: Тепловизионные камеры измеряют длинноволновое инфракрасное излучение, излучаемое поверхностью, сигнал пропорционален температуре поверхности и коэффициенту излучения
- Тепловые характеристики:
- Жидкости (горячие или холодные напитки) имеют температуру, отличную от температуры окружающего пола, создавая обнаруживаемый тепловой контраст
- Жидкости имеют более высокую удельную теплоемкость (например, вода 4,186 Дж/г°C), тепловая инерция отличается от материалов твердого пола
- Испарение и теплопередача создают характерные градиенты на границах разлива
- Различия в коэффициентах излучения: Жидкости и обычные материалы пола (керамическая плитка, дерево) имеют различные коэффициенты излучения
- Независимость от освещения: Тепловизионная визуализация регистрирует излучаемое инфракрасное излучение, а не отраженный видимый свет, оставаясь эффективной при низком освещении и бликах
- Тепловое равновесие: Когда разлитая жидкость и пол имеют одинаковую температуру и коэффициент излучения
- Тонкие пленки жидкости: Быстрый теплообмен с полом, быстрое достижение равновесия
- Помехи окружающей среды: Близлежащие источники тепла, солнечный свет, теплое оборудование создают тепловые помехи
- Артефакты отражения: Отражение теплового излучения от высокоотражающих поверхностей и теплопроводность многослойных полов
- Тепловизионная камера: Topdon TC001
- RGB камера: Genius WideCam F100
- Вычислительная платформа: Lenovo Legion Pro 7i с NVIDIA RTX 4080
- Робототехническая платформа: Мобильный робот с двумя камерами
- Общий объем: 4000 изображений
- Распределение: 2000 RGB и 2000 тепловизионных изображений, 2000 с разливами и 2000 без разливов
- Типы жидкостей: Вода, кола, красный фруктовый сок, желтый фруктовый сок
- Окружающие условия: Atrium (керамический пол), J234 (полированный бетонный пол)
- Размеры разливов: Малые разливы диаметром 2-4 дюйма, крупные разливы диаметром до 12 дюймов
- Разрешение: Тепловизионные 256×192, RGB 640×360, комбинированные 512×192
- Разделение данных: 70-20-10 (обучение-валидация-тестирование)
- Регистрация изображений: Согласование RGB и тепловизионных перспектив путем обрезки и перспективного преобразования
- Мультимодальное слияние: Боковое объединение (тепловизионные слева, RGB справа)
Оценены различные архитектуры предварительно обученных CNN: VGG19, ResNet50, серия EfficientNet, InceptionV3, DenseNet121, NasNetMobile и другие
- Стратегия тонкой настройки: Тонкая настройка последних 5 слоев
- Оптимизатор: RMSprop (lr=1e-5)
- Функция потерь: Бинарная кроссэнтропия
- Механизм ранней остановки: patience=5
- Размер пакета: Обучение/валидация 8, тестирование 2
- Увеличение данных: Горизонтальное отражение, легкие повороты (factor=0.01), изменение контраста (factor=0.01)
- Условия окружающей среды: Atrium с постоянным освещением, J234 с динамическим естественным освещением
- Выбор жидкостей: Охватывают жидкости с различными температурами и оптическими свойствами
- Углы съемки: Различные позиции и углы, изоляция источников тепла окружающей среды
- Точность тестирования: Точность классификации на тестовом наборе
- Точность реального времени: Точность при фактическом развертывании
- Время вывода: Временные затраты на один вывод
- Размер модели: Размер файла модели
- Сравнение модальностей: RGB vs тепловизионная визуализация vs комбинированная модальность
- Комбинации окружающей среды-жидкости: Оценка производительности 8 комбинаций
- Сравнение архитектур моделей: Сравнение производительности 11 предварительно обученных моделей
| Тип изображения | Точность тестирования | Точность демонстрации | Размер модели | Время вывода |
|---|
| Тепловизионная | 100% | 100% | 324,6 МБ | 44 мс |
| RGB | 98,84% | 100% | 1,0 ГБ | 55 мс |
| Комбинированная | 100% | 60% | 525,9 МБ | 47 мс |
Все 8 комбинаций помещение-жидкость достигли:
- Точность тестирования: 100%
- Точность демонстрации: 100%
- Размер модели: 324,6 МБ
- Время вывода: 44-45 мс
| Модель | Точность тестирования | Точность демонстрации | Размер модели | Время вывода |
|---|
| VGG19 | 100% | 100% | 324,6 МБ | 46 мс |
| ResNet50 | 99,66% | - | - | - |
| EfficientNetB3 | 99,15% | - | - | - |
| NasNetMobile | 100% | 100% | 440,3 МБ | 55 мс |
| InceptionV3 | 98,88% | - | - | - |
- Явные преимущества тепловизионной визуализации:
- Самая быстрая скорость вывода (44 мс против 55 мс)
- Наименьший размер модели (324,6 МБ против 1,0 ГБ)
- Лучшая производительность при реальном развертывании
- VGG19 как оптимальный выбор:
- Среди моделей, достигших 100% точности, VGG19 на 9 мс быстрее, чем NasNetMobile
- Размер модели меньше на 115,7 МБ
- Робастность к окружающей среде: Тепловизионная модель сохраняет 100% точность при различных помещениях и типах жидкостей
- Ограничения комбинированной модальности: Несмотря на высокую точность тестирования, точность реального времени составляет всего 60%
- Bhutad и Patil: Опубликовали набор данных из 1976 аннотированных изображений луж и влажных поверхностей
- Gawdzik и Orłowski: Использовали Mask R-CNN для обнаружения и сегментации разлитых жидкостей в промышленных условиях
- Yang и др.: Предложили поляризационную RGB-D структуру, объединяющую информацию о цвете, поляризации и глубине
- Appuhamy и др.: Разработали метод картирования влажности поверхности на основе тепловой камеры
- Bao и др.: Спроектировали двухкамерную систему инфракрасного и видимого света для обнаружения утечек в трубопроводах
- Zhang & Zhang: Применили тепловые изображения к CNN для мониторинга утечек в трубопроводах
Существующие методы в основном используют ручное проектирование слияния или многоэтапные конвейеры, в то время как данная работа применяет сквозное обучение CNN на мультимодальных данных.
- Bouguettaya и др.: Обзор мобильных CNN, MobileNet достигает 28 FPS на Jetson TX2
- Данная работа сосредоточена на оценке осуществимости предварительно обученных сетей на потребительском оборудовании
В окружающей среде с разнообразными условиями освещения и изолированными источниками тепла модель классификации изображений VGG19, обученная на тепловизионных данных, обеспечивает лучшую производительность с точки зрения времени вывода, точности тестирования и точности при реальном развертывании.
- Чувствительность к источникам тепла окружающей среды: Требуется изоляция источников тепла для достижения оптимальной производительности
- Проблема теплового равновесия: Длительные разливы могут достичь теплового равновесия с полом и стать трудно обнаруживаемыми
- Размер набора данных: Набор данных из 4000 изображений относительно небольшой
- Ограничения окружающей среды: Тестирование проводилось только в двух типах помещений
- Тестирование в неизолированных окружающих условиях: Проведение экспериментов при наличии потоков пешеходов и других источников тепла окружающей среды
- Исследование методов интеграции: Изучение методов интеграции RGB и тепловых характеристик, использующих RGB для коррекции ошибочной классификации, вызванной источниками тепла окружающей среды в тепловизионных изображениях
- Валидация в большем масштабе: Верификация производительности системы в более разнообразных окружающих условиях
- Систематическое сравнение: Комплексное сравнение производительности различных модальностей и архитектур моделей, обеспечивающее четкие рекомендации для практического применения
- Высокая практичность: Достижение производительности в реальном времени на потребительском оборудовании с высокой ценностью для практического развертывания
- Прочная теоретическая основа: Детальный анализ физических преимуществ и механизмов отказа тепловизионной визуализации при обнаружении разливов
- Разумный дизайн экспериментов: Охватывает различные типы жидкостей, условия окружающей среды и размеры оценки
- Убедительные результаты: 100% точность и время вывода 44 мс демонстрируют эффективность метода
- Ограничение размера набора данных: 4000 изображений относительно небольшой объем для глубокого обучения, возможен риск переобучения
- Ограниченные условия окружающей среды: Тестирование только в идеальных условиях с изолированными источниками тепла, реальные сценарии применения могут быть более сложными
- Недостаточная верификация обобщаемости: Тестирование только в двух типах помещений, адаптивность к открытым или другим типам окружающей среды неизвестна
- Отсутствие оценки долгосрочной стабильности: Отсутствует оценка стабильности и надежности при длительной работе
- Отсутствие анализа затрат-выгод: Не предоставлен анализ компромисса между стоимостью оборудования тепловизионной визуализации и повышением производительности
- Академический вклад: Предоставляет ценный опыт для мультимодального слияния в компьютерном зрении для приложений безопасности
- Практическая ценность: Предлагает осуществимое техническое решение для систем мониторинга безопасности в коммерческих и промышленных окружающих условиях
- Воспроизводимость: Предоставляет подробные экспериментальные установки и репозиторий кода GitHub для облегчения воспроизведения и расширения
- Коммерческие помещения в помещении: Рестораны, кафе, розничные магазины и другие места, требующие мониторинга безопасности в реальном времени
- Промышленный мониторинг безопасности: Химические заводы, склады и другие промышленные окружающие условия, требующие обнаружения утечек жидкостей
- Навигация робота: Мобильные роботы, нуждающиеся в распознавании препятствий на полу и опасных зон
- Интеллектуальные здания: Интеграция в системы управления зданиями для профилактического мониторинга безопасности
Статья цитирует 11 связанных работ, охватывающих важные работы в областях тепловизионного обнаружения, RGB визуальных методов, мультимодального слияния и легких моделей, обеспечивая достаточную теоретическую основу и сравнительные ориентиры для исследования.
Общая оценка: Это практически ориентированная прикладная исследовательская работа, которая посредством систематических экспериментов верифицирует преимущества тепловизионной визуализации в задаче обнаружения разливов. Несмотря на ограничения в масштабе данных и сложности окружающей среды, четкие выводы и практичный дизайн системы обеспечивают ценные рекомендации для соответствующих приложений.