2025-11-22T05:58:16.782547

Detecting spills using thermal imaging, pretrained deep learning models, and a robotic platform

Yeghiyan, Azar, Butani et al.
This paper presents a real-time spill detection system that utilizes pretrained deep learning models with RGB and thermal imaging to classify spill vs. no-spill scenarios across varied environments. Using a balanced binary dataset (4,000 images), our experiments demonstrate the advantages of thermal imaging in inference speed, accuracy, and model size. We achieve up to 100% accuracy using lightweight models like VGG19 and NasNetMobile, with thermal models performing faster and more robustly across different lighting conditions. Our system runs on consumer-grade hardware (RTX 4080) and achieves inference times as low as 44 ms with model sizes under 350 MB, highlighting its deployability in safety-critical contexts. Results from experiments with a real robot and test datasets indicate that a VGG19 model trained on thermal imaging performs best.
academic

Обнаружение разливов с использованием тепловизионной визуализации, предварительно обученных моделей глубокого обучения и робототехнической платформы

Основная информация

  • ID статьи: 2510.08770
  • Название: Detecting spills using thermal imaging, pretrained deep learning models, and a robotic platform
  • Авторы: Gregory Yeghiyan (Stevenson High School), Jurius Azar (Manoogian High School), Devson Butani (Lawrence Technological University), Chan-Jin Chung (Lawrence Technological University)
  • Категории: cs.CV (Компьютерное зрение), cs.LG (Машинное обучение), cs.RO (Робототехника)
  • Дата публикации: 2025
  • Ссылка на статью: https://arxiv.org/abs/2510.08770

Аннотация

В данной работе предложена система обнаружения разливов в реальном времени, использующая предварительно обученные модели глубокого обучения в сочетании с RGB и тепловизионной визуализацией для классификации сценариев с разливами и без разливов в различных окружающих условиях. Экспериментальные результаты на сбалансированном бинарном наборе данных (4000 изображений) демонстрируют преимущества тепловизионной визуализации с точки зрения скорости вывода, точности и размера модели. Использование легких моделей, таких как VGG19 и NasNetMobile, позволило достичь точности до 100%, при этом тепловизионные модели показали более быструю и надежную работу при различных условиях освещения. Система работает на потребительском оборудовании (RTX 4080) с временем вывода всего 44 миллисекунды и размером модели не превышающим 350 МБ, что подчеркивает ее развертываемость в критичных по безопасности приложениях.

Исследовательский контекст и мотивация

Определение проблемы

Обнаружение разливов имеет решающее значение для общественной безопасности в динамичных окружающих условиях (таких как кафе, рестораны, розничные помещения), поскольку несвоевременно обнаруженные разливы часто приводят к несчастным случаям со скольжением и травмам.

Важность проблемы

  1. Требования безопасности: Разливы в общественных местах являются основной причиной непредвиденных травм
  2. Требования реального времени: Необходимо быстрое реагирование для предотвращения несчастных случаев
  3. Адаптивность к окружающей среде: Система должна стабильно работать при различных условиях освещения и окружающей среды

Ограничения существующих методов

  1. Традиционные методы обнаружения: Зависят от инвазивного оборудования с задержками в ответе
  2. RGB визуальные системы: Подвержены влиянию изменений освещения и отражений поверхности
  3. Плохая адаптивность к сложным окружающим условиям: Производительность снижается при низком освещении, бликах или сложных условиях отражения

Исследовательская мотивация

Реализация обнаружения разливов в реальном времени, точного и легкого путем интеграции тепловизионной технологии и оценки ее эффективности в предварительно обученных сверточных нейронных сетях.

Основные вклады

  1. Мультимодальное сравнительное исследование: Систематическое сравнение производительности RGB, тепловизионной визуализации и комбинированных модальностей в задаче обнаружения разливов
  2. Верификация преимуществ тепловизионной визуализации: Доказательство преимуществ тепловизионной визуализации с точки зрения скорости вывода, точности и размера модели
  3. Разработка практической системы: Разработка системы обнаружения разливов в реальном времени на основе потребительского оборудования
  4. Построение набора данных: Создание сбалансированного бинарного набора данных из 4000 изображений, охватывающего различные жидкости и окружающие условия
  5. Оценка производительности модели: Комплексная оценка и сравнение производительности множества предварительно обученных моделей

Подробное описание методологии

Определение задачи

Входные данные: Поток изображений с RGB камеры и тепловизионной камеры Выходные данные: Результат бинарной классификации (разлив/без разлива) Ограничения: Требования реального времени (низкая задержка), легкие модели (пригодные для развертывания)

Принципы тепловизионной технологии

Физические преимущества

  1. Тепловой контраст: Тепловизионные камеры измеряют длинноволновое инфракрасное излучение, излучаемое поверхностью, сигнал пропорционален температуре поверхности и коэффициенту излучения
  2. Тепловые характеристики:
    • Жидкости (горячие или холодные напитки) имеют температуру, отличную от температуры окружающего пола, создавая обнаруживаемый тепловой контраст
    • Жидкости имеют более высокую удельную теплоемкость (например, вода 4,186 Дж/г°C), тепловая инерция отличается от материалов твердого пола
    • Испарение и теплопередача создают характерные градиенты на границах разлива
  3. Различия в коэффициентах излучения: Жидкости и обычные материалы пола (керамическая плитка, дерево) имеют различные коэффициенты излучения
  4. Независимость от освещения: Тепловизионная визуализация регистрирует излучаемое инфракрасное излучение, а не отраженный видимый свет, оставаясь эффективной при низком освещении и бликах

Случаи отказа

  1. Тепловое равновесие: Когда разлитая жидкость и пол имеют одинаковую температуру и коэффициент излучения
  2. Тонкие пленки жидкости: Быстрый теплообмен с полом, быстрое достижение равновесия
  3. Помехи окружающей среды: Близлежащие источники тепла, солнечный свет, теплое оборудование создают тепловые помехи
  4. Артефакты отражения: Отражение теплового излучения от высокоотражающих поверхностей и теплопроводность многослойных полов

Система сбора данных

Конфигурация оборудования

  • Тепловизионная камера: Topdon TC001
  • RGB камера: Genius WideCam F100
  • Вычислительная платформа: Lenovo Legion Pro 7i с NVIDIA RTX 4080
  • Робототехническая платформа: Мобильный робот с двумя камерами

Спецификации набора данных

  • Общий объем: 4000 изображений
  • Распределение: 2000 RGB и 2000 тепловизионных изображений, 2000 с разливами и 2000 без разливов
  • Типы жидкостей: Вода, кола, красный фруктовый сок, желтый фруктовый сок
  • Окружающие условия: Atrium (керамический пол), J234 (полированный бетонный пол)
  • Размеры разливов: Малые разливы диаметром 2-4 дюйма, крупные разливы диаметром до 12 дюймов
  • Разрешение: Тепловизионные 256×192, RGB 640×360, комбинированные 512×192

Предварительная обработка данных

  1. Разделение данных: 70-20-10 (обучение-валидация-тестирование)
  2. Регистрация изображений: Согласование RGB и тепловизионных перспектив путем обрезки и перспективного преобразования
  3. Мультимодальное слияние: Боковое объединение (тепловизионные слева, RGB справа)

Архитектура модели и обучение

Выбор предварительно обученных моделей

Оценены различные архитектуры предварительно обученных CNN: VGG19, ResNet50, серия EfficientNet, InceptionV3, DenseNet121, NasNetMobile и другие

Стратегия обучения

  • Стратегия тонкой настройки: Тонкая настройка последних 5 слоев
  • Оптимизатор: RMSprop (lr=1e-5)
  • Функция потерь: Бинарная кроссэнтропия
  • Механизм ранней остановки: patience=5
  • Размер пакета: Обучение/валидация 8, тестирование 2
  • Увеличение данных: Горизонтальное отражение, легкие повороты (factor=0.01), изменение контраста (factor=0.01)

Экспериментальная установка

Детали набора данных

  • Условия окружающей среды: Atrium с постоянным освещением, J234 с динамическим естественным освещением
  • Выбор жидкостей: Охватывают жидкости с различными температурами и оптическими свойствами
  • Углы съемки: Различные позиции и углы, изоляция источников тепла окружающей среды

Метрики оценки

  1. Точность тестирования: Точность классификации на тестовом наборе
  2. Точность реального времени: Точность при фактическом развертывании
  3. Время вывода: Временные затраты на один вывод
  4. Размер модели: Размер файла модели

Дизайн экспериментов

  1. Сравнение модальностей: RGB vs тепловизионная визуализация vs комбинированная модальность
  2. Комбинации окружающей среды-жидкости: Оценка производительности 8 комбинаций
  3. Сравнение архитектур моделей: Сравнение производительности 11 предварительно обученных моделей

Результаты экспериментов

Основные результаты

Сравнение модальностей (VGG19)

Тип изображенияТочность тестированияТочность демонстрацииРазмер моделиВремя вывода
Тепловизионная100%100%324,6 МБ44 мс
RGB98,84%100%1,0 ГБ55 мс
Комбинированная100%60%525,9 МБ47 мс

Производительность тепловизионной визуализации-VGG19 для всех комбинаций

Все 8 комбинаций помещение-жидкость достигли:

  • Точность тестирования: 100%
  • Точность демонстрации: 100%
  • Размер модели: 324,6 МБ
  • Время вывода: 44-45 мс

Сравнение архитектур множественных моделей

МодельТочность тестированияТочность демонстрацииРазмер моделиВремя вывода
VGG19100%100%324,6 МБ46 мс
ResNet5099,66%---
EfficientNetB399,15%---
NasNetMobile100%100%440,3 МБ55 мс
InceptionV398,88%---

Ключевые выводы

  1. Явные преимущества тепловизионной визуализации:
    • Самая быстрая скорость вывода (44 мс против 55 мс)
    • Наименьший размер модели (324,6 МБ против 1,0 ГБ)
    • Лучшая производительность при реальном развертывании
  2. VGG19 как оптимальный выбор:
    • Среди моделей, достигших 100% точности, VGG19 на 9 мс быстрее, чем NasNetMobile
    • Размер модели меньше на 115,7 МБ
  3. Робастность к окружающей среде: Тепловизионная модель сохраняет 100% точность при различных помещениях и типах жидкостей
  4. Ограничения комбинированной модальности: Несмотря на высокую точность тестирования, точность реального времени составляет всего 60%

Связанные работы

RGB/RGB-D визуальные методы

  • Bhutad и Patil: Опубликовали набор данных из 1976 аннотированных изображений луж и влажных поверхностей
  • Gawdzik и Orłowski: Использовали Mask R-CNN для обнаружения и сегментации разлитых жидкостей в промышленных условиях
  • Yang и др.: Предложили поляризационную RGB-D структуру, объединяющую информацию о цвете, поляризации и глубине

Тепловизионное обнаружение жидкостей

  • Appuhamy и др.: Разработали метод картирования влажности поверхности на основе тепловой камеры
  • Bao и др.: Спроектировали двухкамерную систему инфракрасного и видимого света для обнаружения утечек в трубопроводах
  • Zhang & Zhang: Применили тепловые изображения к CNN для мониторинга утечек в трубопроводах

Мультимодальные гибридные системы

Существующие методы в основном используют ручное проектирование слияния или многоэтапные конвейеры, в то время как данная работа применяет сквозное обучение CNN на мультимодальных данных.

Легкие модели реального времени

  • Bouguettaya и др.: Обзор мобильных CNN, MobileNet достигает 28 FPS на Jetson TX2
  • Данная работа сосредоточена на оценке осуществимости предварительно обученных сетей на потребительском оборудовании

Заключение и обсуждение

Основные выводы

В окружающей среде с разнообразными условиями освещения и изолированными источниками тепла модель классификации изображений VGG19, обученная на тепловизионных данных, обеспечивает лучшую производительность с точки зрения времени вывода, точности тестирования и точности при реальном развертывании.

Ограничения

  1. Чувствительность к источникам тепла окружающей среды: Требуется изоляция источников тепла для достижения оптимальной производительности
  2. Проблема теплового равновесия: Длительные разливы могут достичь теплового равновесия с полом и стать трудно обнаруживаемыми
  3. Размер набора данных: Набор данных из 4000 изображений относительно небольшой
  4. Ограничения окружающей среды: Тестирование проводилось только в двух типах помещений

Направления будущих исследований

  1. Тестирование в неизолированных окружающих условиях: Проведение экспериментов при наличии потоков пешеходов и других источников тепла окружающей среды
  2. Исследование методов интеграции: Изучение методов интеграции RGB и тепловых характеристик, использующих RGB для коррекции ошибочной классификации, вызванной источниками тепла окружающей среды в тепловизионных изображениях
  3. Валидация в большем масштабе: Верификация производительности системы в более разнообразных окружающих условиях

Глубокая оценка

Преимущества

  1. Систематическое сравнение: Комплексное сравнение производительности различных модальностей и архитектур моделей, обеспечивающее четкие рекомендации для практического применения
  2. Высокая практичность: Достижение производительности в реальном времени на потребительском оборудовании с высокой ценностью для практического развертывания
  3. Прочная теоретическая основа: Детальный анализ физических преимуществ и механизмов отказа тепловизионной визуализации при обнаружении разливов
  4. Разумный дизайн экспериментов: Охватывает различные типы жидкостей, условия окружающей среды и размеры оценки
  5. Убедительные результаты: 100% точность и время вывода 44 мс демонстрируют эффективность метода

Недостатки

  1. Ограничение размера набора данных: 4000 изображений относительно небольшой объем для глубокого обучения, возможен риск переобучения
  2. Ограниченные условия окружающей среды: Тестирование только в идеальных условиях с изолированными источниками тепла, реальные сценарии применения могут быть более сложными
  3. Недостаточная верификация обобщаемости: Тестирование только в двух типах помещений, адаптивность к открытым или другим типам окружающей среды неизвестна
  4. Отсутствие оценки долгосрочной стабильности: Отсутствует оценка стабильности и надежности при длительной работе
  5. Отсутствие анализа затрат-выгод: Не предоставлен анализ компромисса между стоимостью оборудования тепловизионной визуализации и повышением производительности

Влияние

  1. Академический вклад: Предоставляет ценный опыт для мультимодального слияния в компьютерном зрении для приложений безопасности
  2. Практическая ценность: Предлагает осуществимое техническое решение для систем мониторинга безопасности в коммерческих и промышленных окружающих условиях
  3. Воспроизводимость: Предоставляет подробные экспериментальные установки и репозиторий кода GitHub для облегчения воспроизведения и расширения

Применимые сценарии

  1. Коммерческие помещения в помещении: Рестораны, кафе, розничные магазины и другие места, требующие мониторинга безопасности в реальном времени
  2. Промышленный мониторинг безопасности: Химические заводы, склады и другие промышленные окружающие условия, требующие обнаружения утечек жидкостей
  3. Навигация робота: Мобильные роботы, нуждающиеся в распознавании препятствий на полу и опасных зон
  4. Интеллектуальные здания: Интеграция в системы управления зданиями для профилактического мониторинга безопасности

Библиография

Статья цитирует 11 связанных работ, охватывающих важные работы в областях тепловизионного обнаружения, RGB визуальных методов, мультимодального слияния и легких моделей, обеспечивая достаточную теоретическую основу и сравнительные ориентиры для исследования.


Общая оценка: Это практически ориентированная прикладная исследовательская работа, которая посредством систематических экспериментов верифицирует преимущества тепловизионной визуализации в задаче обнаружения разливов. Несмотря на ограничения в масштабе данных и сложности окружающей среды, четкие выводы и практичный дизайн системы обеспечивают ценные рекомендации для соответствующих приложений.