2025-11-22T05:58:16.782547

Detecting spills using thermal imaging, pretrained deep learning models, and a robotic platform

Yeghiyan, Azar, Butani et al.
This paper presents a real-time spill detection system that utilizes pretrained deep learning models with RGB and thermal imaging to classify spill vs. no-spill scenarios across varied environments. Using a balanced binary dataset (4,000 images), our experiments demonstrate the advantages of thermal imaging in inference speed, accuracy, and model size. We achieve up to 100% accuracy using lightweight models like VGG19 and NasNetMobile, with thermal models performing faster and more robustly across different lighting conditions. Our system runs on consumer-grade hardware (RTX 4080) and achieves inference times as low as 44 ms with model sizes under 350 MB, highlighting its deployability in safety-critical contexts. Results from experiments with a real robot and test datasets indicate that a VGG19 model trained on thermal imaging performs best.
academic

كشف الانسكابات باستخدام التصوير الحراري وأنماط التعلم العميق المدربة مسبقاً ومنصة روبوتية

المعلومات الأساسية

  • معرّف الورقة: 2510.08770
  • العنوان: كشف الانسكابات باستخدام التصوير الحراري وأنماط التعلم العميق المدربة مسبقاً ومنصة روبوتية
  • المؤلفون: Gregory Yeghiyan (مدرسة Stevenson الثانوية)، Jurius Azar (مدرسة Manoogian الثانوية)، Devson Butani (جامعة Lawrence التكنولوجية)، Chan-Jin Chung (جامعة Lawrence التكنولوجية)
  • التصنيفات: cs.CV (الرؤية الحاسوبية)، cs.LG (التعلم الآلي)، cs.RO (الروبوتات)
  • تاريخ النشر: 2025
  • رابط الورقة: https://arxiv.org/abs/2510.08770

الملخص

تقدم هذه الورقة نظام كشف انسكابات في الوقت الفعلي يستفيد من أنماط التعلم العميق المدربة مسبقاً مع دمج تقنيات التصوير RGB والتصوير الحراري، لتصنيف سيناريوهات الانسكابات وعدم الانسكابات في بيئات مختلفة. باستخدام مجموعة بيانات متوازنة للتصنيف الثنائي (4,000 صورة)، أثبتت التجارب مزايا التصوير الحراري من حيث سرعة الاستدلال والدقة وحجم النموذج. تم تحقيق دقة تصل إلى 100% باستخدام نماذج خفيفة الوزن مثل VGG19 و NasNetMobile، حيث أظهرت نماذج التصوير الحراري أداءً أسرع وأكثر متانة في ظروف إضاءة مختلفة. يعمل النظام على أجهزة استهلاكية (RTX 4080)، مع وقت استدلال منخفض يصل إلى 44 ميلي ثانية وحجم نموذج لا يتجاوز 350 ميجابايت، مما يبرز قابليته للنشر في التطبيقات الحرجة للسلامة.

الخلفية البحثية والدافع

تعريف المشكلة

يعتبر كشف الانسكابات أمراً حاسماً للسلامة العامة في البيئات الديناميكية (مثل المقاهي والمطاعم والمساحات البيعية)، حيث تؤدي الانسكابات غير المكتشفة في الوقت المناسب إلى حوادث انزلاق وإصابات متكررة.

أهمية المشكلة

  1. متطلبات السلامة: الانسكابات في الأماكن العامة هي السبب الرئيسي للإصابات العرضية
  2. متطلبات الاستجابة الفورية: الحاجة إلى استجابة سريعة لمنع وقوع الحوادث
  3. التكيف البيئي: يجب أن يعمل النظام بشكل مستقر في ظروف إضاءة وبيئية متنوعة

قيود الطرق الموجودة

  1. طرق الكشف التقليدية: تعتمد على أجهزة غازية، مع تأخير في وقت الاستجابة
  2. أنظمة الرؤية RGB: عرضة للتأثر بتغيرات الإضاءة والانعكاسات السطحية
  3. ضعف التكيف مع البيئات المعقدة: انخفاض الأداء في ظروف الإضاءة المنخفضة والوهج والانعكاسات المعقدة

الدافع البحثي

تحقيق كشف انسكابات فوري وحقيقي ودقيق وخفيف الوزن من خلال دمج تقنية التصوير الحراري وتقييم فعاليتها في الشبكات العصبية الالتفافية المدربة مسبقاً.

المساهمات الأساسية

  1. دراسة مقارنة متعددة الأنماط: مقارنة منهجية لأداء RGB والتصوير الحراري والأنماط المدمجة في مهمة كشف الانسكابات
  2. التحقق من مزايا التصوير الحراري: إثبات تفوق التصوير الحراري في سرعة الاستدلال والدقة وحجم النموذج
  3. تطوير نظام عملي: تطوير نظام كشف انسكابات فوري قائم على أجهزة استهلاكية
  4. بناء مجموعة بيانات: إنشاء مجموعة بيانات متوازنة للتصنيف الثنائي تحتوي على 4,000 صورة تغطي سوائل وبيئات متنوعة
  5. تقييم أداء النموذج: إجراء تقييم شامل ومقارنة لأداء نماذج مدربة مسبقاً متعددة

شرح الطريقة

تعريف المهمة

الإدخال: تدفق الصور من كاميرا RGB وكاميرا التصوير الحراري الإخراج: نتيجة التصنيف الثنائي (انسكاب/عدم انسكاب) القيود: متطلبات الوقت الفعلي (زمن تأخير منخفض)، نماذج خفيفة الوزن (مناسبة للنشر)

مبادئ تقنية التصوير الحراري

المزايا الفيزيائية

  1. التباين الحراري: تقيس كاميرات التصوير الحراري الإشعاع تحت الأحمر طويل الموجة المنبعث من السطح، حيث يتناسب الإشارة مع درجة حرارة السطح والانبعاثية
  2. الخصائص الحرارية:
    • السوائل (المشروبات الساخنة أو الباردة) لها درجة حرارة مختلفة عن أرضية البيئة، مما ينتج عنه تباين حراري قابل للكشف
    • تتمتع السوائل بسعة حرارية نوعية أعلى (مثل الماء 4.186 جول/غرام·درجة مئوية)، والقصور الحراري يختلف عن مواد أرضية صلبة
    • التبخر ونقل الحرارة ينتجان تدرجات مميزة عند حدود الانسكاب
  3. اختلافات الانبعاثية: السوائل ومواد الأرضية الشائعة (البلاط والخشب) لها انبعاثية مختلفة
  4. استقلالية الإضاءة: يستشعر التصوير الحراري الإشعاع تحت الأحمر المنبعث وليس الضوء المرئي المنعكس، مما يظل فعالاً في ظروف الإضاءة المنخفضة والوهج

حالات الفشل

  1. التوازن الحراري: عندما تصل درجة حرارة السائل المنسكب إلى نفس درجة حرارة الأرضية والانبعاثية متشابهة
  2. أغشية السائل الرقيقة: التبادل الحراري السريع مع الأرضية، والوصول السريع للتوازن
  3. التداخل البيئي: مصادر حرارية قريبة، أشعة الشمس، معدات ميكانيكية دافئة تنتج ضوضاء حرارية
  4. القطع الأثرية الانعكاسية: انعكاس الإشعاع الحراري على الأسطح عالية الانعكاس والتوصيل الحراري في الأرضيات متعددة الطبقات

نظام جمع البيانات

التكوين الجهاز

  • كاميرا التصوير الحراري: Topdon TC001
  • كاميرا RGB: Genius WideCam F100
  • منصة الحوسبة: Lenovo Legion Pro 7i مع NVIDIA RTX 4080
  • منصة الروبوت: روبوت متنقل مزود بكاميرات مزدوجة

مواصفات مجموعة البيانات

  • الإجمالي: 4,000 صورة
  • التوزيع: 2,000 صورة RGB و2,000 صورة حرارية، 2,000 انسكاب و2,000 عدم انسكاب
  • أنواع السوائل: ماء، كولا، عصير أحمر، عصير أصفر
  • البيئات: Atrium (أرضية بلاط)، J234 (أرضية خرسانة مصقولة)
  • أحجام الانسكاب: انسكابات صغيرة بقطر 2-4 بوصات، انسكابات كبيرة بقطر يصل إلى 12 بوصة
  • الدقة: التصوير الحراري 256×192، RGB 640×360، مدمج 512×192

معالجة البيانات المسبقة

  1. تقسيم البيانات: 70-20-10 (تدريب-التحقق-اختبار)
  2. محاذاة الصور: مطابقة وجهات نظر RGB والتصوير الحراري من خلال القص والتحويل المنظوري
  3. دمج متعدد الأنماط: الربط الجانبي (التصوير الحراري على اليسار، RGB على اليمين)

معمارية النموذج والتدريب

اختيار النموذج المدرب مسبقاً

تم تقييم معماريات CNN المدربة مسبقاً المتعددة: VGG19، ResNet50، سلسلة EfficientNet، InceptionV3، DenseNet121، NasNetMobile وغيرها

استراتيجية التدريب

  • استراتيجية الضبط الدقيق: ضبط آخر 5 طبقات
  • محسّن: RMSprop (معدل التعلم=1e-5)
  • دالة الخسارة: الإنتروبيا الثنائية المتقاطعة
  • آلية الإيقاف المبكر: patience=5
  • حجم الدفعة: 8 للتدريب/التحقق، 2 للاختبار
  • تعزيز البيانات: قلب أفقي، دوران طفيف (factor=0.01)، تغيير التباين (factor=0.01)

الإعداد التجريبي

تفاصيل مجموعة البيانات

  • ظروف البيئة: Atrium يحافظ على إضاءة متسقة، J234 إضاءة طبيعية ديناميكية
  • اختيار السوائل: تغطي سوائل بدرجات حرارة وخصائص بصرية مختلفة
  • زوايا الالتقاط: مواقع وزوايا متعددة، عزل مصادر الحرارة البيئية

مقاييس التقييم

  1. دقة الاختبار: دقة التصنيف على مجموعة الاختبار
  2. دقة العرض التوضيحي الفوري: دقة الاختبار أثناء النشر الفعلي
  3. وقت الاستدلال: تكلفة الوقت للاستدلال الفردي
  4. حجم النموذج: حجم ملف النموذج

تصميم التجربة

  1. مقارنة الأنماط: RGB مقابل التصوير الحراري مقابل الأنماط المدمجة
  2. مجموعات البيئة-السائل: تقييم الأداء لـ 8 مجموعات
  3. مقارنة معمارية النموذج: مقارنة أداء 11 نموذج مدرب مسبقاً

نتائج التجارب

النتائج الرئيسية

مقارنة الأنماط (VGG19)

نوع الصورةدقة الاختباردقة العرض التوضيحيحجم النموذجوقت الاستدلال
التصوير الحراري100%100%324.6 MB44 ms
RGB98.84%100%1.0 GB55 ms
مدمج100%60%525.9 MB47 ms

أداء التصوير الحراري-VGG19 لكل مجموعة

جميع مجموعات الغرفة-السائل الـ 8 حققت:

  • دقة الاختبار: 100%
  • دقة العرض التوضيحي: 100%
  • حجم النموذج: 324.6 MB
  • وقت الاستدلال: 44-45 ms

مقارنة معماريات النماذج المتعددة

النموذجدقة الاختباردقة العرض التوضيحيحجم النموذجوقت الاستدلال
VGG19100%100%324.6 MB46 ms
ResNet5099.66%---
EfficientNetB399.15%---
NasNetMobile100%100%440.3 MB55 ms
InceptionV398.88%---

الاكتشافات الرئيسية

  1. مزايا التصوير الحراري واضحة:
    • أسرع سرعة استدلال (44ms مقابل 55ms)
    • أصغر حجم نموذج (324.6MB مقابل 1.0GB)
    • أفضل أداء للنشر الفوري
  2. VGG19 هو الخيار الأمثل:
    • بين النماذج التي حققت دقة 100%، VGG19 أسرع من NasNetMobile بـ 9ms
    • حجم النموذج أصغر بـ 115.7MB
  3. المتانة البيئية: نماذج التصوير الحراري حافظت على دقة 100% عبر غرف وأنواع سوائل مختلفة
  4. قيود الأنماط المدمجة: على الرغم من دقة الاختبار العالية، فإن دقة العرض التوضيحي الفوري بلغت 60% فقط

الأعمال ذات الصلة

طرق الرؤية RGB/RGB-D

  • Bhutad و Patil: نشر مجموعة بيانات تحتوي على 1,976 صورة معنونة للمياه الراكدة والأسطح الرطبة
  • Gawdzik و Orłowski: استخدام Mask R-CNN لكشف وتقسيم السوائل المنسكبة في البيئات الصناعية
  • Yang وآخرون: اقتراح إطار عمل RGB-D مستقطب يدمج معلومات اللون والاستقطاب والعمق

كشف السوائل بالتصوير الحراري

  • Appuhamy وآخرون: تطوير طريقة قائمة على الكاميرا الحرارية لرسم خريطة رطوبة السطح
  • Bao وآخرون: تصميم نظام كاميرا مزدوج بالأشعة تحت الحمراء والضوء المرئي لكشف تسرب الأنابيب
  • Zhang و Zhang: إدخال صور حرارية في CNN لمراقبة تسرب الأنابيب

الأنظمة الهجينة متعددة الأنماط

تعتمد الطرق الموجودة في الغالب على الدمج المصمم يدوياً أو خطوط أنابيب متعددة المراحل، بينما تستخدم هذه الورقة التعلم الشامل للشبكات العصبية الالتفافية على البيانات متعددة الأنماط.

النماذج الخفيفة الوزن في الوقت الفعلي

  • Bouguettaya وآخرون: مسح شامل لـ CNNs المحمولة، حيث يمكن لـ MobileNet تحقيق 28 إطار في الثانية على Jetson TX2
  • تركز هذه الورقة على تقييم جدوى الشبكات المدربة مسبقاً على أجهزة استهلاكية

الخلاصة والنقاش

الاستنتاجات الرئيسية

في البيئات التي تتمتع بظروف إضاءة متنوعة ومصادر حرارية بيئية معزولة، يوفر نموذج تصنيف الصور VGG19 المدرب على التصوير الحراري أفضل أداء من حيث وقت الاستدلال ودقة الاختبار ودقة النشر الفوري.

القيود

  1. حساسية مصادر الحرارة البيئية: يتطلب عزل مصادر الحرارة البيئية لتحقيق أفضل أداء
  2. مشكلة التوازن الحراري: قد تصل الانسكابات طويلة الأجل إلى توازن حراري مع الأرضية مما يصعب كشفها
  3. حجم مجموعة البيانات: مجموعة البيانات التي تحتوي على 4,000 صورة نسبياً صغيرة
  4. قيود البيئة: تم الاختبار فقط في بيئتين داخليتين

الاتجاهات المستقبلية

  1. اختبار البيئات غير المعزولة: إجراء تجارب في ظروف تتضمن تدفق المشاة ومصادر حرارية بيئية أخرى
  2. استكشاف طرق التجميع: دمج ميزات RGB والتصوير الحراري، واستخدام RGB لتصحيح التصنيفات الخاطئة الناجمة عن مصادر الحرارة البيئية في التصوير الحراري
  3. التحقق على نطاق أوسع: التحقق من أداء النظام في بيئات وظروف أكثر تنوعاً

التقييم المتعمق

المزايا

  1. المقارنة المنهجية: مقارنة شاملة لأداء الأنماط والمعماريات المختلفة، توفر إرشادات واضحة للتطبيقات العملية
  2. قوة عملية: تحقيق أداء فوري على أجهزة استهلاكية، ذات قيمة نشر عملية قوية
  3. أساس نظري متين: تحليل تفصيلي للمزايا الفيزيائية وآليات الفشل للتصوير الحراري في كشف الانسكابات
  4. تصميم تجريبي معقول: يغطي أنواع سوائل وظروف بيئية وأبعاد تقييم متعددة
  5. نتائج مقنعة: دقة 100% ووقت استدلال 44ms يثبتان فعالية الطريقة

أوجه القصور

  1. قيود حجم مجموعة البيانات: 4,000 صورة نسبياً صغيرة للتعلم العميق، قد تكون هناك مخاطر الإفراط في التدريب
  2. ظروف بيئية محدودة: اختبار فقط في ظروف مثالية مع عزل مصادر الحرارة البيئية، قد تكون السيناريوهات الفعلية أكثر تعقيداً
  3. عدم التحقق الكافي من القدرة على التعميم: اختبار فقط في بيئتين داخليتين، القدرة على التكيف مع البيئات الخارجية أو الأنواع الأخرى غير معروفة
  4. عدم تقييم الاستقرار طويل الأجل: نقص تقييم الاستقرار والموثوقية للتشغيل طويل الأجل
  5. غياب تحليل التكلفة والفائدة: عدم توفير تحليل للمقارنة بين تكلفة أجهزة التصوير الحراري وتحسن الأداء

التأثير

  1. المساهمة الأكاديمية: توفير خبرة قيمة لدمج متعدد الأنماط في الرؤية الحاسوبية للتطبيقات الأمنية
  2. القيمة العملية: توفير حل تقني قابل للتطبيق لأنظمة المراقبة الأمنية في البيئات التجارية والصناعية
  3. قابلية إعادة الإنتاج: توفير إعدادات تجريبية تفصيلية ومستودع GitHub للكود، مما يسهل إعادة الإنتاج والتوسع

السيناريوهات المطبقة

  1. البيئات التجارية الداخلية: المطاعم والمقاهي والمتاجر التي تحتاج إلى مراقبة أمان فوري
  2. مراقبة السلامة الصناعية: المصانع الكيميائية والمستودعات التي تحتاج إلى كشف تسرب السوائل
  3. ملاحة الروبوت: الروبوتات المتنقلة التي تحتاج إلى التعرف على عوائق الأرضية والمناطق الخطرة
  4. المباني الذكية: التكامل في أنظمة إدارة المباني لإجراء مراقبة أمان استباقية

المراجع

تستشهد الورقة بـ 11 مرجع ذي صلة، تغطي كشف التصوير الحراري وطرق الرؤية RGB والدمج متعدد الأنماط والنماذج الخفيفة الوزن وغيرها من المجالات ذات الصلة، مما يوفر أساساً نظرياً كافياً ومعايير مقارنة للبحث.


التقييم الشامل: هذه ورقة بحثية تطبيقية قوية جداً، تتحقق بشكل منهجي من مزايا التصوير الحراري في مهمة كشف الانسكابات من خلال التجارب. على الرغم من وجود قيود في حجم البيانات وتعقيد البيئة، فإن استنتاجاتها الواضحة وتصميم النظام العملي يوفران مرجعاً قيماً للتطبيقات ذات الصلة.