This paper presents a real-time spill detection system that utilizes pretrained deep learning models with RGB and thermal imaging to classify spill vs. no-spill scenarios across varied environments. Using a balanced binary dataset (4,000 images), our experiments demonstrate the advantages of thermal imaging in inference speed, accuracy, and model size. We achieve up to 100% accuracy using lightweight models like VGG19 and NasNetMobile, with thermal models performing faster and more robustly across different lighting conditions. Our system runs on consumer-grade hardware (RTX 4080) and achieves inference times as low as 44 ms with model sizes under 350 MB, highlighting its deployability in safety-critical contexts. Results from experiments with a real robot and test datasets indicate that a VGG19 model trained on thermal imaging performs best.
- معرّف الورقة: 2510.08770
- العنوان: كشف الانسكابات باستخدام التصوير الحراري وأنماط التعلم العميق المدربة مسبقاً ومنصة روبوتية
- المؤلفون: Gregory Yeghiyan (مدرسة Stevenson الثانوية)، Jurius Azar (مدرسة Manoogian الثانوية)، Devson Butani (جامعة Lawrence التكنولوجية)، Chan-Jin Chung (جامعة Lawrence التكنولوجية)
- التصنيفات: cs.CV (الرؤية الحاسوبية)، cs.LG (التعلم الآلي)، cs.RO (الروبوتات)
- تاريخ النشر: 2025
- رابط الورقة: https://arxiv.org/abs/2510.08770
تقدم هذه الورقة نظام كشف انسكابات في الوقت الفعلي يستفيد من أنماط التعلم العميق المدربة مسبقاً مع دمج تقنيات التصوير RGB والتصوير الحراري، لتصنيف سيناريوهات الانسكابات وعدم الانسكابات في بيئات مختلفة. باستخدام مجموعة بيانات متوازنة للتصنيف الثنائي (4,000 صورة)، أثبتت التجارب مزايا التصوير الحراري من حيث سرعة الاستدلال والدقة وحجم النموذج. تم تحقيق دقة تصل إلى 100% باستخدام نماذج خفيفة الوزن مثل VGG19 و NasNetMobile، حيث أظهرت نماذج التصوير الحراري أداءً أسرع وأكثر متانة في ظروف إضاءة مختلفة. يعمل النظام على أجهزة استهلاكية (RTX 4080)، مع وقت استدلال منخفض يصل إلى 44 ميلي ثانية وحجم نموذج لا يتجاوز 350 ميجابايت، مما يبرز قابليته للنشر في التطبيقات الحرجة للسلامة.
يعتبر كشف الانسكابات أمراً حاسماً للسلامة العامة في البيئات الديناميكية (مثل المقاهي والمطاعم والمساحات البيعية)، حيث تؤدي الانسكابات غير المكتشفة في الوقت المناسب إلى حوادث انزلاق وإصابات متكررة.
- متطلبات السلامة: الانسكابات في الأماكن العامة هي السبب الرئيسي للإصابات العرضية
- متطلبات الاستجابة الفورية: الحاجة إلى استجابة سريعة لمنع وقوع الحوادث
- التكيف البيئي: يجب أن يعمل النظام بشكل مستقر في ظروف إضاءة وبيئية متنوعة
- طرق الكشف التقليدية: تعتمد على أجهزة غازية، مع تأخير في وقت الاستجابة
- أنظمة الرؤية RGB: عرضة للتأثر بتغيرات الإضاءة والانعكاسات السطحية
- ضعف التكيف مع البيئات المعقدة: انخفاض الأداء في ظروف الإضاءة المنخفضة والوهج والانعكاسات المعقدة
تحقيق كشف انسكابات فوري وحقيقي ودقيق وخفيف الوزن من خلال دمج تقنية التصوير الحراري وتقييم فعاليتها في الشبكات العصبية الالتفافية المدربة مسبقاً.
- دراسة مقارنة متعددة الأنماط: مقارنة منهجية لأداء RGB والتصوير الحراري والأنماط المدمجة في مهمة كشف الانسكابات
- التحقق من مزايا التصوير الحراري: إثبات تفوق التصوير الحراري في سرعة الاستدلال والدقة وحجم النموذج
- تطوير نظام عملي: تطوير نظام كشف انسكابات فوري قائم على أجهزة استهلاكية
- بناء مجموعة بيانات: إنشاء مجموعة بيانات متوازنة للتصنيف الثنائي تحتوي على 4,000 صورة تغطي سوائل وبيئات متنوعة
- تقييم أداء النموذج: إجراء تقييم شامل ومقارنة لأداء نماذج مدربة مسبقاً متعددة
الإدخال: تدفق الصور من كاميرا RGB وكاميرا التصوير الحراري
الإخراج: نتيجة التصنيف الثنائي (انسكاب/عدم انسكاب)
القيود: متطلبات الوقت الفعلي (زمن تأخير منخفض)، نماذج خفيفة الوزن (مناسبة للنشر)
- التباين الحراري: تقيس كاميرات التصوير الحراري الإشعاع تحت الأحمر طويل الموجة المنبعث من السطح، حيث يتناسب الإشارة مع درجة حرارة السطح والانبعاثية
- الخصائص الحرارية:
- السوائل (المشروبات الساخنة أو الباردة) لها درجة حرارة مختلفة عن أرضية البيئة، مما ينتج عنه تباين حراري قابل للكشف
- تتمتع السوائل بسعة حرارية نوعية أعلى (مثل الماء 4.186 جول/غرام·درجة مئوية)، والقصور الحراري يختلف عن مواد أرضية صلبة
- التبخر ونقل الحرارة ينتجان تدرجات مميزة عند حدود الانسكاب
- اختلافات الانبعاثية: السوائل ومواد الأرضية الشائعة (البلاط والخشب) لها انبعاثية مختلفة
- استقلالية الإضاءة: يستشعر التصوير الحراري الإشعاع تحت الأحمر المنبعث وليس الضوء المرئي المنعكس، مما يظل فعالاً في ظروف الإضاءة المنخفضة والوهج
- التوازن الحراري: عندما تصل درجة حرارة السائل المنسكب إلى نفس درجة حرارة الأرضية والانبعاثية متشابهة
- أغشية السائل الرقيقة: التبادل الحراري السريع مع الأرضية، والوصول السريع للتوازن
- التداخل البيئي: مصادر حرارية قريبة، أشعة الشمس، معدات ميكانيكية دافئة تنتج ضوضاء حرارية
- القطع الأثرية الانعكاسية: انعكاس الإشعاع الحراري على الأسطح عالية الانعكاس والتوصيل الحراري في الأرضيات متعددة الطبقات
- كاميرا التصوير الحراري: Topdon TC001
- كاميرا RGB: Genius WideCam F100
- منصة الحوسبة: Lenovo Legion Pro 7i مع NVIDIA RTX 4080
- منصة الروبوت: روبوت متنقل مزود بكاميرات مزدوجة
- الإجمالي: 4,000 صورة
- التوزيع: 2,000 صورة RGB و2,000 صورة حرارية، 2,000 انسكاب و2,000 عدم انسكاب
- أنواع السوائل: ماء، كولا، عصير أحمر، عصير أصفر
- البيئات: Atrium (أرضية بلاط)، J234 (أرضية خرسانة مصقولة)
- أحجام الانسكاب: انسكابات صغيرة بقطر 2-4 بوصات، انسكابات كبيرة بقطر يصل إلى 12 بوصة
- الدقة: التصوير الحراري 256×192، RGB 640×360، مدمج 512×192
- تقسيم البيانات: 70-20-10 (تدريب-التحقق-اختبار)
- محاذاة الصور: مطابقة وجهات نظر RGB والتصوير الحراري من خلال القص والتحويل المنظوري
- دمج متعدد الأنماط: الربط الجانبي (التصوير الحراري على اليسار، RGB على اليمين)
تم تقييم معماريات CNN المدربة مسبقاً المتعددة: VGG19، ResNet50، سلسلة EfficientNet، InceptionV3، DenseNet121، NasNetMobile وغيرها
- استراتيجية الضبط الدقيق: ضبط آخر 5 طبقات
- محسّن: RMSprop (معدل التعلم=1e-5)
- دالة الخسارة: الإنتروبيا الثنائية المتقاطعة
- آلية الإيقاف المبكر: patience=5
- حجم الدفعة: 8 للتدريب/التحقق، 2 للاختبار
- تعزيز البيانات: قلب أفقي، دوران طفيف (factor=0.01)، تغيير التباين (factor=0.01)
- ظروف البيئة: Atrium يحافظ على إضاءة متسقة، J234 إضاءة طبيعية ديناميكية
- اختيار السوائل: تغطي سوائل بدرجات حرارة وخصائص بصرية مختلفة
- زوايا الالتقاط: مواقع وزوايا متعددة، عزل مصادر الحرارة البيئية
- دقة الاختبار: دقة التصنيف على مجموعة الاختبار
- دقة العرض التوضيحي الفوري: دقة الاختبار أثناء النشر الفعلي
- وقت الاستدلال: تكلفة الوقت للاستدلال الفردي
- حجم النموذج: حجم ملف النموذج
- مقارنة الأنماط: RGB مقابل التصوير الحراري مقابل الأنماط المدمجة
- مجموعات البيئة-السائل: تقييم الأداء لـ 8 مجموعات
- مقارنة معمارية النموذج: مقارنة أداء 11 نموذج مدرب مسبقاً
| نوع الصورة | دقة الاختبار | دقة العرض التوضيحي | حجم النموذج | وقت الاستدلال |
|---|
| التصوير الحراري | 100% | 100% | 324.6 MB | 44 ms |
| RGB | 98.84% | 100% | 1.0 GB | 55 ms |
| مدمج | 100% | 60% | 525.9 MB | 47 ms |
جميع مجموعات الغرفة-السائل الـ 8 حققت:
- دقة الاختبار: 100%
- دقة العرض التوضيحي: 100%
- حجم النموذج: 324.6 MB
- وقت الاستدلال: 44-45 ms
| النموذج | دقة الاختبار | دقة العرض التوضيحي | حجم النموذج | وقت الاستدلال |
|---|
| VGG19 | 100% | 100% | 324.6 MB | 46 ms |
| ResNet50 | 99.66% | - | - | - |
| EfficientNetB3 | 99.15% | - | - | - |
| NasNetMobile | 100% | 100% | 440.3 MB | 55 ms |
| InceptionV3 | 98.88% | - | - | - |
- مزايا التصوير الحراري واضحة:
- أسرع سرعة استدلال (44ms مقابل 55ms)
- أصغر حجم نموذج (324.6MB مقابل 1.0GB)
- أفضل أداء للنشر الفوري
- VGG19 هو الخيار الأمثل:
- بين النماذج التي حققت دقة 100%، VGG19 أسرع من NasNetMobile بـ 9ms
- حجم النموذج أصغر بـ 115.7MB
- المتانة البيئية: نماذج التصوير الحراري حافظت على دقة 100% عبر غرف وأنواع سوائل مختلفة
- قيود الأنماط المدمجة: على الرغم من دقة الاختبار العالية، فإن دقة العرض التوضيحي الفوري بلغت 60% فقط
- Bhutad و Patil: نشر مجموعة بيانات تحتوي على 1,976 صورة معنونة للمياه الراكدة والأسطح الرطبة
- Gawdzik و Orłowski: استخدام Mask R-CNN لكشف وتقسيم السوائل المنسكبة في البيئات الصناعية
- Yang وآخرون: اقتراح إطار عمل RGB-D مستقطب يدمج معلومات اللون والاستقطاب والعمق
- Appuhamy وآخرون: تطوير طريقة قائمة على الكاميرا الحرارية لرسم خريطة رطوبة السطح
- Bao وآخرون: تصميم نظام كاميرا مزدوج بالأشعة تحت الحمراء والضوء المرئي لكشف تسرب الأنابيب
- Zhang و Zhang: إدخال صور حرارية في CNN لمراقبة تسرب الأنابيب
تعتمد الطرق الموجودة في الغالب على الدمج المصمم يدوياً أو خطوط أنابيب متعددة المراحل، بينما تستخدم هذه الورقة التعلم الشامل للشبكات العصبية الالتفافية على البيانات متعددة الأنماط.
- Bouguettaya وآخرون: مسح شامل لـ CNNs المحمولة، حيث يمكن لـ MobileNet تحقيق 28 إطار في الثانية على Jetson TX2
- تركز هذه الورقة على تقييم جدوى الشبكات المدربة مسبقاً على أجهزة استهلاكية
في البيئات التي تتمتع بظروف إضاءة متنوعة ومصادر حرارية بيئية معزولة، يوفر نموذج تصنيف الصور VGG19 المدرب على التصوير الحراري أفضل أداء من حيث وقت الاستدلال ودقة الاختبار ودقة النشر الفوري.
- حساسية مصادر الحرارة البيئية: يتطلب عزل مصادر الحرارة البيئية لتحقيق أفضل أداء
- مشكلة التوازن الحراري: قد تصل الانسكابات طويلة الأجل إلى توازن حراري مع الأرضية مما يصعب كشفها
- حجم مجموعة البيانات: مجموعة البيانات التي تحتوي على 4,000 صورة نسبياً صغيرة
- قيود البيئة: تم الاختبار فقط في بيئتين داخليتين
- اختبار البيئات غير المعزولة: إجراء تجارب في ظروف تتضمن تدفق المشاة ومصادر حرارية بيئية أخرى
- استكشاف طرق التجميع: دمج ميزات RGB والتصوير الحراري، واستخدام RGB لتصحيح التصنيفات الخاطئة الناجمة عن مصادر الحرارة البيئية في التصوير الحراري
- التحقق على نطاق أوسع: التحقق من أداء النظام في بيئات وظروف أكثر تنوعاً
- المقارنة المنهجية: مقارنة شاملة لأداء الأنماط والمعماريات المختلفة، توفر إرشادات واضحة للتطبيقات العملية
- قوة عملية: تحقيق أداء فوري على أجهزة استهلاكية، ذات قيمة نشر عملية قوية
- أساس نظري متين: تحليل تفصيلي للمزايا الفيزيائية وآليات الفشل للتصوير الحراري في كشف الانسكابات
- تصميم تجريبي معقول: يغطي أنواع سوائل وظروف بيئية وأبعاد تقييم متعددة
- نتائج مقنعة: دقة 100% ووقت استدلال 44ms يثبتان فعالية الطريقة
- قيود حجم مجموعة البيانات: 4,000 صورة نسبياً صغيرة للتعلم العميق، قد تكون هناك مخاطر الإفراط في التدريب
- ظروف بيئية محدودة: اختبار فقط في ظروف مثالية مع عزل مصادر الحرارة البيئية، قد تكون السيناريوهات الفعلية أكثر تعقيداً
- عدم التحقق الكافي من القدرة على التعميم: اختبار فقط في بيئتين داخليتين، القدرة على التكيف مع البيئات الخارجية أو الأنواع الأخرى غير معروفة
- عدم تقييم الاستقرار طويل الأجل: نقص تقييم الاستقرار والموثوقية للتشغيل طويل الأجل
- غياب تحليل التكلفة والفائدة: عدم توفير تحليل للمقارنة بين تكلفة أجهزة التصوير الحراري وتحسن الأداء
- المساهمة الأكاديمية: توفير خبرة قيمة لدمج متعدد الأنماط في الرؤية الحاسوبية للتطبيقات الأمنية
- القيمة العملية: توفير حل تقني قابل للتطبيق لأنظمة المراقبة الأمنية في البيئات التجارية والصناعية
- قابلية إعادة الإنتاج: توفير إعدادات تجريبية تفصيلية ومستودع GitHub للكود، مما يسهل إعادة الإنتاج والتوسع
- البيئات التجارية الداخلية: المطاعم والمقاهي والمتاجر التي تحتاج إلى مراقبة أمان فوري
- مراقبة السلامة الصناعية: المصانع الكيميائية والمستودعات التي تحتاج إلى كشف تسرب السوائل
- ملاحة الروبوت: الروبوتات المتنقلة التي تحتاج إلى التعرف على عوائق الأرضية والمناطق الخطرة
- المباني الذكية: التكامل في أنظمة إدارة المباني لإجراء مراقبة أمان استباقية
تستشهد الورقة بـ 11 مرجع ذي صلة، تغطي كشف التصوير الحراري وطرق الرؤية RGB والدمج متعدد الأنماط والنماذج الخفيفة الوزن وغيرها من المجالات ذات الصلة، مما يوفر أساساً نظرياً كافياً ومعايير مقارنة للبحث.
التقييم الشامل: هذه ورقة بحثية تطبيقية قوية جداً، تتحقق بشكل منهجي من مزايا التصوير الحراري في مهمة كشف الانسكابات من خلال التجارب. على الرغم من وجود قيود في حجم البيانات وتعقيد البيئة، فإن استنتاجاتها الواضحة وتصميم النظام العملي يوفران مرجعاً قيماً للتطبيقات ذات الصلة.