2025-11-22T05:58:16.782547

Detecting spills using thermal imaging, pretrained deep learning models, and a robotic platform

Yeghiyan, Azar, Butani et al.
This paper presents a real-time spill detection system that utilizes pretrained deep learning models with RGB and thermal imaging to classify spill vs. no-spill scenarios across varied environments. Using a balanced binary dataset (4,000 images), our experiments demonstrate the advantages of thermal imaging in inference speed, accuracy, and model size. We achieve up to 100% accuracy using lightweight models like VGG19 and NasNetMobile, with thermal models performing faster and more robustly across different lighting conditions. Our system runs on consumer-grade hardware (RTX 4080) and achieves inference times as low as 44 ms with model sizes under 350 MB, highlighting its deployability in safety-critical contexts. Results from experiments with a real robot and test datasets indicate that a VGG19 model trained on thermal imaging performs best.
academic

थर्मल इमेजिंग, पूर्व-प्रशिक्षित गहन शिक्षण मॉडल और रोबोटिक प्लेटफॉर्म का उपयोग करके रिसाव का पता लगाना

बुनियादी जानकारी

  • पेपर ID: 2510.08770
  • शीर्षक: थर्मल इमेजिंग, पूर्व-प्रशिक्षित गहन शिक्षण मॉडल और रोबोटिक प्लेटफॉर्म का उपयोग करके रिसाव का पता लगाना
  • लेखक: Gregory Yeghiyan (Stevenson High School), Jurius Azar (Manoogian High School), Devson Butani (Lawrence Technological University), Chan-Jin Chung (Lawrence Technological University)
  • वर्गीकरण: cs.CV (कंप्यूटर विजन), cs.LG (मशीन लर्निंग), cs.RO (रोबोटिक्स)
  • प्रकाशन समय: 2025
  • पेपर लिंक: https://arxiv.org/abs/2510.08770

सारांश

यह पेपर एक वास्तविक समय रिसाव पहचान प्रणाली प्रस्तुत करता है जो पूर्व-प्रशिक्षित गहन शिक्षण मॉडल को RGB और थर्मल इमेजिंग तकनीक के साथ जोड़ता है, विभिन्न वातावरणों में रिसाव और गैर-रिसाव परिदृश्यों को वर्गीकृत करने के लिए। संतुलित द्विआधारी वर्गीकरण डेटासेट (4,000 छवियां) का उपयोग करके, प्रयोग थर्मल इमेजिंग के अनुमान गति, सटीकता और मॉडल आकार में लाभ को प्रदर्शित करते हैं। VGG19 और NasNetMobile जैसे हल्के मॉडल का उपयोग करके 100% तक की सटीकता प्राप्त की गई है, थर्मल इमेजिंग मॉडल विभिन्न प्रकाश स्थितियों में तेजी से और अधिक मजबूत प्रदर्शन करते हैं। सिस्टम उपभोक्ता-स्तर के हार्डवेयर (RTX 4080) पर चलता है, अनुमान समय 44 मिलीसेकंड तक कम है, मॉडल आकार 350MB से अधिक नहीं है, जो सुरक्षा-महत्वपूर्ण अनुप्रयोगों में इसकी तैनाती योग्यता को उजागर करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

रिसाव पहचान गतिशील वातावरण (जैसे कैफे, रेस्तरां, खुदरा स्थान) में सार्वजनिक सुरक्षा के लिए महत्वपूर्ण है, समय पर पहचाने गए रिसाव अक्सर फिसलने और चोट के दुर्घटनाओं का कारण बनते हैं।

समस्या की महत्ता

  1. सुरक्षा आवश्यकता: सार्वजनिक स्थानों पर रिसाव अप्रत्याशित चोटों का प्रमुख कारण है
  2. वास्तविक समय की आवश्यकता: दुर्घटनाओं को रोकने के लिए तेजी से प्रतिक्रिया की आवश्यकता है
  3. पर्यावरणीय अनुकूलन: सिस्टम को विभिन्न प्रकाश और पर्यावरणीय स्थितियों में स्थिर रूप से काम करना चाहिए

मौजूदा विधियों की सीमाएं

  1. पारंपरिक पहचान विधियां: आक्रामक हार्डवेयर पर निर्भर, प्रतिक्रिया समय में देरी
  2. RGB दृश्य प्रणाली: प्रकाश परिवर्तन और सतह प्रतिबिंब से आसानी से प्रभावित
  3. जटिल वातावरण अनुकूलन में कमी: कम प्रकाश, चमक या जटिल प्रतिबिंब स्थितियों में प्रदर्शन में गिरावट

अनुसंधान प्रेरणा

थर्मल इमेजिंग तकनीक को एकीकृत करके और पूर्व-प्रशिक्षित कनवोल्यूशनल न्यूरल नेटवर्क में इसकी प्रभावशीलता का मूल्यांकन करके, वास्तविक समय, सटीक, हल्के वजन वाली रिसाव पहचान प्राप्त करना।

मुख्य योगदान

  1. बहु-मोडल तुलनात्मक अध्ययन: RGB, थर्मल इमेजिंग और संयुक्त मोडल के रिसाव पहचान कार्य में प्रदर्शन की व्यवस्थित तुलना
  2. थर्मल इमेजिंग लाभ सत्यापन: अनुमान गति, सटीकता और मॉडल आकार में थर्मल इमेजिंग के लाभ को प्रमाणित करना
  3. व्यावहारिक प्रणाली विकास: उपभोक्ता-स्तर के हार्डवेयर पर आधारित वास्तविक समय रिसाव पहचान प्रणाली विकसित करना
  4. डेटासेट निर्माण: 4,000 छवियों का संतुलित द्विआधारी वर्गीकरण डेटासेट बनाना, जिसमें कई तरल पदार्थ और वातावरण शामिल हैं
  5. मॉडल प्रदर्शन मूल्यांकन: कई पूर्व-प्रशिक्षित मॉडल का व्यापक प्रदर्शन मूल्यांकन और तुलना

विधि विवरण

कार्य परिभाषा

इनपुट: RGB कैमरा और थर्मल इमेजिंग कैमरा से छवि स्ट्रीम आउटपुट: द्विआधारी वर्गीकरण परिणाम (रिसाव/गैर-रिसाव) बाधाएं: वास्तविक समय की आवश्यकता (कम विलंबता), हल्के वजन वाला मॉडल (तैनाती के लिए उपयुक्त)

थर्मल इमेजिंग तकनीक सिद्धांत

भौतिक लाभ

  1. तापमान विपरीतता: थर्मल इमेजिंग कैमरा सतह द्वारा उत्सर्जित दीर्घ-तरंग अवरक्त विकिरण को मापता है, संकेत सतह के तापमान और उत्सर्जकता के समानुपाती है
  2. थर्मल विशेषताएं:
    • तरल पदार्थ (गर्म या ठंडे पेय) का परिवेश भूमि के तापमान से अलग है, पहचानने योग्य थर्मल विपरीतता पैदा करता है
    • तरल पदार्थ में उच्च विशिष्ट ताप क्षमता होती है (जैसे पानी 4.186 J/g°C), थर्मल जड़ता ठोस भूमि सामग्री से अलग है
    • वाष्पीकरण और ताप स्थानांतरण रिसाव सीमा पर विशेषता ढाल पैदा करते हैं
  3. उत्सर्जकता अंतर: तरल पदार्थ और सामान्य भूमि सामग्री (टाइल, लकड़ी) की उत्सर्जकता अलग है
  4. प्रकाश स्वतंत्रता: थर्मल इमेजिंग परावर्तित दृश्यमान प्रकाश के बजाय उत्सर्जित अवरक्त विकिरण को संवेदन करता है, कम प्रकाश, चमक स्थितियों में भी प्रभावी है

विफलता के मामले

  1. थर्मल संतुलन: रिसाव तरल पदार्थ का तापमान भूमि के समान हो और उत्सर्जकता समान हो
  2. पतली तरल फिल्म: भूमि के साथ तेजी से ताप विनिमय, तेजी से संतुलन प्राप्त करता है
  3. पर्यावरणीय हस्तक्षेप: पास के ताप स्रोत, सूर्य का प्रकाश, गर्म यांत्रिक उपकरण थर्मल शोर पैदा करते हैं
  4. प्रतिबिंब कलाकृतियां: उच्च परावर्तक सतहों का थर्मल विकिरण प्रतिबिंब और बहु-स्तरीय भूमि का ताप चालन

डेटा संग्रह प्रणाली

हार्डवेयर कॉन्फ़िगरेशन

  • थर्मल इमेजिंग कैमरा: Topdon TC001
  • RGB कैमरा: Genius WideCam F100
  • कंप्यूटिंग प्लेटफॉर्म: Lenovo Legion Pro 7i with NVIDIA RTX 4080
  • रोबोटिक प्लेटफॉर्म: दोहरे कैमरे से लैस मोबाइल रोबोट

डेटासेट विनिर्देश

  • कुल मात्रा: 4,000 छवियां
  • वितरण: RGB और थर्मल इमेजिंग प्रत्येक 2,000, रिसाव और गैर-रिसाव प्रत्येक 2,000
  • तरल पदार्थ के प्रकार: पानी, कोला, लाल फल का रस, पीला फल का रस
  • वातावरण: Atrium (टाइल फर्श), J234 (पॉलिश कंक्रीट फर्श)
  • रिसाव आकार: छोटा रिसाव व्यास 2-4 इंच, बड़ा रिसाव व्यास 12 इंच तक
  • रिज़ॉल्यूशन: थर्मल इमेजिंग 256×192, RGB 640×360, संयुक्त 512×192

डेटा पूर्व-प्रसंस्करण

  1. डेटा विभाजन: 70-20-10 (प्रशिक्षण-सत्यापन-परीक्षण)
  2. छवि पंजीकरण: RGB और थर्मल इमेजिंग दृष्टिकोण को मिलाने के लिए क्रॉपिंग और परिप्रेक्ष्य रूपांतरण के माध्यम से
  3. बहु-मोडल संलयन: साइड-बाय-साइड संयोजन (थर्मल इमेजिंग बाईं ओर, RGB दाईं ओर)

मॉडल आर्किटेक्चर और प्रशिक्षण

पूर्व-प्रशिक्षित मॉडल चयन

कई पूर्व-प्रशिक्षित CNN आर्किटेक्चर का मूल्यांकन: VGG19, ResNet50, EfficientNet श्रृंखला, InceptionV3, DenseNet121, NasNetMobile आदि

प्रशिक्षण रणनीति

  • सूक्ष्म-ट्यूनिंग रणनीति: अंतिम 5 परतों को सूक्ष्म-ट्यून करना
  • अनुकूलक: RMSprop (lr=1e-5)
  • हानि फ़ंक्शन: बाइनरी क्रॉस-एंट्रॉपी
  • प्रारंभिक रोकना तंत्र: patience=5
  • बैच आकार: प्रशिक्षण/सत्यापन 8, परीक्षण 2
  • डेटा वृद्धि: क्षैतिज फ्लिप, हल्का घूर्णन (factor=0.01), विपरीतता परिवर्तन (factor=0.01)

प्रायोगिक सेटअप

डेटासेट विवरण

  • पर्यावरणीय स्थितियां: Atrium सुसंगत प्रकाश बनाए रखता है, J234 गतिशील प्राकृतिक प्रकाश
  • तरल पदार्थ चयन: विभिन्न तापमान और ऑप्टिकल गुणों वाले तरल पदार्थ शामिल
  • संग्रह कोण: कई स्थान और कोण, पर्यावरणीय ताप स्रोतों को अलग करना

मूल्यांकन मेट्रिक्स

  1. परीक्षण सटीकता: परीक्षण सेट पर वर्गीकरण सटीकता
  2. वास्तविक समय प्रदर्शन सटीकता: वास्तविक तैनाती में सटीकता
  3. अनुमान समय: एकल अनुमान का समय ओवरहेड
  4. मॉडल आकार: मॉडल फ़ाइल आकार

प्रायोगिक डिजाइन

  1. मोडल तुलना: RGB बनाम थर्मल इमेजिंग बनाम संयुक्त मोडल
  2. वातावरण-तरल संयोजन: 8 संयोजनों का प्रदर्शन मूल्यांकन
  3. मॉडल आर्किटेक्चर तुलना: 11 पूर्व-प्रशिक्षित मॉडल की प्रदर्शन तुलना

प्रायोगिक परिणाम

मुख्य परिणाम

मोडल तुलना (VGG19)

छवि प्रकारपरीक्षण सटीकताप्रदर्शन सटीकतामॉडल आकारअनुमान समय
थर्मल इमेजिंग100%100%324.6 MB44 ms
RGB98.84%100%1.0 GB55 ms
संयुक्त100%60%525.9 MB47 ms

थर्मल इमेजिंग-VGG19 प्रत्येक संयोजन प्रदर्शन

सभी 8 कमरे-तरल संयोजन प्राप्त:

  • परीक्षण सटीकता: 100%
  • प्रदर्शन सटीकता: 100%
  • मॉडल आकार: 324.6 MB
  • अनुमान समय: 44-45 ms

बहु-मॉडल आर्किटेक्चर तुलना

मॉडलपरीक्षण सटीकताप्रदर्शन सटीकतामॉडल आकारअनुमान समय
VGG19100%100%324.6 MB46 ms
ResNet5099.66%---
EfficientNetB399.15%---
NasNetMobile100%100%440.3 MB55 ms
InceptionV398.88%---

मुख्य निष्कर्ष

  1. थर्मल इमेजिंग लाभ स्पष्ट:
    • सबसे तेजी से अनुमान गति (44ms बनाम 55ms)
    • सबसे छोटा मॉडल आकार (324.6MB बनाम 1.0GB)
    • सर्वोत्तम वास्तविक समय तैनाती प्रभाव
  2. VGG19 सर्वोत्तम विकल्प:
    • 100% सटीकता प्राप्त करने वाले मॉडल में, VGG19 NasNetMobile से 9ms तेजी है
    • मॉडल आकार 115.7MB छोटा है
  3. पर्यावरणीय मजबूती: थर्मल इमेजिंग मॉडल विभिन्न कमरों, तरल पदार्थ के प्रकारों में 100% सटीकता बनाए रखता है
  4. संयुक्त मोडल सीमाएं: हालांकि परीक्षण सटीकता अधिक है, वास्तविक समय प्रदर्शन सटीकता केवल 60% है

संबंधित कार्य

RGB/RGB-D दृश्य विधियां

  • Bhutad और Patil: 1,976 छवियों का एक टिप्पणीकृत जल भराव और गीली सतह डेटासेट प्रकाशित किया
  • Gawdzik और Orłowski: औद्योगिक वातावरण में रिसाव तरल पदार्थ का पता लगाने और विभाजन के लिए Mask R-CNN का उपयोग किया
  • Yang आदि: रंग, ध्रुवीकरण और गहराई जानकारी को मिलाने वाली ध्रुवीकृत RGB-D फ्रेमवर्क प्रस्तावित की

थर्मल इमेजिंग तरल पदार्थ पहचान

  • Appuhamy आदि: थर्मल कैमरा पर आधारित सतह नमी मानचित्रण विधि विकसित की
  • Bao आदि: पाइपलाइन रिसाव का पता लगाने के लिए अवरक्त और दृश्यमान प्रकाश दोहरे कैमरे सिस्टम डिजाइन किया
  • Zhang & Zhang: पाइपलाइन रिसाव निगरानी के लिए थर्मल छवि को CNN में इनपुट किया

बहु-मोडल मिश्रित प्रणाली

मौजूदा विधियां आमतौर पर हाथ से डिजाइन किए गए संलयन या बहु-चरणीय पाइपलाइन का उपयोग करती हैं, यह पेपर अंत-से-अंत CNN सीखने वाले बहु-मोडल डेटा का उपयोग करता है।

हल्के वजन वाली वास्तविक समय मॉडल

  • Bouguettaya आदि: मोबाइल CNN का सर्वेक्षण, MobileNet Jetson TX2 पर 28 FPS तक पहुंच सकता है
  • यह पेपर उपभोक्ता-स्तर के हार्डवेयर पर पूर्व-प्रशिक्षित नेटवर्क की व्यवहार्यता का मूल्यांकन करने पर केंद्रित है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

विविध प्रकाश स्थितियों और अलग-थलग पर्यावरणीय ताप स्रोतों वाले वातावरण में, थर्मल इमेजिंग पर प्रशिक्षित VGG19 छवि वर्गीकरण मॉडल अनुमान समय, परीक्षण सटीकता और वास्तविक समय तैनाती सटीकता में सर्वोत्तम प्रदर्शन प्रदान करता है।

सीमाएं

  1. पर्यावरणीय ताप स्रोत संवेदनशीलता: सर्वोत्तम प्रदर्शन के लिए पर्यावरणीय ताप स्रोतों को अलग करने की आवश्यकता है
  2. थर्मल संतुलन समस्या: लंबे समय तक रिसाव भूमि के साथ थर्मल संतुलन तक पहुंच सकता है और पहचान में कठिनाई हो सकती है
  3. डेटासेट आकार: 4,000 छवियों का डेटासेट अपेक्षाकृत छोटा है
  4. पर्यावरणीय प्रतिबंध: केवल दो इनडोर वातावरणों में परीक्षण किया गया

भविष्य की दिशाएं

  1. गैर-अलग-थलग वातावरण परीक्षण: पैदल यातायात प्रवाह आदि पर्यावरणीय ताप स्रोतों की स्थितियों में प्रयोग
  2. एकीकरण विधि अन्वेषण: RGB और थर्मल विशेषताओं को मिलाने वाली एकीकरण विधि, थर्मल इमेजिंग में पर्यावरणीय ताप स्रोत गलत वर्गीकरण को सुधारने के लिए RGB का उपयोग करना
  3. बड़े पैमाने पर सत्यापन: अधिक विविध वातावरण और स्थितियों में सिस्टम प्रदर्शन को सत्यापित करना

गहन मूल्यांकन

लाभ

  1. व्यवस्थित तुलना: विभिन्न मोडल और मॉडल आर्किटेक्चर के प्रदर्शन की व्यापक तुलना, व्यावहारिक अनुप्रयोग के लिए स्पष्ट मार्गदर्शन प्रदान करती है
  2. व्यावहारिकता मजबूत: उपभोक्ता-स्तर के हार्डवेयर पर वास्तविक समय प्रदर्शन प्राप्त किया, बहुत मजबूत व्यावहारिक तैनाती मूल्य है
  3. सैद्धांतिक आधार ठोस: थर्मल इमेजिंग के भौतिक लाभ और रिसाव पहचान में विफलता तंत्र का विस्तृत विश्लेषण
  4. प्रायोगिक डिजाइन उचित: कई तरल पदार्थ के प्रकार, पर्यावरणीय स्थितियां और मूल्यांकन आयाम शामिल
  5. परिणाम प्रेरक: 100% सटीकता और 44ms अनुमान समय विधि की प्रभावशीलता को प्रमाणित करते हैं

कमियां

  1. डेटासेट आकार सीमा: 4,000 छवियां गहन शिक्षण के लिए अपेक्षाकृत छोटी हैं, अधिक-फिटिंग का जोखिम हो सकता है
  2. पर्यावरणीय स्थितियां सीमित: केवल अलग-थलग पर्यावरणीय ताप स्रोतों की आदर्श स्थितियों में परीक्षण, वास्तविक अनुप्रयोग परिदृश्य अधिक जटिल हो सकते हैं
  3. सामान्यीकरण क्षमता अपर्याप्त रूप से सत्यापित: केवल दो इनडोर वातावरणों में परीक्षण, बाहरी या अन्य प्रकार के वातावरण के अनुकूलन की अज्ञात क्षमता
  4. दीर्घकालीन स्थिरता अमूल्यांकित: दीर्घकालीन संचालन की स्थिरता और विश्वसनीयता मूल्यांकन की कमी
  5. लागत-लाभ विश्लेषण अनुपस्थित: थर्मल इमेजिंग उपकरण लागत और प्रदर्शन सुधार के बीच व्यापार-बंद विश्लेषण प्रदान नहीं किया गया

प्रभाव

  1. शैक्षणिक योगदान: सुरक्षा अनुप्रयोगों में कंप्यूटर विजन के बहु-मोडल संलयन के लिए मूल्यवान अनुभव प्रदान करता है
  2. व्यावहारिक मूल्य: वाणिज्यिक और औद्योगिक वातावरण में सुरक्षा निगरानी प्रणाली के लिए व्यवहार्य तकनीकी समाधान प्रदान करता है
  3. पुनरुत्पादनीयता: विस्तृत प्रायोगिक सेटअप और GitHub कोड रिपोजिटरी प्रदान करता है, पुनरुत्पादन और विस्तार को सुविधाजनक बनाता है

लागू परिदृश्य

  1. इनडोर वाणिज्यिक वातावरण: रेस्तरां, कैफे, खुदरा दुकानें जहां वास्तविक समय सुरक्षा निगरानी की आवश्यकता है
  2. औद्योगिक सुरक्षा निगरानी: रासायनिक कारखाने, गोदाम जहां तरल रिसाव पहचान की आवश्यकता है
  3. रोबोट नेविगेशन: मोबाइल रोबोट को भूमि की बाधाओं और खतरनाक क्षेत्रों की पहचान करने की आवश्यकता है
  4. स्मार्ट बिल्डिंग: बिल्डिंग प्रबंधन प्रणाली में एकीकृत करके निवारक सुरक्षा निगरानी के लिए

संदर्भ

पेपर 11 संबंधित संदर्भों का हवाला देता है, जिसमें थर्मल इमेजिंग पहचान, RGB दृश्य विधियां, बहु-मोडल संलयन और हल्के वजन वाले मॉडल आदि संबंधित क्षेत्रों के महत्वपूर्ण कार्य शामिल हैं, जो अनुसंधान के लिए पर्याप्त सैद्धांतिक आधार और तुलना बेंचमार्क प्रदान करते हैं।


समग्र मूल्यांकन: यह एक बहुत ही व्यावहारिक अनुप्रयोग अनुसंधान पेपर है जो व्यवस्थित प्रयोगों के माध्यम से रिसाव पहचान कार्य में थर्मल इमेजिंग के लाभ को सत्यापित करता है। हालांकि डेटा स्केल और पर्यावरणीय जटिलता के पहलुओं में सीमाएं हैं, इसके स्पष्ट निष्कर्ष और व्यावहारिक प्रणाली डिजाइन संबंधित अनुप्रयोगों के लिए मूल्यवान संदर्भ प्रदान करते हैं।