This paper presents a real-time spill detection system that utilizes pretrained deep learning models with RGB and thermal imaging to classify spill vs. no-spill scenarios across varied environments. Using a balanced binary dataset (4,000 images), our experiments demonstrate the advantages of thermal imaging in inference speed, accuracy, and model size. We achieve up to 100% accuracy using lightweight models like VGG19 and NasNetMobile, with thermal models performing faster and more robustly across different lighting conditions. Our system runs on consumer-grade hardware (RTX 4080) and achieves inference times as low as 44 ms with model sizes under 350 MB, highlighting its deployability in safety-critical contexts. Results from experiments with a real robot and test datasets indicate that a VGG19 model trained on thermal imaging performs best.
- पेपर ID: 2510.08770
- शीर्षक: थर्मल इमेजिंग, पूर्व-प्रशिक्षित गहन शिक्षण मॉडल और रोबोटिक प्लेटफॉर्म का उपयोग करके रिसाव का पता लगाना
- लेखक: Gregory Yeghiyan (Stevenson High School), Jurius Azar (Manoogian High School), Devson Butani (Lawrence Technological University), Chan-Jin Chung (Lawrence Technological University)
- वर्गीकरण: cs.CV (कंप्यूटर विजन), cs.LG (मशीन लर्निंग), cs.RO (रोबोटिक्स)
- प्रकाशन समय: 2025
- पेपर लिंक: https://arxiv.org/abs/2510.08770
यह पेपर एक वास्तविक समय रिसाव पहचान प्रणाली प्रस्तुत करता है जो पूर्व-प्रशिक्षित गहन शिक्षण मॉडल को RGB और थर्मल इमेजिंग तकनीक के साथ जोड़ता है, विभिन्न वातावरणों में रिसाव और गैर-रिसाव परिदृश्यों को वर्गीकृत करने के लिए। संतुलित द्विआधारी वर्गीकरण डेटासेट (4,000 छवियां) का उपयोग करके, प्रयोग थर्मल इमेजिंग के अनुमान गति, सटीकता और मॉडल आकार में लाभ को प्रदर्शित करते हैं। VGG19 और NasNetMobile जैसे हल्के मॉडल का उपयोग करके 100% तक की सटीकता प्राप्त की गई है, थर्मल इमेजिंग मॉडल विभिन्न प्रकाश स्थितियों में तेजी से और अधिक मजबूत प्रदर्शन करते हैं। सिस्टम उपभोक्ता-स्तर के हार्डवेयर (RTX 4080) पर चलता है, अनुमान समय 44 मिलीसेकंड तक कम है, मॉडल आकार 350MB से अधिक नहीं है, जो सुरक्षा-महत्वपूर्ण अनुप्रयोगों में इसकी तैनाती योग्यता को उजागर करता है।
रिसाव पहचान गतिशील वातावरण (जैसे कैफे, रेस्तरां, खुदरा स्थान) में सार्वजनिक सुरक्षा के लिए महत्वपूर्ण है, समय पर पहचाने गए रिसाव अक्सर फिसलने और चोट के दुर्घटनाओं का कारण बनते हैं।
- सुरक्षा आवश्यकता: सार्वजनिक स्थानों पर रिसाव अप्रत्याशित चोटों का प्रमुख कारण है
- वास्तविक समय की आवश्यकता: दुर्घटनाओं को रोकने के लिए तेजी से प्रतिक्रिया की आवश्यकता है
- पर्यावरणीय अनुकूलन: सिस्टम को विभिन्न प्रकाश और पर्यावरणीय स्थितियों में स्थिर रूप से काम करना चाहिए
- पारंपरिक पहचान विधियां: आक्रामक हार्डवेयर पर निर्भर, प्रतिक्रिया समय में देरी
- RGB दृश्य प्रणाली: प्रकाश परिवर्तन और सतह प्रतिबिंब से आसानी से प्रभावित
- जटिल वातावरण अनुकूलन में कमी: कम प्रकाश, चमक या जटिल प्रतिबिंब स्थितियों में प्रदर्शन में गिरावट
थर्मल इमेजिंग तकनीक को एकीकृत करके और पूर्व-प्रशिक्षित कनवोल्यूशनल न्यूरल नेटवर्क में इसकी प्रभावशीलता का मूल्यांकन करके, वास्तविक समय, सटीक, हल्के वजन वाली रिसाव पहचान प्राप्त करना।
- बहु-मोडल तुलनात्मक अध्ययन: RGB, थर्मल इमेजिंग और संयुक्त मोडल के रिसाव पहचान कार्य में प्रदर्शन की व्यवस्थित तुलना
- थर्मल इमेजिंग लाभ सत्यापन: अनुमान गति, सटीकता और मॉडल आकार में थर्मल इमेजिंग के लाभ को प्रमाणित करना
- व्यावहारिक प्रणाली विकास: उपभोक्ता-स्तर के हार्डवेयर पर आधारित वास्तविक समय रिसाव पहचान प्रणाली विकसित करना
- डेटासेट निर्माण: 4,000 छवियों का संतुलित द्विआधारी वर्गीकरण डेटासेट बनाना, जिसमें कई तरल पदार्थ और वातावरण शामिल हैं
- मॉडल प्रदर्शन मूल्यांकन: कई पूर्व-प्रशिक्षित मॉडल का व्यापक प्रदर्शन मूल्यांकन और तुलना
इनपुट: RGB कैमरा और थर्मल इमेजिंग कैमरा से छवि स्ट्रीम
आउटपुट: द्विआधारी वर्गीकरण परिणाम (रिसाव/गैर-रिसाव)
बाधाएं: वास्तविक समय की आवश्यकता (कम विलंबता), हल्के वजन वाला मॉडल (तैनाती के लिए उपयुक्त)
- तापमान विपरीतता: थर्मल इमेजिंग कैमरा सतह द्वारा उत्सर्जित दीर्घ-तरंग अवरक्त विकिरण को मापता है, संकेत सतह के तापमान और उत्सर्जकता के समानुपाती है
- थर्मल विशेषताएं:
- तरल पदार्थ (गर्म या ठंडे पेय) का परिवेश भूमि के तापमान से अलग है, पहचानने योग्य थर्मल विपरीतता पैदा करता है
- तरल पदार्थ में उच्च विशिष्ट ताप क्षमता होती है (जैसे पानी 4.186 J/g°C), थर्मल जड़ता ठोस भूमि सामग्री से अलग है
- वाष्पीकरण और ताप स्थानांतरण रिसाव सीमा पर विशेषता ढाल पैदा करते हैं
- उत्सर्जकता अंतर: तरल पदार्थ और सामान्य भूमि सामग्री (टाइल, लकड़ी) की उत्सर्जकता अलग है
- प्रकाश स्वतंत्रता: थर्मल इमेजिंग परावर्तित दृश्यमान प्रकाश के बजाय उत्सर्जित अवरक्त विकिरण को संवेदन करता है, कम प्रकाश, चमक स्थितियों में भी प्रभावी है
- थर्मल संतुलन: रिसाव तरल पदार्थ का तापमान भूमि के समान हो और उत्सर्जकता समान हो
- पतली तरल फिल्म: भूमि के साथ तेजी से ताप विनिमय, तेजी से संतुलन प्राप्त करता है
- पर्यावरणीय हस्तक्षेप: पास के ताप स्रोत, सूर्य का प्रकाश, गर्म यांत्रिक उपकरण थर्मल शोर पैदा करते हैं
- प्रतिबिंब कलाकृतियां: उच्च परावर्तक सतहों का थर्मल विकिरण प्रतिबिंब और बहु-स्तरीय भूमि का ताप चालन
- थर्मल इमेजिंग कैमरा: Topdon TC001
- RGB कैमरा: Genius WideCam F100
- कंप्यूटिंग प्लेटफॉर्म: Lenovo Legion Pro 7i with NVIDIA RTX 4080
- रोबोटिक प्लेटफॉर्म: दोहरे कैमरे से लैस मोबाइल रोबोट
- कुल मात्रा: 4,000 छवियां
- वितरण: RGB और थर्मल इमेजिंग प्रत्येक 2,000, रिसाव और गैर-रिसाव प्रत्येक 2,000
- तरल पदार्थ के प्रकार: पानी, कोला, लाल फल का रस, पीला फल का रस
- वातावरण: Atrium (टाइल फर्श), J234 (पॉलिश कंक्रीट फर्श)
- रिसाव आकार: छोटा रिसाव व्यास 2-4 इंच, बड़ा रिसाव व्यास 12 इंच तक
- रिज़ॉल्यूशन: थर्मल इमेजिंग 256×192, RGB 640×360, संयुक्त 512×192
- डेटा विभाजन: 70-20-10 (प्रशिक्षण-सत्यापन-परीक्षण)
- छवि पंजीकरण: RGB और थर्मल इमेजिंग दृष्टिकोण को मिलाने के लिए क्रॉपिंग और परिप्रेक्ष्य रूपांतरण के माध्यम से
- बहु-मोडल संलयन: साइड-बाय-साइड संयोजन (थर्मल इमेजिंग बाईं ओर, RGB दाईं ओर)
कई पूर्व-प्रशिक्षित CNN आर्किटेक्चर का मूल्यांकन: VGG19, ResNet50, EfficientNet श्रृंखला, InceptionV3, DenseNet121, NasNetMobile आदि
- सूक्ष्म-ट्यूनिंग रणनीति: अंतिम 5 परतों को सूक्ष्म-ट्यून करना
- अनुकूलक: RMSprop (lr=1e-5)
- हानि फ़ंक्शन: बाइनरी क्रॉस-एंट्रॉपी
- प्रारंभिक रोकना तंत्र: patience=5
- बैच आकार: प्रशिक्षण/सत्यापन 8, परीक्षण 2
- डेटा वृद्धि: क्षैतिज फ्लिप, हल्का घूर्णन (factor=0.01), विपरीतता परिवर्तन (factor=0.01)
- पर्यावरणीय स्थितियां: Atrium सुसंगत प्रकाश बनाए रखता है, J234 गतिशील प्राकृतिक प्रकाश
- तरल पदार्थ चयन: विभिन्न तापमान और ऑप्टिकल गुणों वाले तरल पदार्थ शामिल
- संग्रह कोण: कई स्थान और कोण, पर्यावरणीय ताप स्रोतों को अलग करना
- परीक्षण सटीकता: परीक्षण सेट पर वर्गीकरण सटीकता
- वास्तविक समय प्रदर्शन सटीकता: वास्तविक तैनाती में सटीकता
- अनुमान समय: एकल अनुमान का समय ओवरहेड
- मॉडल आकार: मॉडल फ़ाइल आकार
- मोडल तुलना: RGB बनाम थर्मल इमेजिंग बनाम संयुक्त मोडल
- वातावरण-तरल संयोजन: 8 संयोजनों का प्रदर्शन मूल्यांकन
- मॉडल आर्किटेक्चर तुलना: 11 पूर्व-प्रशिक्षित मॉडल की प्रदर्शन तुलना
| छवि प्रकार | परीक्षण सटीकता | प्रदर्शन सटीकता | मॉडल आकार | अनुमान समय |
|---|
| थर्मल इमेजिंग | 100% | 100% | 324.6 MB | 44 ms |
| RGB | 98.84% | 100% | 1.0 GB | 55 ms |
| संयुक्त | 100% | 60% | 525.9 MB | 47 ms |
सभी 8 कमरे-तरल संयोजन प्राप्त:
- परीक्षण सटीकता: 100%
- प्रदर्शन सटीकता: 100%
- मॉडल आकार: 324.6 MB
- अनुमान समय: 44-45 ms
| मॉडल | परीक्षण सटीकता | प्रदर्शन सटीकता | मॉडल आकार | अनुमान समय |
|---|
| VGG19 | 100% | 100% | 324.6 MB | 46 ms |
| ResNet50 | 99.66% | - | - | - |
| EfficientNetB3 | 99.15% | - | - | - |
| NasNetMobile | 100% | 100% | 440.3 MB | 55 ms |
| InceptionV3 | 98.88% | - | - | - |
- थर्मल इमेजिंग लाभ स्पष्ट:
- सबसे तेजी से अनुमान गति (44ms बनाम 55ms)
- सबसे छोटा मॉडल आकार (324.6MB बनाम 1.0GB)
- सर्वोत्तम वास्तविक समय तैनाती प्रभाव
- VGG19 सर्वोत्तम विकल्प:
- 100% सटीकता प्राप्त करने वाले मॉडल में, VGG19 NasNetMobile से 9ms तेजी है
- मॉडल आकार 115.7MB छोटा है
- पर्यावरणीय मजबूती: थर्मल इमेजिंग मॉडल विभिन्न कमरों, तरल पदार्थ के प्रकारों में 100% सटीकता बनाए रखता है
- संयुक्त मोडल सीमाएं: हालांकि परीक्षण सटीकता अधिक है, वास्तविक समय प्रदर्शन सटीकता केवल 60% है
- Bhutad और Patil: 1,976 छवियों का एक टिप्पणीकृत जल भराव और गीली सतह डेटासेट प्रकाशित किया
- Gawdzik और Orłowski: औद्योगिक वातावरण में रिसाव तरल पदार्थ का पता लगाने और विभाजन के लिए Mask R-CNN का उपयोग किया
- Yang आदि: रंग, ध्रुवीकरण और गहराई जानकारी को मिलाने वाली ध्रुवीकृत RGB-D फ्रेमवर्क प्रस्तावित की
- Appuhamy आदि: थर्मल कैमरा पर आधारित सतह नमी मानचित्रण विधि विकसित की
- Bao आदि: पाइपलाइन रिसाव का पता लगाने के लिए अवरक्त और दृश्यमान प्रकाश दोहरे कैमरे सिस्टम डिजाइन किया
- Zhang & Zhang: पाइपलाइन रिसाव निगरानी के लिए थर्मल छवि को CNN में इनपुट किया
मौजूदा विधियां आमतौर पर हाथ से डिजाइन किए गए संलयन या बहु-चरणीय पाइपलाइन का उपयोग करती हैं, यह पेपर अंत-से-अंत CNN सीखने वाले बहु-मोडल डेटा का उपयोग करता है।
- Bouguettaya आदि: मोबाइल CNN का सर्वेक्षण, MobileNet Jetson TX2 पर 28 FPS तक पहुंच सकता है
- यह पेपर उपभोक्ता-स्तर के हार्डवेयर पर पूर्व-प्रशिक्षित नेटवर्क की व्यवहार्यता का मूल्यांकन करने पर केंद्रित है
विविध प्रकाश स्थितियों और अलग-थलग पर्यावरणीय ताप स्रोतों वाले वातावरण में, थर्मल इमेजिंग पर प्रशिक्षित VGG19 छवि वर्गीकरण मॉडल अनुमान समय, परीक्षण सटीकता और वास्तविक समय तैनाती सटीकता में सर्वोत्तम प्रदर्शन प्रदान करता है।
- पर्यावरणीय ताप स्रोत संवेदनशीलता: सर्वोत्तम प्रदर्शन के लिए पर्यावरणीय ताप स्रोतों को अलग करने की आवश्यकता है
- थर्मल संतुलन समस्या: लंबे समय तक रिसाव भूमि के साथ थर्मल संतुलन तक पहुंच सकता है और पहचान में कठिनाई हो सकती है
- डेटासेट आकार: 4,000 छवियों का डेटासेट अपेक्षाकृत छोटा है
- पर्यावरणीय प्रतिबंध: केवल दो इनडोर वातावरणों में परीक्षण किया गया
- गैर-अलग-थलग वातावरण परीक्षण: पैदल यातायात प्रवाह आदि पर्यावरणीय ताप स्रोतों की स्थितियों में प्रयोग
- एकीकरण विधि अन्वेषण: RGB और थर्मल विशेषताओं को मिलाने वाली एकीकरण विधि, थर्मल इमेजिंग में पर्यावरणीय ताप स्रोत गलत वर्गीकरण को सुधारने के लिए RGB का उपयोग करना
- बड़े पैमाने पर सत्यापन: अधिक विविध वातावरण और स्थितियों में सिस्टम प्रदर्शन को सत्यापित करना
- व्यवस्थित तुलना: विभिन्न मोडल और मॉडल आर्किटेक्चर के प्रदर्शन की व्यापक तुलना, व्यावहारिक अनुप्रयोग के लिए स्पष्ट मार्गदर्शन प्रदान करती है
- व्यावहारिकता मजबूत: उपभोक्ता-स्तर के हार्डवेयर पर वास्तविक समय प्रदर्शन प्राप्त किया, बहुत मजबूत व्यावहारिक तैनाती मूल्य है
- सैद्धांतिक आधार ठोस: थर्मल इमेजिंग के भौतिक लाभ और रिसाव पहचान में विफलता तंत्र का विस्तृत विश्लेषण
- प्रायोगिक डिजाइन उचित: कई तरल पदार्थ के प्रकार, पर्यावरणीय स्थितियां और मूल्यांकन आयाम शामिल
- परिणाम प्रेरक: 100% सटीकता और 44ms अनुमान समय विधि की प्रभावशीलता को प्रमाणित करते हैं
- डेटासेट आकार सीमा: 4,000 छवियां गहन शिक्षण के लिए अपेक्षाकृत छोटी हैं, अधिक-फिटिंग का जोखिम हो सकता है
- पर्यावरणीय स्थितियां सीमित: केवल अलग-थलग पर्यावरणीय ताप स्रोतों की आदर्श स्थितियों में परीक्षण, वास्तविक अनुप्रयोग परिदृश्य अधिक जटिल हो सकते हैं
- सामान्यीकरण क्षमता अपर्याप्त रूप से सत्यापित: केवल दो इनडोर वातावरणों में परीक्षण, बाहरी या अन्य प्रकार के वातावरण के अनुकूलन की अज्ञात क्षमता
- दीर्घकालीन स्थिरता अमूल्यांकित: दीर्घकालीन संचालन की स्थिरता और विश्वसनीयता मूल्यांकन की कमी
- लागत-लाभ विश्लेषण अनुपस्थित: थर्मल इमेजिंग उपकरण लागत और प्रदर्शन सुधार के बीच व्यापार-बंद विश्लेषण प्रदान नहीं किया गया
- शैक्षणिक योगदान: सुरक्षा अनुप्रयोगों में कंप्यूटर विजन के बहु-मोडल संलयन के लिए मूल्यवान अनुभव प्रदान करता है
- व्यावहारिक मूल्य: वाणिज्यिक और औद्योगिक वातावरण में सुरक्षा निगरानी प्रणाली के लिए व्यवहार्य तकनीकी समाधान प्रदान करता है
- पुनरुत्पादनीयता: विस्तृत प्रायोगिक सेटअप और GitHub कोड रिपोजिटरी प्रदान करता है, पुनरुत्पादन और विस्तार को सुविधाजनक बनाता है
- इनडोर वाणिज्यिक वातावरण: रेस्तरां, कैफे, खुदरा दुकानें जहां वास्तविक समय सुरक्षा निगरानी की आवश्यकता है
- औद्योगिक सुरक्षा निगरानी: रासायनिक कारखाने, गोदाम जहां तरल रिसाव पहचान की आवश्यकता है
- रोबोट नेविगेशन: मोबाइल रोबोट को भूमि की बाधाओं और खतरनाक क्षेत्रों की पहचान करने की आवश्यकता है
- स्मार्ट बिल्डिंग: बिल्डिंग प्रबंधन प्रणाली में एकीकृत करके निवारक सुरक्षा निगरानी के लिए
पेपर 11 संबंधित संदर्भों का हवाला देता है, जिसमें थर्मल इमेजिंग पहचान, RGB दृश्य विधियां, बहु-मोडल संलयन और हल्के वजन वाले मॉडल आदि संबंधित क्षेत्रों के महत्वपूर्ण कार्य शामिल हैं, जो अनुसंधान के लिए पर्याप्त सैद्धांतिक आधार और तुलना बेंचमार्क प्रदान करते हैं।
समग्र मूल्यांकन: यह एक बहुत ही व्यावहारिक अनुप्रयोग अनुसंधान पेपर है जो व्यवस्थित प्रयोगों के माध्यम से रिसाव पहचान कार्य में थर्मल इमेजिंग के लाभ को सत्यापित करता है। हालांकि डेटा स्केल और पर्यावरणीय जटिलता के पहलुओं में सीमाएं हैं, इसके स्पष्ट निष्कर्ष और व्यावहारिक प्रणाली डिजाइन संबंधित अनुप्रयोगों के लिए मूल्यवान संदर्भ प्रदान करते हैं।