2025-11-11T07:07:08.271446

Large model retrieval enhancement framework for construction site risk identification

Li, Yang, Zhang et al.

This study addresses construction site hazard identification by proposing a retrieval-augmented framework that enhances large language models (LLMs) without requiring fine-tuning. Current LLM-based approaches face limitations: image-text matching struggles with complex hazards, while instruction tuning lacks generalization and is resource-intensive. Our method dynamically integrates external knowledge and retrieved similar cases via prompt tuning, overcoming LLMs' limitations in domain knowledge and feature correlation. The framework comprises a case database, an image retrieval module, and an LLM-based reasoning module. Evaluated on real-site data, our approach boosted GLM-4V's accuracy to 50%, a 35.49% improvement over baselines, with consistent gains across hazard types. Ablation studies validated the effectiveness of our image retrieval strategy, showing the superiority of our LPIPS- and CLIP-based method. The proposed technique significantly improves identification accuracy and contextual understanding, demonstrating strong generalization and offering a practical path for intelligent safety risk detection in construction.

academic

निर्माण स्थल जोखिम पहचान के लिए बड़ा मॉडल पुनर्प्राप्ति वृद्धि ढांचा

मूल जानकारी

पत्र ID: 2508.02073
शीर्षक: निर्माण स्थल जोखिम पहचान के लिए बड़ा मॉडल पुनर्प्राप्ति वृद्धि ढांचा
लेखक: ली जियावेई, यांग चेंगये, झांग शियाओचेन, सुन जिंगजिंग, मेंग लेई, मेंग जियांगक्सू
वर्गीकरण: cs.AI
प्रकाशन समय/सम्मेलन: चीन छवि और ग्राफिक्स जर्नल
पत्र लिंक: https://arxiv.org/abs/2508.02073

सारांश

इस अध्ययन में निर्माण स्थल जोखिम पहचान समस्या के लिए, बड़े भाषा मॉडल प्रदर्शन को बढ़ाने हेतु एक ट्यूनिंग-मुक्त पुनर्प्राप्ति वृद्धि ढांचा प्रस्तावित किया गया है। वर्तमान LLM-आधारित विधियों में सीमाएं हैं: जटिल जोखिम पहचान में छवि-पाठ मिलान क्षमता अपर्याप्त है, और निर्देश ट्यूनिंग में सामान्यीकरण क्षमता की कमी और संसाधन खपत अधिक है। यह विधि संकेत ट्यूनिंग तकनीक द्वारा बाहरी ज्ञान库 और पुनर्प्राप्ति उदाहरण संदर्भ को गतिशील रूप से एकीकृत करती है, जिससे बड़े मॉडल में डोमेन ज्ञान और विशेषता सहसंबंध की कमी दूर होती है। ढांचे में उदाहरण डेटाबेस, छवि पुनर्प्राप्ति मॉड्यूल और LLM-आधारित अनुमान मॉड्यूल शामिल हैं। वास्तविक निर्माण स्थल डेटा पर मूल्यांकन से पता चलता है कि इस विधि ने GLM-4V की सटीकता 50% तक बढ़ा दी, जो आधार रेखा विधि से 35.49% अधिक है, और सभी प्रकार के जोखिम पहचान में लगातार प्रदर्शन वृद्धि हुई। पृथक्करण प्रयोगों ने छवि पुनर्प्राप्ति रणनीति की प्रभावशीलता को सत्यापित किया, और CLIP-आधारित विधि की LPIPS पर श्रेष्ठता को सिद्ध किया।

शोध पृष्ठभूमि और प्रेरणा

1. हल की जाने वाली समस्या

यह शोध निर्माण स्थल जोखिम छिपे खतरों की स्वचालित पहचान समस्या को हल करता है। पारंपरिक मानव निरीक्षण में चूक दर अधिक, पुनरावृत्ति अधिक और वास्तविक समय निगरानी असंभव जैसी सीमाएं हैं, जबकि मौजूदा कंप्यूटर दृष्टि-आधारित विधियों में सामान्यीकरण क्षमता और पहचान सटीकता में अभी भी कमी है।

2. समस्या की महत्ता

सुरक्षा गारंटी: निर्माण स्थल सुरक्षा दुर्घटनाएं अक्सर होती हैं, सटीक छिपे खतरों की पहचान दुर्घटनाओं को रोकने में महत्वपूर्ण है
दक्षता वृद्धि: स्वचालित पहचान पारंपरिक मानव निरीक्षण की जगह ले सकता है, जांच दक्षता बढ़ा सकता है
लागत नियंत्रण: मानव श्रम निवेश और सुरक्षा दुर्घटनाओं से आर्थिक नुकसान को कम करना

मुख्य योगदान

नवीन ढांचा प्रस्ताव: छिपे खतरों की पहचान के लिए एक समान उदाहरण पुनर्प्राप्ति वृद्धि ढांचा (RDRAG) प्रस्तावित किया
प्लग-एंड-प्ले डिज़ाइन: संकेत ट्यूनिंग रणनीति के माध्यम से बड़े मॉडल का प्रशिक्षण-मुक्त अनुकूलन
व्यवस्थित मूल्यांकन: वास्तविक निर्माण स्थल डेटा पर विभिन्न बड़े मॉडलों के पहचान प्रदर्शन का व्यवस्थित मूल्यांकन

विधि विवरण

...

प्रयोगात्मक सेटअप

...

प्रयोगात्मक परिणाम

...

निष्कर्ष और चर्चा

...

गहन मूल्यांकन

...

संदर्भ

...

कुल मिलाकर मूल्यांकन: यह एक उच्च गुणवत्ता वाला अनुप्रयोग-प्रकार शोध पत्र है, प्रस्तावित RDRAG ढांचा नवीन और व्यावहारिक है, प्रयोगात्मक डिज़ाइन उचित है, परिणाम विश्वसनीय हैं। यद्यपि डेटा पैमाने और कुछ तकनीकी विवरणों में सुधार की गुंजाइश है, लेकिन औद्योगिक सुरक्षा क्षेत्र में बहु-मोडल बड़े मॉडलों के अनुप्रयोग के लिए मूल्यवान योगदान प्रदान करता है।