This study addresses construction site hazard identification by proposing a retrieval-augmented framework that enhances large language models (LLMs) without requiring fine-tuning. Current LLM-based approaches face limitations: image-text matching struggles with complex hazards, while instruction tuning lacks generalization and is resource-intensive. Our method dynamically integrates external knowledge and retrieved similar cases via prompt tuning, overcoming LLMs' limitations in domain knowledge and feature correlation. The framework comprises a case database, an image retrieval module, and an LLM-based reasoning module. Evaluated on real-site data, our approach boosted GLM-4V's accuracy to 50%, a 35.49% improvement over baselines, with consistent gains across hazard types. Ablation studies validated the effectiveness of our image retrieval strategy, showing the superiority of our LPIPS- and CLIP-based method. The proposed technique significantly improves identification accuracy and contextual understanding, demonstrating strong generalization and offering a practical path for intelligent safety risk detection in construction.
academic- رقم الورقة: 2508.02073
- العنوان: إطار عمل لتحسين استرجاع النماذج الكبيرة لتحديد مخاطر مواقع البناء
- المؤلفون: لي جياوي، يانغ تشنغييه، تشانغ شياوتشين، سون يويوي، مينغ لي، مينغ شيانغشو
- التصنيف: cs.AI
- وقت/مؤتمر النشر: مجلة الصين للصور والرسومات البيانية
- رابط الورقة: https://arxiv.org/abs/2508.02073
تقترح هذه الدراسة إطار عمل لتعزيز الاسترجاع لتحسين أداء النماذج اللغوية الكبيرة لتحديد مخاطر مواقع البناء دون الحاجة إلى ضبط دقيق. تواجه الطرق الحالية القائمة على LLM قيودًا: عدم كفاية مطابقة الصور والنصوص في تحديد المخاطر المعقدة، وافتقار الضبط الدقيق للتعليمات إلى القدرة على التعميم واستهلاك الموارد الكبير. تتغلب هذه الطريقة على أوجه القصور في النماذج الكبيرة في مجال المعرفة وارتباط الميزات من خلال دمج قاعدة المعرفة الخارجية وسياق استرجاع الأمثلة باستخدام تقنية الضبط الدقيق الموجه. يحتوي الإطار على قاعدة بيانات الأمثلة، وحدة استرجاع الصور، ووحدة الاستدلال القائمة على LLM. أظهرت التقييمات على بيانات مواقع البناء الحقيقية أن هذه الطريقة ترفع دقة GLM-4V إلى 50٪، بزيادة 35.49٪ عن الطريقة الأساسية، مع تحسين موحد في تحديد جميع أنواع المخاطر. تحققت التجارب من فعالية استراتيجية استرجاع الصور، وأثبتت تفوق الطرق القائمة على CLIP مقارنة بـ LPIPS.
تهدف هذه الدراسة إلى حل مشكلة التحديد الآلي لمخاطر مواقع البناء. يعاني التفتيش اليدوي التقليدي من قيود مثل ارتفاع معدل الإغفال والتكرار وعدم القدرة على المراقبة في الوقت الفعلي، بينما لا تزال الطرق الحالية القائمة على الرؤية الحاسوبية غير كافية في القدرة على التعميم ودقة التحديد.
- ضمان السلامة: تحدث حوادث السلامة بشكل متكرر في مواقع البناء، والتحديد الدقيق للمخاطر له أهمية كبيرة في منع الحوادث
- تحسين الكفاءة: يمكن للتحديد الآلي أن يحل محل التفتيش اليدوي التقليدي، ويحسن كفاءة الفحص
- التحكم في التكاليف: تقليل المدخلات البشرية والخسائر الاقتصادية الناجمة عن حوادث السلامة
- تقديم إطار عمل مبتكر: تقديم إطار عمل لتحديد المخاطر يعتمد على تعزيز استرجاع الأمثلة المتشابهة (RDRAG)، يدمج بشكل مبتكر التعلم الموجه للنماذج الكبيرة وآلية استرجاع الأمثلة
- تصميم جاهز للاستخدام: بناء وحدة تعزيز استرجاع جاهزة للاستخدام، وتحقيق التحسين بدون تدريب للنماذج الكبيرة من خلال استراتيجية الضبط الدقيق الموجه
...
...
...
...
...
...
تم الاستشهاد بالعديد من الأعمال ذات الصلة في الورقة، والتي تغطي اتجاهات بحثية متعددة مثل طرق الرؤية الحاسوبية التقليدية، والتعلم متعدد الوسائط، وتوليد تعزيز الاسترجاع، مما يوفر أساسًا نظريًا قويًا للبحث.
التقييم العام: هذه ورقة بحث تطبيقية عالية الجودة، يقدم إطار عمل RDRAG المقترح ابتكارًا وعملية، وتصميم التجارب منطقي، والنتائج مقنعة. على الرغم من وجود مجال للتحسين في حجم البيانات وبعض التفاصيل التقنية، إلا أنها تقدم مساهمة قيمة لتطبيق النماذج متعددة الوسائط الكبيرة في مجال السلامة الصناعية.