This study addresses construction site hazard identification by proposing a retrieval-augmented framework that enhances large language models (LLMs) without requiring fine-tuning. Current LLM-based approaches face limitations: image-text matching struggles with complex hazards, while instruction tuning lacks generalization and is resource-intensive. Our method dynamically integrates external knowledge and retrieved similar cases via prompt tuning, overcoming LLMs' limitations in domain knowledge and feature correlation. The framework comprises a case database, an image retrieval module, and an LLM-based reasoning module. Evaluated on real-site data, our approach boosted GLM-4V's accuracy to 50%, a 35.49% improvement over baselines, with consistent gains across hazard types. Ablation studies validated the effectiveness of our image retrieval strategy, showing the superiority of our LPIPS- and CLIP-based method. The proposed technique significantly improves identification accuracy and contextual understanding, demonstrating strong generalization and offering a practical path for intelligent safety risk detection in construction.
- পেপার আইডি: 2508.02073
- শিরোনাম: Large model retrieval enhancement framework for construction site risk identification (নির্মাণ স্থল ঝুঁকি লুকানো সনাক্তকরণের জন্য বৃহৎ মডেল পুনরুদ্ধার বর্ধন কাঠামো)
- লেখক: লি জিয়াওয়েই, ইয়াং চেংইয়ে, ঝাং ইয়াওচেন, সান ওয়েইলিন, মেং লেই, মেং জিয়াংক্সু
- শ্রেণীবিভাগ: cs.AI
- প্রকাশনার সময়/সম্মেলন: চাইনিজ জার্নাল অফ ইমেজ এন্ড গ্রাফিক্স (চিত্র এবং গ্রাফিক্স জার্নাল)
- পেপার লিংক: https://arxiv.org/abs/2508.02073
এই গবেষণা নির্মাণ স্থলের ঝুঁকি লুকানো সনাক্তকরণের সমস্যার সমাধানের জন্য একটি সূক্ষ্ম-সুর ছাড়াই পুনরুদ্ধার বর্ধন কাঠামো প্রস্তাব করে। বর্তমান LLM-ভিত্তিক পদ্ধতিগুলির সীমাবদ্ধতা রয়েছে: চিত্র-পাঠ্য মিলান জটিল ঝুঁকি সনাক্তকরণে অপর্যাপ্ত ক্ষমতা রাখে, যখন নির্দেশনা সূক্ষ্ম-সুর সাধারণীকরণের অভাব এবং উচ্চ সম্পদ খরচ রয়েছে। এই পদ্ধতি প্রম্পট সূক্ষ্ম-সুর কৌশলের মাধ্যমে বাহ্যিক জ্ঞান ভাণ্ডার এবং পুনরুদ্ধার কেস প্রসঙ্গ গতিশীলভাবে একীভূত করে, বৃহৎ মডেলের ডোমেইন জ্ঞান এবং বৈশিষ্ট্য সম্পর্কের অভাব অতিক্রম করে। কাঠামোতে কেস ডাটাবেস, চিত্র পুনরুদ্ধার মডিউল এবং LLM-ভিত্তিক অনুমান মডিউল রয়েছে। প্রকৃত নির্মাণ স্থল ডেটায় মূল্যায়ন দেখায় যে এই পদ্ধতি GLM-4V এর নির্ভুলতা 50% এ উন্নীত করে, ভিত্তিরেখা পদ্ধতির চেয়ে 35.49% বৃদ্ধি, সমস্ত ধরনের ঝুঁকি সনাক্তকরণে সামঞ্জস্যপূর্ণ কর্মক্ষমতা উন্নতি।
এই গবেষণা নির্মাণ স্থলের ঝুঁকি লুকানো স্বয়ংক্রিয় সনাক্তকরণের সমস্যা সমাধান করে। ঐতিহ্যবাহী ম্যানুয়াল পরিদর্শন উচ্চ ত্রুটির হার, পুনরাবৃত্তিমূলক প্রকৃতি এবং রিয়েল-টাইম পর্যবেক্ষণের অক্ষমতা সহ সীমাবদ্ধতা রয়েছে, যখন বিদ্যমান কম্পিউটার দৃষ্টিভঙ্গি-ভিত্তিক পদ্ধতিগুলি সাধারণীকরণ ক্ষমতা এবং সনাক্তকরণ নির্ভুলতায় অপর্যাপ্ত।
- নিরাপত্তা নিশ্চিতকরণ: নির্মাণ স্থলের নিরাপত্তা দুর্ঘটনা ঘন ঘন ঘটে, সঠিক ঝুঁকি সনাক্তকরণ দুর্ঘটনা প্রতিরোধে গুরুত্বপূর্ণ
- দক্ষতা বৃদ্ধি: স্বয়ংক্রিয় সনাক্তকরণ ঐতিহ্যবাহী ম্যানুয়াল পরিদর্শন প্রতিস্থাপন করতে পারে, পরীক্ষার দক্ষতা বৃদ্ধি করে
- খরচ নিয়ন্ত্রণ: মানব শ্রম বিনিয়োগ এবং নিরাপত্তা দুর্ঘটনা দ্বারা সৃষ্ট অর্থনৈতিক ক্ষতি হ্রাস করে
বিদ্যমান বৃহৎ ভাষা মডেল-ভিত্তিক পদ্ধতিগুলি প্রধানত দুটি বিভাগে বিভক্ত:
- চিত্র-পাঠ্য মিলান পদ্ধতি: বহু-মোডাল সারিবদ্ধতার মাধ্যমে চিত্র এবং শব্দার্থিক মিলান উন্নত করে, কিন্তু জটিল ঝুঁকি বৈশিষ্ট্য বোঝার ক্ষেত্রে সীমিত
- নির্দেশনা সূক্ষ্ম-সুর পদ্ধতি: ডোমেইন জ্ঞান দ্বারা মডেল বিশ্লেষণ গভীরতা বৃদ্ধি করে, কিন্তু উচ্চ প্রশিক্ষণ খরচ এবং দুর্বল সাধারণীকরণ সমস্যা রয়েছে
উচ্চ খরচ সূক্ষ্ম-সুর এড়ানোর সাথে সাথে জটিল ঝুঁকি সনাক্তকরণে বৃহৎ মডেলের নির্ভুলতা এবং ডোমেইন অভিযোজনযোগ্যতা বৃদ্ধি করতে, বাহ্যিক জ্ঞান উৎস প্রবর্তন এবং পুনরুদ্ধার বর্ধন বাস্তবায়ন একটি অন্বেষণযোগ্য সমাধান পথ হয়ে ওঠে।
- উদ্ভাবনী কাঠামো প্রস্তাব: সমান কেস পুনরুদ্ধার বর্ধন-ভিত্তিক ঝুঁকি সনাক্তকরণ কাঠামো (RDRAG) প্রস্তাব করে, সৃজনশীলভাবে বৃহৎ মডেল প্রম্পট শিক্ষা এবং উদাহরণ পুনরুদ্ধার প্রক্রিয়া একীভূত করে
- প্লাগ-এন্ড-প্লে ডিজাইন: একটি প্লাগ-এন্ড-প্লে পুনরুদ্ধার বর্ধন মডিউল তৈরি করে, প্রম্পট সূক্ষ্ম-সুর কৌশলের মাধ্যমে বৃহৎ মডেলের প্রশিক্ষণ-মুক্ত অপ্টিমাইজেশন অর্জন করে
- সিস্টেমেটিক মূল্যায়ন: প্রকৃত নির্মাণ স্থল ডেটায় বিভিন্ন বৃহৎ মডেলের সনাক্তকরণ কর্মক্ষমতা সিস্টেমেটিকভাবে মূল্যায়ন করে, পুনরুদ্ধার বর্ধনের মডেল সাধারণীকরণ ক্ষমতা এবং ব্যাখ্যা ক্ষমতা উন্নতিতে সুবিধা স্পষ্ট করে
- উল্লেখযোগ্য কর্মক্ষমতা বৃদ্ধি: GLM-4V মডেল নির্ভুলতা 14.51% থেকে 50% এ উন্নীত হয়, বৃদ্ধির মাত্রা 35.49%
বহু-মোডাল ঝুঁকি সনাক্তকরণ ডেটাসেট দেওয়া D={(I1,C1,L1),(I2,C2,L2),...,(IN,CN,LN)}, যেখানে:
- Ii: নির্মাণ স্থল নির্মাণ চিত্র
- Ci: ঝুঁকি বর্ণনা পাঠ্য তথ্য
- Li: ঝুঁকি বিভাগ লেবেল
লক্ষ্য হল পুনরুদ্ধার বর্ধন প্রজন্ম কাঠামোর মাধ্যমে, ইনপুট চিত্র Ii এর জন্য সঠিক ঝুঁকি বিভাগ Li^ এবং বর্ণনা Ci^ তৈরি করা:
Li^,Ci^=f(Ii,{Cj∣j=1,...,K})
RDRAG কাঠামোতে তিনটি মূল মডিউল রয়েছে:
কাঠামোগত ঝুঁকি কেস ডাটাবেস তৈরি করে, ঐতিহাসিক নির্মাণ স্থল ঝুঁকি কেস সংরক্ষণ করে, প্রতিটি এন্ট্রিতে চিত্র, পাঠ্য বর্ণনা এবং বিভাগ লেবেল রয়েছে।
CLIP মডেল ভিত্তিক ক্রস-মোডাল সাদৃশ্য গণনা বাস্তবায়ন করে:
বৈশিষ্ট্য নিষ্কাশন:
f(Ii)=CLIP(Ii),f(Ij)=CLIP(Ij)
সাদৃশ্য গণনা:
Sim(Ii,Ij)=∣∣f(Ii)∣∣⋅∣∣f(Ij)∣∣f(Ii)⋅f(Ij)
শীর্ষ-K পুনরুদ্ধার:
{(Ij,Cj,Lj)∣j∈{1,2,...,K}}=Top-K(Sim(Ii,Ij))
পুনরুদ্ধার করা সমান কেস এবং বর্তমান চিত্র প্রম্পটে একত্রিত করে:
Prompti=Concat(Ii,{Cj∣j∈{1,2,...,K}})
বহু-মোডাল বৃহৎ ভাষা মডেলের মাধ্যমে ফলাফল তৈরি করে:
Li^,Ci^=LM(Prompti)
- প্রশিক্ষণ-মুক্ত অপ্টিমাইজেশন: বৃহৎ মডেলের সূক্ষ্ম-সুর প্রয়োজন নেই, পুনরুদ্ধার বর্ধনের মাধ্যমে কর্মক্ষমতা উন্নতি অর্জন করে
- গতিশীল জ্ঞান একীকরণ: ইনপুট চিত্রের উপর ভিত্তি করে গতিশীলভাবে সম্পর্কিত কেস পুনরুদ্ধার করে, প্রসঙ্গ তথ্য প্রদান করে
- ক্রস-মোডাল পুনরুদ্ধার: CLIP মডেল ব্যবহার করে চিত্র-পাঠ্য ক্রস-মোডাল সাদৃশ্য গণনা করে
- প্রম্পট প্রকৌশল: চারটি ভিন্ন প্রম্পট টেমপ্লেট ডিজাইন করে, মডেল আউটপুট ফর্ম্যাট এবং নির্ভুলতা অপ্টিমাইজ করে
- Rwecd ডেটাসেট: প্রাদেশিক হাইওয়ে নির্মাণ প্রকৃত চিত্রের উপর ভিত্তি করে তৈরি
- মোট স্কেল: 325টি ঝুঁকি চিত্র নমুনা
- বিভাগ সংখ্যা: 15 ধরনের বিভিন্ন ঝুঁকি বিভাগ
- ডেটা বিভাজন: 105টি চিত্র পুনরুদ্ধার লাইব্রেরি তৈরি করে, 220টি চিত্র পরীক্ষা সেট হিসাবে
- বিভাগ নির্ভুলতা:
CategoryAccuracy=N1∑i=1NI(Li=Li^)
- BERT সাদৃশ্য:
BERTSim(Ci,Ci^)=∣∣fBERT(Ci)∣∣⋅∣∣fBERT(Ci^)∣∣fBERT(Ci)⋅fBERT(Ci^)
- TF-IDF সাদৃশ্য:
TFIDFSim(Ci,Ci^)=∣∣fTFIDF(Ci)∣∣⋅∣∣fTFIDF(Ci^)∣∣fTFIDF(Ci)⋅fTFIDF(Ci^)
- GLM-4V: সার্বজনীন ভাষা মডেল Zhipu ChatGLM সিরিজের বহু-মোডাল সম্প্রসারণ সংস্করণ
- ChatGPT-4o: OpenAI দ্বারা চালু করা বহু-মোডাল বৃহৎ ভাষা মডেল
- Deepseek-vl2: DeepSeek দল দ্বারা উন্নত বহু-মোডাল বৃহৎ ভাষা মডেল
চারটি প্রম্পট টেমপ্লেট ডিজাইন করা হয়েছে:
- Type1: মৌলিক নির্দেশনা, কোনো অতিরিক্ত তথ্য যোগ করা হয় না
- Type2: বিভাগ নির্দেশনা, 15টি ঝুঁকি বিভাগ তথ্য যোগ করা হয়
- Type3: ফর্ম্যাট নিয়মকানুন, আউটপুট ফর্ম্যাট প্রয়োজনীয়তা যোগ করা হয়
- Type4: যৌগিক বর্ধন, একই সাথে বিভাগ এবং ফর্ম্যাট তথ্য যোগ করা হয়
| পদ্ধতি | মডেল | Acc | BERT | TF-IDF |
|---|
| ভিত্তি | GLM-4V | 14.51% | 69.95 | 3.17 |
| ভিত্তি | ChatGPT-4O | 53.54% | 71.67 | 5.75 |
| ভিত্তি | Deepseek-vl2 | 14.91% | 68.15 | 2.34 |
| COT | GLM-4V | 17.28% | 70.09 | 3.68 |
| COT | ChatGPT-4O | 55.08% | 71.30 | 4.64 |
| COT | Deepseek-vl2 | 12.11% | 66.87 | 2.33 |
| RDRAG | GLM-4V | 50.00% | 77.51 | 11.83 |
| RDRAG | ChatGPT-4O | 59.09% | 73.81 | 6.40 |
| RDRAG | Deepseek-vl2 | 36.53% | 72.25 | 6.86 |
মূল আবিষ্কার:
- GLM-4V নির্ভুলতা 14.51% থেকে 50.00% এ উন্নীত হয়, 35.49% বৃদ্ধি
- সমস্ত মডেল BERT সাদৃশ্য এবং TF-IDF সাদৃশ্যে উল্লেখযোগ্য উন্নতি দেখায়
- COT পদ্ধতি সীমিত কার্যকারিতা, এমনকি কিছু ক্ষেত্রে নেতিবাচক প্রভাব
| মডেল | পদ্ধতি | Acc | BERT | TF-IDF |
|---|
| GLM-4V | RDRAG | 50.00% | 77.51 | 11.83 |
| GLM-4V | LPIPS | 43.64% | 77.11 | 9.63 |
| GLM-4V | ভিত্তি | 37.73% | 76.49 | 6.66 |
ফলাফল বিশ্লেষণ:
- CLIP-ভিত্তিক পুনরুদ্ধার কৌশল LPIPS-ভিত্তিক কৌশলের চেয়ে উন্নত
- পুনরুদ্ধার লাইব্রেরি প্রক্রিয়া সমস্ত মডেলে ইতিবাচক উন্নতি প্রদান করে
- CLIP এর ক্রস-মোডাল ক্ষমতা চিত্র বিষয়বস্তু সাদৃশ্য বোঝায় আরও কার্যকর
Type4 (যৌগিক বর্ধন) টেমপ্লেট শব্দার্থিক সাদৃশ্য এবং মূল শব্দ মিলানোর হারে সেরা কর্মক্ষমতা দেখায়, তাই চূড়ান্ত প্রম্পট পরিকল্পনা হিসাবে নির্বাচিত হয়।
15টি ঝুঁকি বিভাগে, RDRAG পদ্ধতি বেশিরভাগ বিভাগে উল্লেখযোগ্য উন্নতি দেখায়, বিশেষত:
- উচ্চ নমুনা সংখ্যার বিভাগ (যেমন বিতরণ বাক্স সময়মত লক করা হয়নি: 26%→60%)
- মূল লক্ষ্য বস্তু সমান বিভাগ (যেমন অগ্নিনির্বাপণ সুবিধা সম্পর্কিত: 0%→50%)
- জটিল দৃশ্য বিভাগ (যেমন সরঞ্জাম নিরাপত্তা সুরক্ষা: 12%→64.71%)
- ম্যানুয়াল পরিদর্শন: নিরাপত্তা ব্যবস্থাপনা কর্মীদের অভিজ্ঞতার উপর নির্ভর করে, ত্রুটি, পুনরাবৃত্তি উচ্চতা সমস্যা রয়েছে
- IoT প্রযুক্তি: সেন্সর নেটওয়ার্কের মাধ্যমে রিয়েল-টাইম পর্যবেক্ষণ, কিন্তু উচ্চ খরচ, সরঞ্জাম প্রয়োজনীয়তা বড়
- কম্পিউটার দৃষ্টিভঙ্গি: SIFT, HOG, CNN প্রযুক্তির উপর ভিত্তি করে, কিন্তু চিত্র গুণমান এবং অ্যালগরিদম নির্ভুলতা দ্বারা সীমিত কর্মক্ষমতা
- বহু-মোডাল সারিবদ্ধতা: বৈপরীত্য শিক্ষা, ক্রস-মোডাল মনোযোগ প্রক্রিয়ার মাধ্যমে কর্মক্ষমতা উন্নত করে
- কম-নমুনা শিক্ষা: মেটা-শিক্ষা, প্রম্পট শিক্ষা, স্থানান্তর শিক্ষা ব্যবহার করে মন্তব্য ডেটা নির্ভরতা হ্রাস করে
- পুনরুদ্ধার বর্ধন প্রজন্ম: বাহ্যিক জ্ঞান ভাণ্ডার একত্রিত করে মডেল কর্মক্ষমতা উন্নত করে
- RDRAG কাঠামো নির্মাণ স্থল ঝুঁকি সনাক্তকরণে বৃহৎ মডেলের নির্ভুলতা এবং প্রসঙ্গ বোঝার ক্ষমতা উল্লেখযোগ্যভাবে উন্নত করে
- পুনরুদ্ধার বর্ধন পদ্ধতি প্রশিক্ষণ ছাড়াই উল্লেখযোগ্য কর্মক্ষমতা উন্নতি অর্জন করে
- CLIP-ভিত্তিক চিত্র পুনরুদ্ধার কৌশল ঐতিহ্যবাহী উপলব্ধি সাদৃশ্য পদ্ধতির চেয়ে উন্নত
- পদ্ধতি বহু-বিভাগ ঝুঁকি দৃশ্যে ভাল সাধারণীকরণ কর্মক্ষমতা প্রদর্শন করে
- কম-নমুনা বিভাগ: অত্যন্ত কম নমুনা সংখ্যার বিভাগের জন্য, অপ্টিমাইজেশন প্রভাব অস্থির
- ছোট লক্ষ্য উপলব্ধি: জটিল পটভূমিতে ঝুঁকি পয়েন্ট সঠিক সনাক্তকরণ এখনও চ্যালেঞ্জিং
- পুনরুদ্ধার লাইব্রেরি গুণমান: কর্মক্ষমতা পুনরুদ্ধার লাইব্রেরির গুণমান এবং কভারেজের উপর নির্ভর করে
- গণনা ওভারহেড: রিয়েল-টাইম পুনরুদ্ধার নির্দিষ্ট গণনা বিলম্ব আনতে পারে
- আরও জটিল RAG প্রম্পট বর্ধন কৌশল গ্রহণ করা
- ছোট লক্ষ্য উপলব্ধি ক্ষমতা উন্নত করা
- জটিল দৃশ্য পরিচালনার জন্য পুনরুদ্ধার কৌশল অপ্টিমাইজ করা
- আরও শিল্প নিরাপত্তা ক্ষেত্রে সম্প্রসারণ করা
- শক্তিশালী উদ্ভাবনী: প্রথমবার পুনরুদ্ধার বর্ধন প্রজন্ম নির্মাণ স্থল ঝুঁকি সনাক্তকরণে প্রয়োগ করে, সূক্ষ্ম-সুর ছাড়াই উল্লেখযোগ্য কর্মক্ষমতা উন্নতি অর্জন করে
- উচ্চ ব্যবহারিক মূল্য: প্রকৃত প্রকৌশল সমস্যা সমাধান করে, শক্তিশালী প্রয়োগ সম্ভাবনা রয়েছে
- পর্যাপ্ত পরীক্ষা: একাধিক মডেলে সিস্টেমেটিক মূল্যায়ন পরিচালনা করে, বিলোপন পরীক্ষা এবং বিভাগ স্তরের বিশ্লেষণ অন্তর্ভুক্ত করে
- পদ্ধতি সর্বজনীন: কাঠামো ডিজাইন সর্বজনীনতা রয়েছে, অন্যান্য নিরাপত্তা সনাক্তকরণ ক্ষেত্রে সম্প্রসারণযোগ্য
- ডেটাসেট স্কেল: Rwecd ডেটাসেট তুলনামূলকভাবে ছোট (325টি চিত্র), সিদ্ধান্তের সর্বজনীনতা সীমিত করতে পারে
- বিভাগ ভারসাম্যহীনতা: কিছু ঝুঁকি বিভাগ নমুনা অত্যন্ত কম, এই বিভাগগুলির কর্মক্ষমতা মূল্যায়ন প্রভাবিত করে
- গণনা দক্ষতা: পুনরুদ্ধার প্রক্রিয়ার গণনা ওভারহেড এবং রিয়েল-টাইমতা বিস্তারিত বিশ্লেষণ করা হয়নি
- ত্রুটি বিশ্লেষণ: ব্যর্থ কেসের গভীর বিশ্লেষণের অভাব
- একাডেমিক অবদান: বহু-মোডাল বৃহৎ মডেলের উল্লম্ব ক্ষেত্র প্রয়োগের জন্য নতুন চিন্তাভাবনা প্রদান করে
- প্রকৌশল মূল্য: নির্মাণ স্থল নিরাপত্তা ব্যবস্থাপনার জন্য ব্যবহারিক প্রযুক্তি সমাধান প্রদান করে
- পদ্ধতি অনুপ্রেরণা: পুনরুদ্ধার বর্ধন কাঠামো অন্যান্য ক্ষেত্রের সম্পর্কিত গবেষণা অনুপ্রাণিত করতে পারে
- নির্মাণ স্থল নিরাপত্তা পর্যবেক্ষণ: রিয়েল-টাইম বা পর্যায়ক্রমিক ঝুঁকি সনাক্তকরণ
- নিরাপত্তা প্রশিক্ষণ: সহায়ক সরঞ্জাম হিসাবে ঝুঁকি প্রকার সনাক্তকরণ এবং শিক্ষায় সহায়তা করে
- সম্মতি পরীক্ষা: নিরাপত্তা ব্যবস্থাপনা কর্মীদের মান পরীক্ষায় সহায়তা করে
- অন্যান্য শিল্প দৃশ্য: খনি, রাসায়নিক এবং অন্যান্য উচ্চ-ঝুঁকি শিল্পে সম্প্রসারণযোগ্য
পেপারটি বিস্তৃত সম্পর্কিত কাজ উদ্ধৃত করে, ঐতিহ্যবাহী কম্পিউটার দৃষ্টিভঙ্গি পদ্ধতি, বহু-মোডাল শিক্ষা, পুনরুদ্ধার বর্ধন প্রজন্ম সহ একাধিক গবেষণা দিক অন্তর্ভুক্ত করে, গবেষণার জন্য দৃঢ় তাত্ত্বিক ভিত্তি প্রদান করে।
সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ-মানের প্রয়োগ-ভিত্তিক গবেষণা পেপার, প্রস্তাবিত RDRAG কাঠামো উদ্ভাবনী এবং ব্যবহারিক, পরীক্ষা ডিজাইন যুক্তিসঙ্গত, ফলাফল বিশ্বাসযোগ্য। যদিও ডেটা স্কেল এবং কিছু প্রযুক্তিগত বিবরণে উন্নতির জায়গা রয়েছে, তবে এটি শিল্প নিরাপত্তা ক্ষেত্রে বহু-মোডাল বৃহৎ মডেল প্রয়োগের জন্য মূল্যবান অবদান প্রদান করে।