This study addresses construction site hazard identification by proposing a retrieval-augmented framework that enhances large language models (LLMs) without requiring fine-tuning. Current LLM-based approaches face limitations: image-text matching struggles with complex hazards, while instruction tuning lacks generalization and is resource-intensive. Our method dynamically integrates external knowledge and retrieved similar cases via prompt tuning, overcoming LLMs' limitations in domain knowledge and feature correlation. The framework comprises a case database, an image retrieval module, and an LLM-based reasoning module. Evaluated on real-site data, our approach boosted GLM-4V's accuracy to 50%, a 35.49% improvement over baselines, with consistent gains across hazard types. Ablation studies validated the effectiveness of our image retrieval strategy, showing the superiority of our LPIPS- and CLIP-based method. The proposed technique significantly improves identification accuracy and contextual understanding, demonstrating strong generalization and offering a practical path for intelligent safety risk detection in construction.
- 论文ID: 2508.02073
- 标题: Large model retrieval enhancement framework for construction site risk identification (面向工地风险隐患识别的大模型检索增强框架)
- 作者: 李嘉威, 杨成业, 张尧臣, 孙玮琳, 孟雷, 孟祥旭
- 分类: cs.AI
- 发表时间/会议: 中国图象图形学报 (Journal of Image and Graphics)
- 论文链接: https://arxiv.org/abs/2508.02073
本研究针对工地风险隐患识别问题,提出了一种无需微调的检索增强框架来提升大语言模型性能。当前基于LLM的方法存在局限性:图文匹配在复杂隐患识别上能力不足,而指令微调缺乏泛化能力且资源消耗大。本方法通过提示微调技术动态融合外部知识库与检索案例上下文,克服了大模型在领域知识和特征关联方面的不足。框架包含案例数据库、图像检索模块和基于LLM的推理模块。在真实工地数据上的评估显示,该方法将GLM-4V的准确率提升至50%,比基线方法提高35.49%,在各类隐患识别上都有一致的性能提升。消融实验验证了图像检索策略的有效性,证明了基于CLIP的方法相比LPIPS的优越性。
本研究要解决工地风险隐患的自动化识别问题。传统人工巡检存在疏漏率高、重复性强、无法实时监控等局限性,而现有基于计算机视觉的方法在泛化能力和识别精度上仍有不足。
- 安全保障: 工地安全事故频发,准确的隐患识别对预防事故具有重要意义
- 效率提升: 自动化识别可以替代传统人工巡检,提高检查效率
- 成本控制: 减少人力投入和安全事故带来的经济损失
现有基于大语言模型的方法主要分为两类:
- 图文匹配方法: 通过多模态对齐提升图像与语义匹配,但对复杂隐患特征把握有限
- 指令微调方法: 通过领域知识增强模型分析深度,但存在训练成本高、通用性差的问题
为避免高成本微调的同时增强大模型对复杂隐患识别的准确性与领域适应性,引入外部知识源并实施检索增强成为一种值得探索的解决路径。
- 提出创新框架: 提出了一种基于相似案例检索增强的风险隐患识别框架(RDRAG),创新性地融合大模型提示学习与实例检索机制
- 即插即用设计: 构建了即插即用的检索增强模块,通过提示微调策略实现大模型的无训练优化
- 系统性评估: 在真实工地数据上系统评估了不同大模型的识别表现,明确了检索增强在提升模型泛化能力与解释能力方面的优势
- 显著性能提升: GLM-4V模型准确率从14.51%提升至50%,提升幅度达35.49%
给定多模态隐患识别数据集 D={(I1,C1,L1),(I2,C2,L2),...,(IN,CN,LN)},其中:
- Ii: 工地施工图片
- Ci: 隐患描述文本信息
- Li: 隐患类别标签
目标是通过检索增强生成框架,为输入图像Ii生成准确的隐患类别Li^和描述Ci^:
Li^,Ci^=f(Ii,{Cj∣j=1,...,K})
RDRAG框架包含三个核心模块:
构建结构化隐患案例数据库,存储历史工地隐患案例,每个条目包含图像、文本描述和类别标签。
基于CLIP模型实现跨模态相似度计算:
特征提取:
f(Ii)=CLIP(Ii),f(Ij)=CLIP(Ij)
相似度计算:
Sim(Ii,Ij)=∣∣f(Ii)∣∣⋅∣∣f(Ij)∣∣f(Ii)⋅f(Ij)
Top-K检索:
{(Ij,Cj,Lj)∣j∈{1,2,...,K}}=Top-K(Sim(Ii,Ij))
将检索到的相似案例与当前图像组合成提示:
Prompti=Concat(Ii,{Cj∣j∈{1,2,...,K}})
通过多模态大语言模型生成结果:
Li^,Ci^=LM(Prompti)
- 无训练优化: 不需要对大模型进行微调,通过检索增强实现性能提升
- 动态知识融合: 根据输入图像动态检索相关案例,提供上下文信息
- 跨模态检索: 使用CLIP模型实现图像-文本跨模态相似度计算
- 提示工程: 设计了四种不同的提示模板,优化模型输出格式和准确性
- Rwecd数据集: 基于省高速施工真实图片构建
- 总规模: 325张隐患图片样本
- 类别数: 15种不同隐患类别
- 数据划分: 105张图片构建检索库,220张图片作为测试集
- Category Accuracy:
CategoryAccuracy=N1∑i=1NI(Li=Li^)
- BERT Similarity:
BERTSim(Ci,Ci^)=∣∣fBERT(Ci)∣∣⋅∣∣fBERT(Ci^)∣∣fBERT(Ci)⋅fBERT(Ci^)
- TF-IDF Similarity:
TFIDFSim(Ci,Ci^)=∣∣fTFIDF(Ci)∣∣⋅∣∣fTFIDF(Ci^)∣∣fTFIDF(Ci)⋅fTFIDF(Ci^)
- GLM-4V: 通用语言模型智谱ChatGLM系列的多模态扩展版本
- ChatGPT-4o: OpenAI推出的多模态大语言模型
- Deepseek-vl2: DeepSeek团队开发的多模态大语言模型
设计了四种提示模板:
- Type1: 基础指令,不添加任何额外信息
- Type2: 类别引导,添加15个隐患类别信息
- Type3: 格式规范,添加输出格式要求
- Type4: 复合增强,同时添加类别和格式信息
| 方法 | 模型 | Acc | BERT | TF-IDF |
|---|
| Base | GLM-4V | 14.51% | 69.95 | 3.17 |
| Base | ChatGPT-4O | 53.54% | 71.67 | 5.75 |
| Base | Deepseek-vl2 | 14.91% | 68.15 | 2.34 |
| COT | GLM-4V | 17.28% | 70.09 | 3.68 |
| COT | ChatGPT-4O | 55.08% | 71.30 | 4.64 |
| COT | Deepseek-vl2 | 12.11% | 66.87 | 2.33 |
| RDRAG | GLM-4V | 50.00% | 77.51 | 11.83 |
| RDRAG | ChatGPT-4O | 59.09% | 73.81 | 6.40 |
| RDRAG | Deepseek-vl2 | 36.53% | 72.25 | 6.86 |
关键发现:
- GLM-4V准确率从14.51%提升至50.00%,提升35.49%
- 所有模型在BERT相似度和TF-IDF相似度上都有显著提升
- COT方法效果有限,甚至在某些情况下出现负面影响
| 模型 | 方法 | Acc | BERT | TF-IDF |
|---|
| GLM-4V | RDRAG | 50.00% | 77.51 | 11.83 |
| GLM-4V | LPIPS | 43.64% | 77.11 | 9.63 |
| GLM-4V | Base | 37.73% | 76.49 | 6.66 |
结果分析:
- CLIP-based检索策略优于LPIPS-based策略
- 检索库机制对所有模型都有正向提升
- CLIP的跨模态能力在理解图片内容相似性上更有效
Type4(复合增强)模板在语义相似性和关键词匹配度上都表现最佳,因此被选为最终的提示方案。
在15个隐患类别中,RDRAG方法在大部分类别上都有显著提升,特别是在:
- 样本数量较多的类别(如配电箱未及时锁闭: 26%→60%)
- 关键目标物相似的类别(如消防设施相关: 0%→50%)
- 复杂场景类别(如设备安全防护: 12%→64.71%)
- 人工巡检: 依赖安全管理人员经验,存在疏漏、重复性高等问题
- 物联网技术: 通过传感器网络实时监测,但成本高、设备需求大
- 计算机视觉: 基于SIFT、HOG、CNN等技术,但性能受限于图像质量和算法精度
- 多模态对齐: 通过对比学习、跨模态注意力机制提升性能
- 少样本学习: 利用元学习、提示学习、迁移学习减少标注数据依赖
- 检索增强生成: 结合外部知识库提升模型性能
- RDRAG框架显著提升了大模型在工地隐患识别中的准确率和上下文理解能力
- 检索增强方法在无需训练的情况下实现了显著的性能提升
- CLIP-based图像检索策略优于传统的感知相似性方法
- 方法在多类别隐患场景下均表现出良好的泛化性能
- 少样本类别: 对于样本数量极少的类别,优化效果不稳定
- 小目标感知: 在复杂背景中精准识别隐患点仍有挑战
- 检索库质量: 性能依赖于检索库的质量和覆盖度
- 计算开销: 实时检索可能带来一定的计算延迟
- 采用更复杂的RAG提示增强技术
- 提升模型对小目标感知的能力
- 优化检索策略以处理复杂场景
- 扩展到更多工业安全领域
- 创新性强: 首次将检索增强生成应用于工地隐患识别,无需微调即可显著提升性能
- 实用价值高: 解决了实际工程问题,具有很强的应用前景
- 实验充分: 在多个模型上进行了系统性评估,包含消融实验和类别级分析
- 方法通用: 框架设计具有通用性,可扩展到其他安全检测领域
- 数据集规模: Rwecd数据集相对较小(325张图片),可能限制结论的普适性
- 类别不平衡: 某些隐患类别样本过少,影响这些类别的性能评估
- 计算效率: 未详细分析检索过程的计算开销和实时性
- 错误分析: 缺乏对失败案例的深入分析
- 学术贡献: 为多模态大模型在垂直领域的应用提供了新思路
- 工程价值: 为工地安全管理提供了实用的技术方案
- 方法启发: 检索增强框架可启发其他领域的相关研究
- 工地安全监控: 实时或定期的隐患检测
- 安全培训: 作为辅助工具帮助识别和学习隐患类型
- 合规检查: 协助安全管理人员进行标准化检查
- 其他工业场景: 可扩展到矿山、化工等其他高危行业
论文引用了大量相关工作,涵盖了传统计算机视觉方法、多模态学习、检索增强生成等多个研究方向,为研究提供了坚实的理论基础。
总体评价: 这是一篇高质量的应用型研究论文,提出的RDRAG框架具有创新性和实用性,实验设计合理,结果令人信服。虽然在数据规模和某些技术细节上还有改进空间,但为多模态大模型在工业安全领域的应用提供了有价值的贡献。