2025-11-11T07:07:08.271446

Large model retrieval enhancement framework for construction site risk identification

Li, Yang, Zhang et al.

This study addresses construction site hazard identification by proposing a retrieval-augmented framework that enhances large language models (LLMs) without requiring fine-tuning. Current LLM-based approaches face limitations: image-text matching struggles with complex hazards, while instruction tuning lacks generalization and is resource-intensive. Our method dynamically integrates external knowledge and retrieved similar cases via prompt tuning, overcoming LLMs' limitations in domain knowledge and feature correlation. The framework comprises a case database, an image retrieval module, and an LLM-based reasoning module. Evaluated on real-site data, our approach boosted GLM-4V's accuracy to 50%, a 35.49% improvement over baselines, with consistent gains across hazard types. Ablation studies validated the effectiveness of our image retrieval strategy, showing the superiority of our LPIPS- and CLIP-based method. The proposed technique significantly improves identification accuracy and contextual understanding, demonstrating strong generalization and offering a practical path for intelligent safety risk detection in construction.

academic

Large model retrieval enhancement framework for construction site risk identification

基本信息

论文ID: 2508.02073
标题: Large model retrieval enhancement framework for construction site risk identification (面向工地风险隐患识别的大模型检索增强框架)
作者: 李嘉威, 杨成业, 张尧臣, 孙玮琳, 孟雷, 孟祥旭
分类: cs.AI
发表时间/会议: 中国图象图形学报 (Journal of Image and Graphics)
论文链接: https://arxiv.org/abs/2508.02073

摘要

本研究针对工地风险隐患识别问题，提出了一种无需微调的检索增强框架来提升大语言模型性能。当前基于LLM的方法存在局限性：图文匹配在复杂隐患识别上能力不足，而指令微调缺乏泛化能力且资源消耗大。本方法通过提示微调技术动态融合外部知识库与检索案例上下文，克服了大模型在领域知识和特征关联方面的不足。框架包含案例数据库、图像检索模块和基于LLM的推理模块。在真实工地数据上的评估显示，该方法将GLM-4V的准确率提升至50%，比基线方法提高35.49%，在各类隐患识别上都有一致的性能提升。消融实验验证了图像检索策略的有效性，证明了基于CLIP的方法相比LPIPS的优越性。

研究背景与动机

1. 要解决的问题

本研究要解决工地风险隐患的自动化识别问题。传统人工巡检存在疏漏率高、重复性强、无法实时监控等局限性，而现有基于计算机视觉的方法在泛化能力和识别精度上仍有不足。

2. 问题重要性

安全保障: 工地安全事故频发，准确的隐患识别对预防事故具有重要意义
效率提升: 自动化识别可以替代传统人工巡检，提高检查效率
成本控制: 减少人力投入和安全事故带来的经济损失

3. 现有方法局限性

现有基于大语言模型的方法主要分为两类：

图文匹配方法: 通过多模态对齐提升图像与语义匹配，但对复杂隐患特征把握有限
指令微调方法: 通过领域知识增强模型分析深度，但存在训练成本高、通用性差的问题

4. 研究动机

为避免高成本微调的同时增强大模型对复杂隐患识别的准确性与领域适应性，引入外部知识源并实施检索增强成为一种值得探索的解决路径。

核心贡献

提出创新框架: 提出了一种基于相似案例检索增强的风险隐患识别框架(RDRAG)，创新性地融合大模型提示学习与实例检索机制
即插即用设计: 构建了即插即用的检索增强模块，通过提示微调策略实现大模型的无训练优化
系统性评估: 在真实工地数据上系统评估了不同大模型的识别表现，明确了检索增强在提升模型泛化能力与解释能力方面的优势
显著性能提升: GLM-4V模型准确率从14.51%提升至50%，提升幅度达35.49%

方法详解

任务定义

给定多模态隐患识别数据集 $D = \{(I_1, C_1, L_1), (I_2, C_2, L_2), ..., (I_N, C_N, L_N)\}$ ，其中：

$I_i$ : 工地施工图片
$C_i$ : 隐患描述文本信息
$L_i$ : 隐患类别标签

目标是通过检索增强生成框架，为输入图像 $I_i$ 生成准确的隐患类别 $\hat{L_i}$ 和描述 $\hat{C_i}$ ：

$\hat{L_i}, \hat{C_i} = f(I_i, \{C_j | j=1,...,K\})$

模型架构

RDRAG框架包含三个核心模块：

1. 检索库模块

构建结构化隐患案例数据库，存储历史工地隐患案例，每个条目包含图像、文本描述和类别标签。

2. 图片相似度检索模块

基于CLIP模型实现跨模态相似度计算：

特征提取: $f(I_i) = \text{CLIP}(I_i), \quad f(I_j) = \text{CLIP}(I_j)$

相似度计算: $\text{Sim}(I_i, I_j) = \frac{f(I_i) \cdot f(I_j)}{||f(I_i)|| \cdot ||f(I_j)||}$

Top-K检索: $\{(I_j, C_j, L_j) | j \in \{1,2,...,K\}\} = \text{Top-K}(\text{Sim}(I_i, I_j))$

3. 大模型检索增强模块

将检索到的相似案例与当前图像组合成提示：

$\text{Prompt}_i = \text{Concat}(I_i, \{C_j | j \in \{1,2,...,K\}\})$

通过多模态大语言模型生成结果： $\hat{L_i}, \hat{C_i} = \text{LM}(\text{Prompt}_i)$

技术创新点

无训练优化: 不需要对大模型进行微调，通过检索增强实现性能提升
动态知识融合: 根据输入图像动态检索相关案例，提供上下文信息
跨模态检索: 使用CLIP模型实现图像-文本跨模态相似度计算
提示工程: 设计了四种不同的提示模板，优化模型输出格式和准确性

实验设置

数据集

Rwecd数据集: 基于省高速施工真实图片构建
总规模: 325张隐患图片样本
类别数: 15种不同隐患类别
数据划分: 105张图片构建检索库，220张图片作为测试集

评价指标

Category Accuracy: $\text{CategoryAccuracy} = \frac{1}{N}\sum_{i=1}^{N}\mathbb{I}(L_i = \hat{L_i})$
BERT Similarity: $\text{BERTSim}(C_i, \hat{C_i}) = \frac{f_{BERT}(C_i) \cdot f_{BERT}(\hat{C_i})}{||f_{BERT}(C_i)|| \cdot ||f_{BERT}(\hat{C_i})||}$
TF-IDF Similarity: $\text{TFIDFSim}(C_i, \hat{C_i}) = \frac{f_{TFIDF}(C_i) \cdot f_{TFIDF}(\hat{C_i})}{||f_{TFIDF}(C_i)|| \cdot ||f_{TFIDF}(\hat{C_i})||}$

对比方法

GLM-4V: 通用语言模型智谱ChatGLM系列的多模态扩展版本
ChatGPT-4o: OpenAI推出的多模态大语言模型
Deepseek-vl2: DeepSeek团队开发的多模态大语言模型

实现细节

设计了四种提示模板：

Type1: 基础指令，不添加任何额外信息
Type2: 类别引导，添加15个隐患类别信息
Type3: 格式规范，添加输出格式要求
Type4: 复合增强，同时添加类别和格式信息

实验结果

主要结果

方法	模型	Acc	BERT	TF-IDF
Base	GLM-4V	14.51%	69.95	3.17
Base	ChatGPT-4O	53.54%	71.67	5.75
Base	Deepseek-vl2	14.91%	68.15	2.34
COT	GLM-4V	17.28%	70.09	3.68
COT	ChatGPT-4O	55.08%	71.30	4.64
COT	Deepseek-vl2	12.11%	66.87	2.33
RDRAG	GLM-4V	50.00%	77.51	11.83
RDRAG	ChatGPT-4O	59.09%	73.81	6.40
RDRAG	Deepseek-vl2	36.53%	72.25	6.86