2025-11-11T07:07:08.271446

Large model retrieval enhancement framework for construction site risk identification

Li, Yang, Zhang et al.

This study addresses construction site hazard identification by proposing a retrieval-augmented framework that enhances large language models (LLMs) without requiring fine-tuning. Current LLM-based approaches face limitations: image-text matching struggles with complex hazards, while instruction tuning lacks generalization and is resource-intensive. Our method dynamically integrates external knowledge and retrieved similar cases via prompt tuning, overcoming LLMs' limitations in domain knowledge and feature correlation. The framework comprises a case database, an image retrieval module, and an LLM-based reasoning module. Evaluated on real-site data, our approach boosted GLM-4V's accuracy to 50%, a 35.49% improvement over baselines, with consistent gains across hazard types. Ablation studies validated the effectiveness of our image retrieval strategy, showing the superiority of our LPIPS- and CLIP-based method. The proposed technique significantly improves identification accuracy and contextual understanding, demonstrating strong generalization and offering a practical path for intelligent safety risk detection in construction.

academic

建設現場リスク識別のための大規模モデル検索強化フレームワーク

基本情報

論文ID: 2508.02073
タイトル: Large model retrieval enhancement framework for construction site risk identification（建設現場リスク隠患識別のための大規模モデル検索強化フレームワーク）
著者: 李嘉威、楊成業、張堯臣、孫玮琳、孟雷、孟祥旭
分類: cs.AI
発表時期/学会: 中国画像グラフィックス学報（Journal of Image and Graphics）
論文リンク: https://arxiv.org/abs/2508.02073

要約

本研究は建設現場のリスク隠患識別問題に対して、微調整を必要としない検索強化フレームワークを提案し、大規模言語モデル（LLM）の性能を向上させる。現在のLLMベースの手法には以下の制限がある：画像テキストマッチングは複雑な隠患識別において能力が不足し、命令微調整は汎化能力に欠け、かつ資源消費が大きい。本手法は、プロンプト微調整技術を通じて外部知識ベースと検索事例のコンテキストを動的に融合させることで、大規模モデルの領域知識と特徴関連付けの不足を克服する。フレームワークは事例データベース、画像検索モジュール、およびLLMベースの推論モジュールで構成されている。実際の建設現場データでの評価により、本手法はGLM-4Vの精度を50%に向上させ、ベースライン手法より35.49%改善し、あらゆる種類の隠患識別において一貫した性能向上を実現した。消融実験は画像検索戦略の有効性を検証し、CLIPベースの手法がLPIPSと比較して優位性を持つことを証明した。

研究背景と動機

1. 解決すべき問題

本研究は建設現場のリスク隠患の自動化識別問題に対処する。従来の人工巡視は見落とし率が高く、反復性が強く、リアルタイム監視ができないという制限があり、既存のコンピュータビジョンベースの手法は汎化能力と識別精度において依然として不足している。

2. 問題の重要性

安全保障: 建設現場の安全事故が頻発しており、正確な隠患識別は事故予防に重要な意義を持つ
効率向上: 自動化識別は従来の人工巡視に代わり、検査効率を向上させることができる
コスト管理: 人的投入と安全事故による経済的損失を削減する

3. 既存手法の制限

既存の大規模言語モデルベースの手法は主に2つのカテゴリーに分類される：

画像テキストマッチング手法: マルチモーダル対齢を通じて画像とセマンティック一致を向上させるが、複雑な隠患特徴の把握に限界がある
命令微調整手法: 領域知識を通じてモデル分析の深さを向上させるが、訓練コストが高く、汎用性が低い問題がある

4. 研究動機

高コスト微調整を回避しながら、複雑な隠患識別に対する大規模モデルの精度と領域適応性を向上させるため、外部知識源の導入と検索強化の実施が探索する価値のある解決策となる。

中核的貢献

革新的フレームワークの提案: 類似事例検索強化に基づくリスク隠患識別フレームワーク（RDRAG）を提案し、大規模モデルのプロンプト学習とインスタンス検索メカニズムを革新的に融合させた
プラグアンドプレイ設計: プラグアンドプレイの検索強化モジュールを構築し、プロンプト微調整戦略を通じて大規模モデルの無訓練最適化を実現した
体系的評価: 実際の建設現場データ上で異なる大規模モデルの識別性能を体系的に評価し、検索強化がモデルの汎化能力と説明能力向上における優位性を明確にした
顕著な性能向上: GLM-4Vモデルの精度を14.51%から50%に向上させ、向上幅は35.49%に達した

手法の詳細説明

タスク定義

マルチモーダル隠患識別データセット $D = \{(I_1, C_1, L_1), (I_2, C_2, L_2), ..., (I_N, C_N, L_N)\}$ が与えられたとき、以下のように定義される：

$I_i$ : 建設現場施工画像
$C_i$ : 隠患説明テキスト情報
$L_i$ : 隠患カテゴリラベル

目標は検索強化生成フレームワークを通じて、入力画像 $I_i$ に対して正確な隠患カテゴリ $\hat{L_i}$ と説明 $\hat{C_i}$ を生成することである：

$\hat{L_i}, \hat{C_i} = f(I_i, \{C_j | j=1,...,K\})$

モデルアーキテクチャ

RDRAGフレームワークは3つの中核モジュールで構成されている：

1. 検索ライブラリモジュール

構造化された隠患事例データベースを構築し、歴史的な建設現場隠患事例を保存する。各エントリには画像、テキスト説明、およびカテゴリラベルが含まれる。

2. 画像類似度検索モジュール

CLIPモデルに基づいてクロスモーダル類似度計算を実装する：

特徴抽出: $f(I_i) = \text{CLIP}(I_i), \quad f(I_j) = \text{CLIP}(I_j)$

類似度計算: $\text{Sim}(I_i, I_j) = \frac{f(I_i) \cdot f(I_j)}{||f(I_i)|| \cdot ||f(I_j)||}$

Top-K検索: $\{(I_j, C_j, L_j) | j \in \{1,2,...,K\}\} = \text{Top-K}(\text{Sim}(I_i, I_j))$

3. 大規模モデル検索強化モジュール

検索された類似事例を現在の画像と組み合わせてプロンプトを構成する：

$\text{Prompt}_i = \text{Concat}(I_i, \{C_j | j \in \{1,2,...,K\}\})$

マルチモーダル大規模言語モデルを通じて結果を生成する： $\hat{L_i}, \hat{C_i} = \text{LM}(\text{Prompt}_i)$

技術的革新点

無訓練最適化: 大規模モデルの微調整が不要であり、検索強化を通じて性能向上を実現する
動的知識融合: 入力画像に基づいて関連事例を動的に検索し、コンテキスト情報を提供する
クロスモーダル検索: CLIPモデルを使用して画像テキスト間のクロスモーダル類似度計算を実現する
プロンプトエンジニアリング: 4種類の異なるプロンプトテンプレートを設計し、モデル出力形式と精度を最適化する

実験設定

データセット

Rwecdデータセット: 省高速施工の実際の画像に基づいて構築
総規模: 325枚の隠患画像サンプル
カテゴリ数: 15種類の異なる隠患カテゴリ
データ分割: 105枚の画像で検索ライブラリを構築、220枚の画像をテストセットとして使用

評価指標

カテゴリ精度: $\text{CategoryAccuracy} = \frac{1}{N}\sum_{i=1}^{N}\mathbb{I}(L_i = \hat{L_i})$
BERT類似度: $\text{BERTSim}(C_i, \hat{C_i}) = \frac{f_{BERT}(C_i) \cdot f_{BERT}(\hat{C_i})}{||f_{BERT}(C_i)|| \cdot ||f_{BERT}(\hat{C_i})||}$
TF-IDF類似度: $\text{TFIDFSim}(C_i, \hat{C_i}) = \frac{f_{TFIDF}(C_i) \cdot f_{TFIDF}(\hat{C_i})}{||f_{TFIDF}(C_i)|| \cdot ||f_{TFIDF}(\hat{C_i})||}$

比較手法

GLM-4V: Zhipuの汎用言語モデルChatGLMシリーズのマルチモーダル拡張版
ChatGPT-4o: OpenAIが発表したマルチモーダル大規模言語モデル
Deepseek-vl2: DeepSeekチームが開発したマルチモーダル大規模言語モデル

実装の詳細

4種類のプロンプトテンプレートを設計した：

Type1: 基本命令、追加情報なし
Type2: カテゴリガイダンス、15個の隠患カテゴリ情報を追加
Type3: フォーマット規範、出力フォーマット要件を追加
Type4: 複合強化、カテゴリとフォーマット情報の両方を追加

実験結果

主要結果

手法	モデル	精度	BERT	TF-IDF
ベース	GLM-4V	14.51%	69.95	3.17
ベース	ChatGPT-4O	53.54%	71.67	5.75
ベース	Deepseek-vl2	14.91%	68.15	2.34
COT	GLM-4V	17.28%	70.09	3.68
COT	ChatGPT-4O	55.08%	71.30	4.64
COT	Deepseek-vl2	12.11%	66.87	2.33
RDRAG	GLM-4V	50.00%	77.51	11.83
RDRAG	ChatGPT-4O	59.09%	73.81	6.40
RDRAG	Deepseek-vl2	36.53%	72.25	6.86