This study addresses construction site hazard identification by proposing a retrieval-augmented framework that enhances large language models (LLMs) without requiring fine-tuning. Current LLM-based approaches face limitations: image-text matching struggles with complex hazards, while instruction tuning lacks generalization and is resource-intensive. Our method dynamically integrates external knowledge and retrieved similar cases via prompt tuning, overcoming LLMs' limitations in domain knowledge and feature correlation. The framework comprises a case database, an image retrieval module, and an LLM-based reasoning module. Evaluated on real-site data, our approach boosted GLM-4V's accuracy to 50%, a 35.49% improvement over baselines, with consistent gains across hazard types. Ablation studies validated the effectiveness of our image retrieval strategy, showing the superiority of our LPIPS- and CLIP-based method. The proposed technique significantly improves identification accuracy and contextual understanding, demonstrating strong generalization and offering a practical path for intelligent safety risk detection in construction.
- 論文ID: 2508.02073
- タイトル: Large model retrieval enhancement framework for construction site risk identification(建設現場リスク隠患識別のための大規模モデル検索強化フレームワーク)
- 著者: 李嘉威、楊成業、張堯臣、孫玮琳、孟雷、孟祥旭
- 分類: cs.AI
- 発表時期/学会: 中国画像グラフィックス学報(Journal of Image and Graphics)
- 論文リンク: https://arxiv.org/abs/2508.02073
本研究は建設現場のリスク隠患識別問題に対して、微調整を必要としない検索強化フレームワークを提案し、大規模言語モデル(LLM)の性能を向上させる。現在のLLMベースの手法には以下の制限がある:画像テキストマッチングは複雑な隠患識別において能力が不足し、命令微調整は汎化能力に欠け、かつ資源消費が大きい。本手法は、プロンプト微調整技術を通じて外部知識ベースと検索事例のコンテキストを動的に融合させることで、大規模モデルの領域知識と特徴関連付けの不足を克服する。フレームワークは事例データベース、画像検索モジュール、およびLLMベースの推論モジュールで構成されている。実際の建設現場データでの評価により、本手法はGLM-4Vの精度を50%に向上させ、ベースライン手法より35.49%改善し、あらゆる種類の隠患識別において一貫した性能向上を実現した。消融実験は画像検索戦略の有効性を検証し、CLIPベースの手法がLPIPSと比較して優位性を持つことを証明した。
本研究は建設現場のリスク隠患の自動化識別問題に対処する。従来の人工巡視は見落とし率が高く、反復性が強く、リアルタイム監視ができないという制限があり、既存のコンピュータビジョンベースの手法は汎化能力と識別精度において依然として不足している。
- 安全保障: 建設現場の安全事故が頻発しており、正確な隠患識別は事故予防に重要な意義を持つ
- 効率向上: 自動化識別は従来の人工巡視に代わり、検査効率を向上させることができる
- コスト管理: 人的投入と安全事故による経済的損失を削減する
既存の大規模言語モデルベースの手法は主に2つのカテゴリーに分類される:
- 画像テキストマッチング手法: マルチモーダル対齢を通じて画像とセマンティック一致を向上させるが、複雑な隠患特徴の把握に限界がある
- 命令微調整手法: 領域知識を通じてモデル分析の深さを向上させるが、訓練コストが高く、汎用性が低い問題がある
高コスト微調整を回避しながら、複雑な隠患識別に対する大規模モデルの精度と領域適応性を向上させるため、外部知識源の導入と検索強化の実施が探索する価値のある解決策となる。
- 革新的フレームワークの提案: 類似事例検索強化に基づくリスク隠患識別フレームワーク(RDRAG)を提案し、大規模モデルのプロンプト学習とインスタンス検索メカニズムを革新的に融合させた
- プラグアンドプレイ設計: プラグアンドプレイの検索強化モジュールを構築し、プロンプト微調整戦略を通じて大規模モデルの無訓練最適化を実現した
- 体系的評価: 実際の建設現場データ上で異なる大規模モデルの識別性能を体系的に評価し、検索強化がモデルの汎化能力と説明能力向上における優位性を明確にした
- 顕著な性能向上: GLM-4Vモデルの精度を14.51%から50%に向上させ、向上幅は35.49%に達した
マルチモーダル隠患識別データセット D={(I1,C1,L1),(I2,C2,L2),...,(IN,CN,LN)} が与えられたとき、以下のように定義される:
- Ii: 建設現場施工画像
- Ci: 隠患説明テキスト情報
- Li: 隠患カテゴリラベル
目標は検索強化生成フレームワークを通じて、入力画像 Ii に対して正確な隠患カテゴリ Li^ と説明 Ci^ を生成することである:
Li^,Ci^=f(Ii,{Cj∣j=1,...,K})
RDRAGフレームワークは3つの中核モジュールで構成されている:
構造化された隠患事例データベースを構築し、歴史的な建設現場隠患事例を保存する。各エントリには画像、テキスト説明、およびカテゴリラベルが含まれる。
CLIPモデルに基づいてクロスモーダル類似度計算を実装する:
特徴抽出:
f(Ii)=CLIP(Ii),f(Ij)=CLIP(Ij)
類似度計算:
Sim(Ii,Ij)=∣∣f(Ii)∣∣⋅∣∣f(Ij)∣∣f(Ii)⋅f(Ij)
Top-K検索:
{(Ij,Cj,Lj)∣j∈{1,2,...,K}}=Top-K(Sim(Ii,Ij))
検索された類似事例を現在の画像と組み合わせてプロンプトを構成する:
Prompti=Concat(Ii,{Cj∣j∈{1,2,...,K}})
マルチモーダル大規模言語モデルを通じて結果を生成する:
Li^,Ci^=LM(Prompti)
- 無訓練最適化: 大規模モデルの微調整が不要であり、検索強化を通じて性能向上を実現する
- 動的知識融合: 入力画像に基づいて関連事例を動的に検索し、コンテキスト情報を提供する
- クロスモーダル検索: CLIPモデルを使用して画像テキスト間のクロスモーダル類似度計算を実現する
- プロンプトエンジニアリング: 4種類の異なるプロンプトテンプレートを設計し、モデル出力形式と精度を最適化する
- Rwecdデータセット: 省高速施工の実際の画像に基づいて構築
- 総規模: 325枚の隠患画像サンプル
- カテゴリ数: 15種類の異なる隠患カテゴリ
- データ分割: 105枚の画像で検索ライブラリを構築、220枚の画像をテストセットとして使用
- カテゴリ精度:
CategoryAccuracy=N1∑i=1NI(Li=Li^)
- BERT類似度:
BERTSim(Ci,Ci^)=∣∣fBERT(Ci)∣∣⋅∣∣fBERT(Ci^)∣∣fBERT(Ci)⋅fBERT(Ci^)
- TF-IDF類似度:
TFIDFSim(Ci,Ci^)=∣∣fTFIDF(Ci)∣∣⋅∣∣fTFIDF(Ci^)∣∣fTFIDF(Ci)⋅fTFIDF(Ci^)
- GLM-4V: Zhipuの汎用言語モデルChatGLMシリーズのマルチモーダル拡張版
- ChatGPT-4o: OpenAIが発表したマルチモーダル大規模言語モデル
- Deepseek-vl2: DeepSeekチームが開発したマルチモーダル大規模言語モデル
4種類のプロンプトテンプレートを設計した:
- Type1: 基本命令、追加情報なし
- Type2: カテゴリガイダンス、15個の隠患カテゴリ情報を追加
- Type3: フォーマット規範、出力フォーマット要件を追加
- Type4: 複合強化、カテゴリとフォーマット情報の両方を追加
| 手法 | モデル | 精度 | BERT | TF-IDF |
|---|
| ベース | GLM-4V | 14.51% | 69.95 | 3.17 |
| ベース | ChatGPT-4O | 53.54% | 71.67 | 5.75 |
| ベース | Deepseek-vl2 | 14.91% | 68.15 | 2.34 |
| COT | GLM-4V | 17.28% | 70.09 | 3.68 |
| COT | ChatGPT-4O | 55.08% | 71.30 | 4.64 |
| COT | Deepseek-vl2 | 12.11% | 66.87 | 2.33 |
| RDRAG | GLM-4V | 50.00% | 77.51 | 11.83 |
| RDRAG | ChatGPT-4O | 59.09% | 73.81 | 6.40 |
| RDRAG | Deepseek-vl2 | 36.53% | 72.25 | 6.86 |
主要な発見:
- GLM-4Vの精度は14.51%から50.00%に向上し、35.49%の向上を達成
- すべてのモデルがBERT類似度とTF-IDF類似度で顕著な向上を示した
- COT手法の効果は限定的であり、場合によっては負の影響さえ見られた
| モデル | 手法 | 精度 | BERT | TF-IDF |
|---|
| GLM-4V | RDRAG | 50.00% | 77.51 | 11.83 |
| GLM-4V | LPIPS | 43.64% | 77.11 | 9.63 |
| GLM-4V | ベース | 37.73% | 76.49 | 6.66 |
結果分析:
- CLIPベースの検索戦略はLPIPSベースの戦略より優れている
- 検索ライブラリメカニズムはすべてのモデルに正の向上をもたらす
- CLIPのクロスモーダル能力は画像コンテンツ類似性の理解においてより効果的である
Type4(複合強化)テンプレートはセマンティック類似性とキーワードマッチング度の両方で最高の性能を示したため、最終的なプロンプト案として選択された。
15個の隠患カテゴリのうち、RDRAG手法は大部分のカテゴリで顕著な向上を示し、特に以下の領域で効果的である:
- サンプル数が多いカテゴリ(例:配電盤の未施錠:26%→60%)
- 主要対象物が類似するカテゴリ(例:消防設備関連:0%→50%)
- 複雑なシーン カテゴリ(例:機器安全防護:12%→64.71%)
- 人工巡視: 安全管理者の経験に依存し、見落とし、反復性の高さなどの問題がある
- IoT技術: センサーネットワークを通じたリアルタイム監視だが、コストが高く、機器要件が大きい
- コンピュータビジョン: SIFT、HOG、CNNなどの技術に基づくが、画像品質とアルゴリズム精度に制限される
- マルチモーダル対齢: 対比学習、クロスモーダル注意メカニズムを通じた性能向上
- 少数ショット学習: メタ学習、プロンプト学習、転移学習を利用した注釈データ依存性の削減
- 検索強化生成: 外部知識ベースと組み合わせたモデル性能向上
- RDRAGフレームワークは建設現場隠患識別における大規模モデルの精度とコンテキスト理解能力を顕著に向上させた
- 検索強化手法は訓練なしで顕著な性能向上を実現する
- CLIPベースの画像検索戦略は従来の知覚類似性手法より優れている
- 手法は多カテゴリ隠患シーンにおいて良好な汎化性能を示す
- 少数サンプルカテゴリ: サンプル数が極めて少ないカテゴリでは最適化効果が不安定である
- 小目標認識: 複雑な背景における隠患ポイントの正確な識別には依然として課題がある
- 検索ライブラリ品質: 性能は検索ライブラリの品質とカバレッジに依存する
- 計算オーバーヘッド: リアルタイム検索は一定の計算遅延をもたらす可能性がある
- より複雑なRAGプロンプト強化技術の採用
- 小目標認識能力の向上
- 複雑なシーンに対応する検索戦略の最適化
- 他の産業安全分野への拡張
- 革新性が高い: 検索強化生成を建設現場隠患識別に初めて適用し、微調整なしで顕著な性能向上を実現した
- 実用価値が高い: 実際の工学問題を解決し、強い応用前景を持つ
- 実験が充分: 複数のモデルで体系的評価を実施し、消融実験とカテゴリレベル分析を含む
- 手法の汎用性: フレームワーク設計は汎用性を持ち、他の安全検出分野に拡張可能である
- データセット規模: Rwecdデータセットは比較的小規模(325枚の画像)であり、結論の普遍性を制限する可能性がある
- カテゴリ不均衡: 一部の隠患カテゴリのサンプルが過少であり、これらのカテゴリの性能評価に影響する
- 計算効率: 検索プロセスの計算オーバーヘッドとリアルタイム性について詳細な分析がない
- エラー分析: 失敗事例の深い分析が不足している
- 学術的貢献: マルチモーダル大規模モデルの垂直領域応用に新しい思考を提供した
- 工学的価値: 建設現場安全管理に実用的な技術ソリューションを提供した
- 手法の示唆: 検索強化フレームワークは他の分野の関連研究に示唆を与える
- 建設現場安全監視: リアルタイムまたは定期的な隠患検出
- 安全訓練: 隠患タイプの識別と学習を支援する補助ツール
- コンプライアンス検査: 安全管理者による標準化検査を支援
- 他の産業シーン: 鉱山、化学工業など他の高リスク産業に拡張可能
論文は従来のコンピュータビジョン手法、マルチモーダル学習、検索強化生成など複数の研究方向に関する多くの関連研究を引用しており、研究に堅実な理論的基礎を提供している。
総合評価: これは高品質な応用型研究論文であり、提案されたRDRAGフレームワークは革新性と実用性を備え、実験設計は合理的で、結果は説得力がある。データ規模と技術的詳細において改善の余地があるが、マルチモーダル大規模モデルの産業安全分野への応用に価値のある貢献を提供している。