2025-11-11T07:07:08.271446

Large model retrieval enhancement framework for construction site risk identification

Li, Yang, Zhang et al.
This study addresses construction site hazard identification by proposing a retrieval-augmented framework that enhances large language models (LLMs) without requiring fine-tuning. Current LLM-based approaches face limitations: image-text matching struggles with complex hazards, while instruction tuning lacks generalization and is resource-intensive. Our method dynamically integrates external knowledge and retrieved similar cases via prompt tuning, overcoming LLMs' limitations in domain knowledge and feature correlation. The framework comprises a case database, an image retrieval module, and an LLM-based reasoning module. Evaluated on real-site data, our approach boosted GLM-4V's accuracy to 50%, a 35.49% improvement over baselines, with consistent gains across hazard types. Ablation studies validated the effectiveness of our image retrieval strategy, showing the superiority of our LPIPS- and CLIP-based method. The proposed technique significantly improves identification accuracy and contextual understanding, demonstrating strong generalization and offering a practical path for intelligent safety risk detection in construction.
academic

Cadre d'amélioration par récupération de modèles volumineux pour l'identification des risques sur les chantiers de construction

Informations de base

  • ID de l'article: 2508.02073
  • Titre: Large model retrieval enhancement framework for construction site risk identification (Cadre d'amélioration par récupération de modèles volumineux pour l'identification des risques sur les chantiers de construction)
  • Auteurs: Li Jiawei, Yang Chengye, Zhang Yaochen, Sun Weilin, Meng Lei, Meng Xiangxu
  • Classification: cs.AI
  • Date de publication/Conférence: Journal of Image and Graphics (中国图象图形学报)
  • Lien de l'article: https://arxiv.org/abs/2508.02073

Résumé

Cette étude propose un cadre d'amélioration par récupération sans ajustement fin pour améliorer les performances des grands modèles de langage face au problème d'identification des risques sur les chantiers. Les méthodes actuelles basées sur les LLM présentent des limitations : l'appariement image-texte manque de capacité pour l'identification des risques complexes, tandis que l'ajustement d'instructions manque de généralisation et consomme beaucoup de ressources. Notre méthode fusionne dynamiquement les bases de connaissances externes et le contexte des cas récupérés grâce à des techniques d'ajustement de requêtes, surmontant les insuffisances des grands modèles en matière de connaissances de domaine et d'associations de caractéristiques. Le cadre comprend une base de données de cas, un module de récupération d'images et un module de raisonnement basé sur les LLM. L'évaluation sur des données réelles de chantiers montre que notre méthode améliore la précision de GLM-4V à 50%, surpassant la méthode de base de 35,49%, avec des améliorations de performance cohérentes sur tous les types d'identification de risques. Les expériences d'ablation valident l'efficacité de la stratégie de récupération d'images, démontrant la supériorité de la méthode basée sur CLIP par rapport à LPIPS.

Contexte et motivation de la recherche

1. Problème à résoudre

Cette étude aborde le problème de l'identification automatisée des risques sur les chantiers de construction. L'inspection manuelle traditionnelle présente des limitations telles qu'un taux d'omission élevé, une nature répétitive et l'impossibilité de surveillance en temps réel, tandis que les méthodes existantes basées sur la vision par ordinateur manquent encore de capacité de généralisation et de précision de reconnaissance.

2. Importance du problème

  • Garantie de sécurité: Les accidents sur les chantiers sont fréquents; l'identification précise des risques est cruciale pour la prévention des accidents
  • Amélioration de l'efficacité: L'identification automatisée peut remplacer l'inspection manuelle traditionnelle et améliorer l'efficacité des contrôles
  • Contrôle des coûts: Réduction des investissements en main-d'œuvre et des pertes économiques causées par les accidents de sécurité

3. Limitations des méthodes existantes

Les méthodes existantes basées sur les grands modèles de langage se divisent principalement en deux catégories:

  • Méthodes d'appariement image-texte: Amélioration de l'alignement multimodal pour renforcer l'appariement image-sémantique, mais avec une compréhension limitée des caractéristiques des risques complexes
  • Méthodes d'ajustement d'instructions: Amélioration de l'analyse approfondie des modèles par l'intégration de connaissances de domaine, mais avec des problèmes de coûts de formation élevés et de faible généralité

4. Motivation de la recherche

Pour éviter l'ajustement fin coûteux tout en améliorant la précision et l'adaptabilité du domaine des grands modèles pour l'identification des risques complexes, l'introduction de sources de connaissances externes et la mise en œuvre de l'amélioration par récupération constituent une voie d'exploration prometteuse.

Contributions principales

  1. Proposition d'un cadre innovant: Proposition d'un cadre d'identification des risques amélioré par récupération de cas similaires (RDRAG), fusionnant de manière innovante l'apprentissage par requête des grands modèles et les mécanismes de récupération d'instances
  2. Conception plug-and-play: Construction d'un module d'amélioration par récupération plug-and-play, réalisant l'optimisation sans formation des grands modèles grâce à une stratégie d'ajustement de requêtes
  3. Évaluation systématique: Évaluation systématique des performances de reconnaissance de différents grands modèles sur des données réelles de chantiers, clarifiant les avantages de l'amélioration par récupération dans l'amélioration de la capacité de généralisation et d'explication des modèles
  4. Amélioration significative des performances: Amélioration de la précision du modèle GLM-4V de 14,51% à 50%, avec une augmentation de 35,49%

Explication détaillée de la méthode

Définition de la tâche

Étant donné un ensemble de données multimodales d'identification des risques D={(I1,C1,L1),(I2,C2,L2),...,(IN,CN,LN)}D = \{(I_1, C_1, L_1), (I_2, C_2, L_2), ..., (I_N, C_N, L_N)\}, où:

  • IiI_i: Images de construction sur le chantier
  • CiC_i: Informations textuelles de description des risques
  • LiL_i: Étiquettes de catégories de risques

L'objectif est de générer par le cadre amélioré par récupération la catégorie de risque précise Li^\hat{L_i} et la description Ci^\hat{C_i} pour l'image d'entrée IiI_i:

Li^,Ci^=f(Ii,{Cjj=1,...,K})\hat{L_i}, \hat{C_i} = f(I_i, \{C_j | j=1,...,K\})

Architecture du modèle

Le cadre RDRAG comprend trois modules principaux:

1. Module de base de récupération

Construction d'une base de données structurée de cas de risques, stockant les cas historiques de risques sur les chantiers, chaque entrée contenant une image, une description textuelle et une étiquette de catégorie.

2. Module de récupération de similarité d'images

Implémentation du calcul de similarité multimodal basé sur le modèle CLIP:

Extraction de caractéristiques: f(Ii)=CLIP(Ii),f(Ij)=CLIP(Ij)f(I_i) = \text{CLIP}(I_i), \quad f(I_j) = \text{CLIP}(I_j)

Calcul de similarité: Sim(Ii,Ij)=f(Ii)f(Ij)f(Ii)f(Ij)\text{Sim}(I_i, I_j) = \frac{f(I_i) \cdot f(I_j)}{||f(I_i)|| \cdot ||f(I_j)||}

Récupération Top-K: {(Ij,Cj,Lj)j{1,2,...,K}}=Top-K(Sim(Ii,Ij))\{(I_j, C_j, L_j) | j \in \{1,2,...,K\}\} = \text{Top-K}(\text{Sim}(I_i, I_j))

3. Module d'amélioration par récupération de grands modèles

Combinaison des cas similaires récupérés avec l'image actuelle en une requête:

Prompti=Concat(Ii,{Cjj{1,2,...,K}})\text{Prompt}_i = \text{Concat}(I_i, \{C_j | j \in \{1,2,...,K\}\})

Génération des résultats par le grand modèle de langage multimodal: Li^,Ci^=LM(Prompti)\hat{L_i}, \hat{C_i} = \text{LM}(\text{Prompt}_i)

Points d'innovation technique

  1. Optimisation sans formation: Pas besoin d'ajustement fin du grand modèle; amélioration des performances par amélioration par récupération
  2. Fusion dynamique des connaissances: Récupération dynamique des cas pertinents en fonction de l'image d'entrée, fournissant des informations contextuelles
  3. Récupération multimodal: Utilisation du modèle CLIP pour le calcul de similarité image-texte multimodal
  4. Ingénierie de requêtes: Conception de quatre modèles de requêtes différents, optimisant le format et la précision de la sortie du modèle

Configuration expérimentale

Ensemble de données

  • Ensemble de données Rwecd: Construit à partir d'images réelles de construction d'autoroutes provinciales
  • Échelle totale: 325 échantillons d'images de risques
  • Nombre de catégories: 15 types différents de risques
  • Division des données: 105 images pour construire la base de récupération, 220 images comme ensemble de test

Métriques d'évaluation

  1. Précision des catégories: CategoryAccuracy=1Ni=1NI(Li=Li^)\text{CategoryAccuracy} = \frac{1}{N}\sum_{i=1}^{N}\mathbb{I}(L_i = \hat{L_i})
  2. Similarité BERT: BERTSim(Ci,Ci^)=fBERT(Ci)fBERT(Ci^)fBERT(Ci)fBERT(Ci^)\text{BERTSim}(C_i, \hat{C_i}) = \frac{f_{BERT}(C_i) \cdot f_{BERT}(\hat{C_i})}{||f_{BERT}(C_i)|| \cdot ||f_{BERT}(\hat{C_i})||}
  3. Similarité TF-IDF: TFIDFSim(Ci,Ci^)=fTFIDF(Ci)fTFIDF(Ci^)fTFIDF(Ci)fTFIDF(Ci^)\text{TFIDFSim}(C_i, \hat{C_i}) = \frac{f_{TFIDF}(C_i) \cdot f_{TFIDF}(\hat{C_i})}{||f_{TFIDF}(C_i)|| \cdot ||f_{TFIDF}(\hat{C_i})||}

Méthodes de comparaison

  • GLM-4V: Extension multimodale de la série ChatGLM des modèles de langage universels Zhipu
  • ChatGPT-4o: Grand modèle de langage multimodal lancé par OpenAI
  • Deepseek-vl2: Grand modèle de langage multimodal développé par l'équipe DeepSeek

Détails d'implémentation

Conception de quatre modèles de requêtes:

  • Type1: Instruction de base, sans ajout d'informations supplémentaires
  • Type2: Guidage par catégorie, ajout d'informations sur les 15 catégories de risques
  • Type3: Normalisation du format, ajout d'exigences de format de sortie
  • Type4: Amélioration composite, ajout simultané d'informations de catégorie et de format

Résultats expérimentaux

Résultats principaux

MéthodeModèleAccBERTTF-IDF
BaseGLM-4V14,51%69,953,17
BaseChatGPT-4O53,54%71,675,75
BaseDeepseek-vl214,91%68,152,34
COTGLM-4V17,28%70,093,68
COTChatGPT-4O55,08%71,304,64
COTDeepseek-vl212,11%66,872,33
RDRAGGLM-4V50,00%77,5111,83
RDRAGChatGPT-4O59,09%73,816,40
RDRAGDeepseek-vl236,53%72,256,86

Découvertes clés:

  • La précision de GLM-4V a augmenté de 14,51% à 50,00%, une amélioration de 35,49%
  • Tous les modèles montrent des améliorations significatives en similarité BERT et TF-IDF
  • La méthode COT a un effet limité, voire négatif dans certains cas

Expériences d'ablation

ModèleMéthodeAccBERTTF-IDF
GLM-4VRDRAG50,00%77,5111,83
GLM-4VLPIPS43,64%77,119,63
GLM-4VBase37,73%76,496,66

Analyse des résultats:

  • La stratégie de récupération basée sur CLIP surpasse la stratégie basée sur LPIPS
  • Le mécanisme de base de récupération apporte une amélioration positive pour tous les modèles
  • La capacité multimodale de CLIP est plus efficace pour comprendre la similarité du contenu des images

Analyse comparative des modèles de requêtes

Le modèle Type4 (amélioration composite) montre les meilleures performances en termes de similarité sémantique et de correspondance de mots-clés, et a donc été sélectionné comme schéma de requête final.

Analyse au niveau des catégories

Parmi les 15 catégories de risques, la méthode RDRAG montre des améliorations significatives dans la plupart des catégories, en particulier dans:

  • Les catégories avec un nombre d'échantillons plus important (par exemple, boîte de distribution non verrouillée à temps: 26%→60%)
  • Les catégories avec des objets cibles similaires (par exemple, équipements de lutte contre l'incendie: 0%→50%)
  • Les catégories de scènes complexes (par exemple, protection de sécurité des équipements: 12%→64,71%)

Travaux connexes

Méthodes traditionnelles d'identification des risques

  • Inspection manuelle: Dépendant de l'expérience du personnel de gestion de la sécurité, avec des problèmes d'omission et de nature répétitive
  • Technologie Internet des objets: Surveillance en temps réel par réseau de capteurs, mais coûts élevés et besoins en équipements importants
  • Vision par ordinateur: Basée sur les techniques SIFT, HOG, CNN, etc., mais les performances sont limitées par la qualité des images et la précision des algorithmes

Méthodes basées sur les grands modèles de langage

  • Alignement multimodal: Amélioration des performances par apprentissage contrastif et mécanismes d'attention multimodal
  • Apprentissage peu nombreux: Utilisation de l'apprentissage méta, de l'apprentissage par requête et de l'apprentissage par transfert pour réduire la dépendance aux données annotées
  • Génération améliorée par récupération: Combinaison de bases de connaissances externes pour améliorer les performances du modèle

Conclusion et discussion

Conclusions principales

  1. Le cadre RDRAG améliore significativement la précision et la capacité de compréhension contextuelle des grands modèles dans l'identification des risques sur les chantiers
  2. La méthode d'amélioration par récupération réalise une amélioration significative des performances sans nécessiter de formation
  3. La stratégie de récupération d'images basée sur CLIP surpasse les méthodes traditionnelles de similarité perceptuelle
  4. La méthode montre de bonnes performances de généralisation dans les scénarios d'identification de risques multi-catégories

Limitations

  1. Catégories peu nombreuses: Les performances d'optimisation sont instables pour les catégories avec très peu d'échantillons
  2. Perception des petites cibles: La reconnaissance précise des points de risque dans les arrière-plans complexes reste un défi
  3. Qualité de la base de récupération: Les performances dépendent de la qualité et de la couverture de la base de récupération
  4. Surcharge de calcul: La récupération en temps réel peut introduire une certaine latence de calcul

Directions futures

  1. Adoption de techniques d'amélioration de requêtes RAG plus complexes
  2. Amélioration de la capacité de perception des petites cibles du modèle
  3. Optimisation de la stratégie de récupération pour traiter les scènes complexes
  4. Extension à d'autres domaines de sécurité industrielle

Évaluation approfondie

Points forts

  1. Innovation forte: Application pionnière de la génération améliorée par récupération à l'identification des risques sur les chantiers, avec amélioration significative des performances sans ajustement fin
  2. Valeur pratique élevée: Résolution de problèmes d'ingénierie réels avec de fortes perspectives d'application
  3. Expériences complètes: Évaluation systématique sur plusieurs modèles, incluant des expériences d'ablation et une analyse au niveau des catégories
  4. Méthode générale: La conception du cadre possède une généralité et peut être étendue à d'autres domaines de détection de sécurité

Insuffisances

  1. Échelle de l'ensemble de données: L'ensemble de données Rwecd est relativement petit (325 images), ce qui peut limiter la généralité des conclusions
  2. Déséquilibre des catégories: Certaines catégories de risques ont trop peu d'échantillons, affectant l'évaluation des performances de ces catégories
  3. Efficacité de calcul: Analyse insuffisante de la surcharge de calcul et de la réactivité du processus de récupération
  4. Analyse des erreurs: Manque d'analyse approfondie des cas d'échec

Impact

  1. Contribution académique: Fourniture de nouvelles perspectives pour l'application des grands modèles multimodaux dans les domaines verticaux
  2. Valeur d'ingénierie: Fourniture d'une solution technologique pratique pour la gestion de la sécurité sur les chantiers
  3. Inspiration méthodologique: Le cadre d'amélioration par récupération peut inspirer les recherches connexes dans d'autres domaines

Scénarios d'application

  1. Surveillance de la sécurité sur les chantiers: Détection des risques en temps réel ou périodique
  2. Formation à la sécurité: Utilisation comme outil auxiliaire pour aider à identifier et apprendre les types de risques
  3. Vérification de conformité: Assistance aux responsables de la sécurité pour effectuer des contrôles standardisés
  4. Autres scénarios industriels: Extension possible aux mines, usines chimiques et autres industries à haut risque

Références

L'article cite de nombreux travaux connexes, couvrant les méthodes traditionnelles de vision par ordinateur, l'apprentissage multimodal, la génération améliorée par récupération et d'autres directions de recherche, fournissant une base théorique solide pour la recherche.


Évaluation globale: Cet article est une recherche appliquée de haute qualité. Le cadre RDRAG proposé possède l'innovation et la praticité, la conception expérimentale est raisonnable et les résultats sont convaincants. Bien qu'il y ait encore de la place pour l'amélioration en termes d'échelle de données et de certains détails techniques, il apporte une contribution précieuse à l'application des grands modèles multimodaux dans le domaine de la sécurité industrielle.