2025-11-11T07:07:08.271446

Large model retrieval enhancement framework for construction site risk identification

Li, Yang, Zhang et al.
This study addresses construction site hazard identification by proposing a retrieval-augmented framework that enhances large language models (LLMs) without requiring fine-tuning. Current LLM-based approaches face limitations: image-text matching struggles with complex hazards, while instruction tuning lacks generalization and is resource-intensive. Our method dynamically integrates external knowledge and retrieved similar cases via prompt tuning, overcoming LLMs' limitations in domain knowledge and feature correlation. The framework comprises a case database, an image retrieval module, and an LLM-based reasoning module. Evaluated on real-site data, our approach boosted GLM-4V's accuracy to 50%, a 35.49% improvement over baselines, with consistent gains across hazard types. Ablation studies validated the effectiveness of our image retrieval strategy, showing the superiority of our LPIPS- and CLIP-based method. The proposed technique significantly improves identification accuracy and contextual understanding, demonstrating strong generalization and offering a practical path for intelligent safety risk detection in construction.
academic

Framework di potenziamento del recupero di grandi modelli per l'identificazione dei rischi nei cantieri

Informazioni di base

  • ID articolo: 2508.02073
  • Titolo: Large model retrieval enhancement framework for construction site risk identification (Framework di potenziamento del recupero di grandi modelli per l'identificazione dei rischi nei cantieri)
  • Autori: Li Jiawei, Yang Chengye, Zhang Yaochen, Sun Weilin, Meng Lei, Meng Xiangxu
  • Classificazione: cs.AI
  • Data di pubblicazione/Conferenza: Journal of Image and Graphics (中国图象图形学报)
  • Link articolo: https://arxiv.org/abs/2508.02073

Riassunto

Questo studio affronta il problema dell'identificazione dei rischi nei cantieri, proponendo un framework di potenziamento del recupero senza necessità di fine-tuning per migliorare le prestazioni dei grandi modelli linguistici. I metodi attuali basati su LLM presentano limitazioni: l'abbinamento immagine-testo manca di capacità nell'identificazione di rischi complessi, mentre il fine-tuning istruzionale carente di capacità di generalizzazione e consuma molte risorse. Questo metodo supera le carenze dei grandi modelli nella conoscenza di dominio e nell'associazione di caratteristiche attraverso tecniche di fine-tuning dei prompt che integrano dinamicamente basi di conoscenza esterne e contesti di casi recuperati. Il framework contiene un database di casi, un modulo di recupero di immagini e un modulo di ragionamento basato su LLM. La valutazione su dati reali di cantieri mostra che il metodo aumenta l'accuratezza di GLM-4V al 50%, migliorando il metodo di base del 35,49%, con miglioramenti coerenti delle prestazioni in tutti i tipi di identificazione dei rischi. Gli esperimenti di ablazione verificano l'efficacia della strategia di recupero di immagini, dimostrando la superiorità del metodo basato su CLIP rispetto a LPIPS.

Contesto di ricerca e motivazione

1. Problema da risolvere

Questo studio affronta il problema dell'identificazione automatizzata dei rischi nei cantieri. L'ispezione manuale tradizionale presenta limitazioni come elevati tassi di omissione, natura ripetitiva e impossibilità di monitoraggio in tempo reale, mentre i metodi attuali basati sulla visione artificiale presentano ancora insufficienze nella capacità di generalizzazione e nella precisione di identificazione.

2. Importanza del problema

  • Garanzia di sicurezza: Gli incidenti nei cantieri sono frequenti; l'identificazione accurata dei rischi è essenziale per la prevenzione degli incidenti
  • Miglioramento dell'efficienza: L'identificazione automatizzata può sostituire l'ispezione manuale tradizionale, aumentando l'efficienza dei controlli
  • Controllo dei costi: Riduzione degli investimenti di manodopera e delle perdite economiche causate da incidenti di sicurezza

3. Limitazioni dei metodi esistenti

I metodi attuali basati su grandi modelli linguistici si dividono principalmente in due categorie:

  • Metodi di abbinamento immagine-testo: Migliorano l'abbinamento immagine-semantica attraverso l'allineamento multimodale, ma hanno capacità limitate nel comprendere caratteristiche di rischi complessi
  • Metodi di fine-tuning istruzionale: Approfondiscono l'analisi del modello attraverso l'arricchimento di conoscenza di dominio, ma presentano problemi di elevati costi di addestramento e scarsa generalità

4. Motivazione della ricerca

Per evitare il fine-tuning ad alto costo mantenendo l'accuratezza e l'adattabilità del dominio dei grandi modelli nell'identificazione di rischi complessi, l'introduzione di fonti di conoscenza esterne e l'implementazione del potenziamento del recupero rappresentano un percorso di soluzione degno di esplorazione.

Contributi principali

  1. Framework innovativo: Propone un framework innovativo di identificazione dei rischi potenziato dal recupero di casi simili (RDRAG), che integra innovativamente l'apprendimento dei prompt dei grandi modelli con meccanismi di recupero di istanze
  2. Design plug-and-play: Costruisce un modulo di potenziamento del recupero plug-and-play, realizzando l'ottimizzazione senza addestramento dei grandi modelli attraverso strategie di fine-tuning dei prompt
  3. Valutazione sistematica: Valuta sistematicamente le prestazioni di identificazione di diversi grandi modelli su dati reali di cantieri, chiarendo i vantaggi del potenziamento del recupero nel migliorare la capacità di generalizzazione e di interpretazione del modello
  4. Miglioramento significativo delle prestazioni: L'accuratezza del modello GLM-4V aumenta da 14,51% a 50%, con un miglioramento di 35,49%

Spiegazione dettagliata del metodo

Definizione del compito

Dato un dataset di identificazione dei rischi multimodale D={(I1,C1,L1),(I2,C2,L2),...,(IN,CN,LN)}D = \{(I_1, C_1, L_1), (I_2, C_2, L_2), ..., (I_N, C_N, L_N)\}, dove:

  • IiI_i: immagine di cantiere
  • CiC_i: informazioni di testo descrittivo del rischio
  • LiL_i: etichetta di categoria del rischio

L'obiettivo è generare attraverso un framework di generazione potenziato dal recupero la categoria di rischio accurata Li^\hat{L_i} e la descrizione Ci^\hat{C_i} per l'immagine di input IiI_i:

Li^,Ci^=f(Ii,{Cjj=1,...,K})\hat{L_i}, \hat{C_i} = f(I_i, \{C_j | j=1,...,K\})

Architettura del modello

Il framework RDRAG contiene tre moduli principali:

1. Modulo della base di recupero

Costruisce un database strutturato di casi di rischi nei cantieri, memorizzando casi storici di rischi, con ogni voce contenente immagine, descrizione testuale e etichetta di categoria.

2. Modulo di recupero della similarità delle immagini

Implementa il calcolo della similarità cross-modale basato su CLIP:

Estrazione delle caratteristiche: f(Ii)=CLIP(Ii),f(Ij)=CLIP(Ij)f(I_i) = \text{CLIP}(I_i), \quad f(I_j) = \text{CLIP}(I_j)

Calcolo della similarità: Sim(Ii,Ij)=f(Ii)f(Ij)f(Ii)f(Ij)\text{Sim}(I_i, I_j) = \frac{f(I_i) \cdot f(I_j)}{||f(I_i)|| \cdot ||f(I_j)||}

Recupero Top-K: {(Ij,Cj,Lj)j{1,2,...,K}}=Top-K(Sim(Ii,Ij))\{(I_j, C_j, L_j) | j \in \{1,2,...,K\}\} = \text{Top-K}(\text{Sim}(I_i, I_j))

3. Modulo di potenziamento del recupero del grande modello

Combina i casi simili recuperati con l'immagine corrente in un prompt:

Prompti=Concat(Ii,{Cjj{1,2,...,K}})\text{Prompt}_i = \text{Concat}(I_i, \{C_j | j \in \{1,2,...,K\}\})

Genera risultati attraverso un grande modello linguistico multimodale: Li^,Ci^=LM(Prompti)\hat{L_i}, \hat{C_i} = \text{LM}(\text{Prompt}_i)

Punti di innovazione tecnica

  1. Ottimizzazione senza addestramento: Non richiede fine-tuning del grande modello, realizzando miglioramento delle prestazioni attraverso potenziamento del recupero
  2. Integrazione dinamica della conoscenza: Recupera dinamicamente casi rilevanti in base all'immagine di input, fornendo informazioni di contesto
  3. Recupero cross-modale: Utilizza il modello CLIP per il calcolo della similarità cross-modale immagine-testo
  4. Ingegneria dei prompt: Progetta quattro diversi template di prompt, ottimizzando il formato di output e l'accuratezza del modello

Configurazione sperimentale

Dataset

  • Dataset Rwecd: Costruito su immagini reali di cantieri autostradali provinciali
  • Scala totale: 325 campioni di immagini di rischi
  • Numero di categorie: 15 diversi tipi di categorie di rischi
  • Divisione dei dati: 105 immagini per costruire la base di recupero, 220 immagini come set di test

Metriche di valutazione

  1. Accuratezza di categoria: CategoryAccuracy=1Ni=1NI(Li=Li^)\text{CategoryAccuracy} = \frac{1}{N}\sum_{i=1}^{N}\mathbb{I}(L_i = \hat{L_i})
  2. Similarità BERT: BERTSim(Ci,Ci^)=fBERT(Ci)fBERT(Ci^)fBERT(Ci)fBERT(Ci^)\text{BERTSim}(C_i, \hat{C_i}) = \frac{f_{BERT}(C_i) \cdot f_{BERT}(\hat{C_i})}{||f_{BERT}(C_i)|| \cdot ||f_{BERT}(\hat{C_i})||}
  3. Similarità TF-IDF: TFIDFSim(Ci,Ci^)=fTFIDF(Ci)fTFIDF(Ci^)fTFIDF(Ci)fTFIDF(Ci^)\text{TFIDFSim}(C_i, \hat{C_i}) = \frac{f_{TFIDF}(C_i) \cdot f_{TFIDF}(\hat{C_i})}{||f_{TFIDF}(C_i)|| \cdot ||f_{TFIDF}(\hat{C_i})||}

Metodi di confronto

  • GLM-4V: Versione multimodale estesa della serie di modelli linguistici Zhipu ChatGLM
  • ChatGPT-4o: Grande modello linguistico multimodale lanciato da OpenAI
  • Deepseek-vl2: Grande modello linguistico multimodale sviluppato dal team DeepSeek

Dettagli di implementazione

Progetta quattro template di prompt:

  • Type1: Istruzione di base, senza aggiunta di informazioni supplementari
  • Type2: Guida per categoria, aggiunge informazioni sulle 15 categorie di rischi
  • Type3: Specifica di formato, aggiunge requisiti di formato di output
  • Type4: Potenziamento composito, aggiunge simultaneamente informazioni di categoria e formato

Risultati sperimentali

Risultati principali

MetodoModelloAccBERTTF-IDF
BaseGLM-4V14,51%69,953,17
BaseChatGPT-4O53,54%71,675,75
BaseDeepseek-vl214,91%68,152,34
COTGLM-4V17,28%70,093,68
COTChatGPT-4O55,08%71,304,64
COTDeepseek-vl212,11%66,872,33
RDRAGGLM-4V50,00%77,5111,83
RDRAGChatGPT-4O59,09%73,816,40
RDRAGDeepseek-vl236,53%72,256,86

Scoperte chiave:

  • L'accuratezza di GLM-4V aumenta da 14,51% a 50,00%, con un miglioramento di 35,49%
  • Tutti i modelli mostrano miglioramenti significativi nella similarità BERT e TF-IDF
  • Il metodo COT ha effetti limitati, mostrando persino effetti negativi in alcuni casi

Esperimenti di ablazione

ModelloMetodoAccBERTTF-IDF
GLM-4VRDRAG50,00%77,5111,83
GLM-4VLPIPS43,64%77,119,63
GLM-4VBase37,73%76,496,66

Analisi dei risultati:

  • La strategia di recupero basata su CLIP supera la strategia basata su LPIPS
  • Il meccanismo della base di recupero fornisce miglioramenti positivi per tutti i modelli
  • La capacità cross-modale di CLIP è più efficace nel comprendere la similarità del contenuto delle immagini

Analisi comparativa dei template di prompt

Il template Type4 (potenziamento composito) mostra le migliori prestazioni sia nella similarità semantica che nella corrispondenza di parole chiave, quindi è stato selezionato come schema di prompt finale.

Analisi a livello di categoria

Tra le 15 categorie di rischi, il metodo RDRAG mostra miglioramenti significativi nella maggior parte delle categorie, in particolare in:

  • Categorie con maggior numero di campioni (ad es. quadri di distribuzione non chiusi tempestivamente: 26%→60%)
  • Categorie con oggetti target simili (ad es. strutture antincendio correlate: 0%→50%)
  • Categorie di scene complesse (ad es. protezione della sicurezza delle apparecchiature: 12%→64,71%)

Lavori correlati

Metodi tradizionali di identificazione dei rischi

  • Ispezione manuale: Dipende dall'esperienza del personale di gestione della sicurezza, con problemi di omissioni e natura ripetitiva
  • Tecnologia IoT: Monitoraggio in tempo reale attraverso reti di sensori, ma con elevati costi e requisiti di apparecchiature
  • Visione artificiale: Basata su tecniche SIFT, HOG, CNN, ma con prestazioni limitate dalla qualità dell'immagine e dalla precisione dell'algoritmo

Metodi basati su grandi modelli linguistici

  • Allineamento multimodale: Miglioramento delle prestazioni attraverso apprendimento contrastivo e meccanismi di attenzione cross-modale
  • Apprendimento con pochi esempi: Utilizzo di meta-apprendimento, apprendimento dei prompt e apprendimento per trasferimento per ridurre la dipendenza dai dati annotati
  • Generazione potenziata dal recupero: Combinazione di basi di conoscenza esterne per migliorare le prestazioni del modello

Conclusioni e discussione

Conclusioni principali

  1. Il framework RDRAG migliora significativamente l'accuratezza e la capacità di comprensione del contesto dei grandi modelli nell'identificazione dei rischi nei cantieri
  2. Il metodo di potenziamento del recupero realizza miglioramenti significativi delle prestazioni senza necessità di addestramento
  3. La strategia di recupero di immagini basata su CLIP supera i metodi tradizionali di similarità percettiva
  4. Il metodo mostra buone prestazioni di generalizzazione in scenari di rischi multi-categoria

Limitazioni

  1. Categorie con pochi campioni: L'effetto di ottimizzazione è instabile per categorie con numero estremamente ridotto di campioni
  2. Percezione di piccoli obiettivi: L'identificazione precisa dei punti di rischio in sfondi complessi presenta ancora sfide
  3. Qualità della base di recupero: Le prestazioni dipendono dalla qualità e dalla copertura della base di recupero
  4. Overhead computazionale: Il recupero in tempo reale potrebbe introdurre un certo ritardo computazionale

Direzioni future

  1. Adozione di tecniche di potenziamento dei prompt RAG più complesse
  2. Miglioramento della capacità di percezione di piccoli obiettivi del modello
  3. Ottimizzazione della strategia di recupero per gestire scene complesse
  4. Estensione ad altri settori della sicurezza industriale

Valutazione approfondita

Punti di forza

  1. Forte innovazione: Prima applicazione della generazione potenziata dal recupero all'identificazione dei rischi nei cantieri, con miglioramento significativo delle prestazioni senza necessità di fine-tuning
  2. Elevato valore pratico: Risolve problemi di ingegneria reale con forti prospettive di applicazione
  3. Esperimenti completi: Valutazione sistematica su più modelli, inclusi esperimenti di ablazione e analisi a livello di categoria
  4. Metodo universale: Il design del framework ha universalità e può essere esteso ad altri settori di rilevamento della sicurezza

Insufficienze

  1. Scala del dataset: Il dataset Rwecd è relativamente piccolo (325 immagini), il che potrebbe limitare l'universalità delle conclusioni
  2. Squilibrio di categoria: Alcune categorie di rischi hanno troppi pochi campioni, influenzando la valutazione delle prestazioni di queste categorie
  3. Efficienza computazionale: Manca un'analisi dettagliata dell'overhead computazionale e della tempestività del processo di recupero
  4. Analisi degli errori: Manca un'analisi approfondita dei casi di fallimento

Impatto

  1. Contributo accademico: Fornisce nuove prospettive per l'applicazione di grandi modelli multimodali in settori verticali
  2. Valore ingegneristico: Fornisce una soluzione tecnica pratica per la gestione della sicurezza nei cantieri
  3. Ispirazione metodologica: Il framework di potenziamento del recupero può ispirare ricerche correlate in altri settori

Scenari applicabili

  1. Monitoraggio della sicurezza nei cantieri: Rilevamento dei rischi in tempo reale o periodico
  2. Formazione sulla sicurezza: Utilizzo come strumento ausiliario per aiutare a identificare e imparare i tipi di rischi
  3. Controllo della conformità: Assistenza al personale di gestione della sicurezza nell'esecuzione di controlli standardizzati
  4. Altri scenari industriali: Estensione a settori ad alto rischio come miniere e industria chimica

Bibliografia

L'articolo cita numerosi lavori correlati, coprendo metodi tradizionali di visione artificiale, apprendimento multimodale, generazione potenziata dal recupero e altre direzioni di ricerca, fornendo una base teorica solida per la ricerca.


Valutazione complessiva: Questo è un articolo di ricerca di alta qualità di tipo applicativo. Il framework RDRAG proposto ha innovazione e praticità, il design sperimentale è ragionevole e i risultati sono convincenti. Sebbene ci sia ancora spazio per miglioramenti nella scala dei dati e in alcuni dettagli tecnici, fornisce un contributo prezioso all'applicazione di grandi modelli multimodali nel settore della sicurezza industriale.