This study addresses construction site hazard identification by proposing a retrieval-augmented framework that enhances large language models (LLMs) without requiring fine-tuning. Current LLM-based approaches face limitations: image-text matching struggles with complex hazards, while instruction tuning lacks generalization and is resource-intensive. Our method dynamically integrates external knowledge and retrieved similar cases via prompt tuning, overcoming LLMs' limitations in domain knowledge and feature correlation. The framework comprises a case database, an image retrieval module, and an LLM-based reasoning module. Evaluated on real-site data, our approach boosted GLM-4V's accuracy to 50%, a 35.49% improvement over baselines, with consistent gains across hazard types. Ablation studies validated the effectiveness of our image retrieval strategy, showing the superiority of our LPIPS- and CLIP-based method. The proposed technique significantly improves identification accuracy and contextual understanding, demonstrating strong generalization and offering a practical path for intelligent safety risk detection in construction.
Framework di potenziamento del recupero di grandi modelli per l'identificazione dei rischi nei cantieri
- ID articolo: 2508.02073
- Titolo: Large model retrieval enhancement framework for construction site risk identification (Framework di potenziamento del recupero di grandi modelli per l'identificazione dei rischi nei cantieri)
- Autori: Li Jiawei, Yang Chengye, Zhang Yaochen, Sun Weilin, Meng Lei, Meng Xiangxu
- Classificazione: cs.AI
- Data di pubblicazione/Conferenza: Journal of Image and Graphics (中国图象图形学报)
- Link articolo: https://arxiv.org/abs/2508.02073
Questo studio affronta il problema dell'identificazione dei rischi nei cantieri, proponendo un framework di potenziamento del recupero senza necessità di fine-tuning per migliorare le prestazioni dei grandi modelli linguistici. I metodi attuali basati su LLM presentano limitazioni: l'abbinamento immagine-testo manca di capacità nell'identificazione di rischi complessi, mentre il fine-tuning istruzionale carente di capacità di generalizzazione e consuma molte risorse. Questo metodo supera le carenze dei grandi modelli nella conoscenza di dominio e nell'associazione di caratteristiche attraverso tecniche di fine-tuning dei prompt che integrano dinamicamente basi di conoscenza esterne e contesti di casi recuperati. Il framework contiene un database di casi, un modulo di recupero di immagini e un modulo di ragionamento basato su LLM. La valutazione su dati reali di cantieri mostra che il metodo aumenta l'accuratezza di GLM-4V al 50%, migliorando il metodo di base del 35,49%, con miglioramenti coerenti delle prestazioni in tutti i tipi di identificazione dei rischi. Gli esperimenti di ablazione verificano l'efficacia della strategia di recupero di immagini, dimostrando la superiorità del metodo basato su CLIP rispetto a LPIPS.
Questo studio affronta il problema dell'identificazione automatizzata dei rischi nei cantieri. L'ispezione manuale tradizionale presenta limitazioni come elevati tassi di omissione, natura ripetitiva e impossibilità di monitoraggio in tempo reale, mentre i metodi attuali basati sulla visione artificiale presentano ancora insufficienze nella capacità di generalizzazione e nella precisione di identificazione.
- Garanzia di sicurezza: Gli incidenti nei cantieri sono frequenti; l'identificazione accurata dei rischi è essenziale per la prevenzione degli incidenti
- Miglioramento dell'efficienza: L'identificazione automatizzata può sostituire l'ispezione manuale tradizionale, aumentando l'efficienza dei controlli
- Controllo dei costi: Riduzione degli investimenti di manodopera e delle perdite economiche causate da incidenti di sicurezza
I metodi attuali basati su grandi modelli linguistici si dividono principalmente in due categorie:
- Metodi di abbinamento immagine-testo: Migliorano l'abbinamento immagine-semantica attraverso l'allineamento multimodale, ma hanno capacità limitate nel comprendere caratteristiche di rischi complessi
- Metodi di fine-tuning istruzionale: Approfondiscono l'analisi del modello attraverso l'arricchimento di conoscenza di dominio, ma presentano problemi di elevati costi di addestramento e scarsa generalità
Per evitare il fine-tuning ad alto costo mantenendo l'accuratezza e l'adattabilità del dominio dei grandi modelli nell'identificazione di rischi complessi, l'introduzione di fonti di conoscenza esterne e l'implementazione del potenziamento del recupero rappresentano un percorso di soluzione degno di esplorazione.
- Framework innovativo: Propone un framework innovativo di identificazione dei rischi potenziato dal recupero di casi simili (RDRAG), che integra innovativamente l'apprendimento dei prompt dei grandi modelli con meccanismi di recupero di istanze
- Design plug-and-play: Costruisce un modulo di potenziamento del recupero plug-and-play, realizzando l'ottimizzazione senza addestramento dei grandi modelli attraverso strategie di fine-tuning dei prompt
- Valutazione sistematica: Valuta sistematicamente le prestazioni di identificazione di diversi grandi modelli su dati reali di cantieri, chiarendo i vantaggi del potenziamento del recupero nel migliorare la capacità di generalizzazione e di interpretazione del modello
- Miglioramento significativo delle prestazioni: L'accuratezza del modello GLM-4V aumenta da 14,51% a 50%, con un miglioramento di 35,49%
Dato un dataset di identificazione dei rischi multimodale D={(I1,C1,L1),(I2,C2,L2),...,(IN,CN,LN)}, dove:
- Ii: immagine di cantiere
- Ci: informazioni di testo descrittivo del rischio
- Li: etichetta di categoria del rischio
L'obiettivo è generare attraverso un framework di generazione potenziato dal recupero la categoria di rischio accurata Li^ e la descrizione Ci^ per l'immagine di input Ii:
Li^,Ci^=f(Ii,{Cj∣j=1,...,K})
Il framework RDRAG contiene tre moduli principali:
Costruisce un database strutturato di casi di rischi nei cantieri, memorizzando casi storici di rischi, con ogni voce contenente immagine, descrizione testuale e etichetta di categoria.
Implementa il calcolo della similarità cross-modale basato su CLIP:
Estrazione delle caratteristiche:
f(Ii)=CLIP(Ii),f(Ij)=CLIP(Ij)
Calcolo della similarità:
Sim(Ii,Ij)=∣∣f(Ii)∣∣⋅∣∣f(Ij)∣∣f(Ii)⋅f(Ij)
Recupero Top-K:
{(Ij,Cj,Lj)∣j∈{1,2,...,K}}=Top-K(Sim(Ii,Ij))
Combina i casi simili recuperati con l'immagine corrente in un prompt:
Prompti=Concat(Ii,{Cj∣j∈{1,2,...,K}})
Genera risultati attraverso un grande modello linguistico multimodale:
Li^,Ci^=LM(Prompti)
- Ottimizzazione senza addestramento: Non richiede fine-tuning del grande modello, realizzando miglioramento delle prestazioni attraverso potenziamento del recupero
- Integrazione dinamica della conoscenza: Recupera dinamicamente casi rilevanti in base all'immagine di input, fornendo informazioni di contesto
- Recupero cross-modale: Utilizza il modello CLIP per il calcolo della similarità cross-modale immagine-testo
- Ingegneria dei prompt: Progetta quattro diversi template di prompt, ottimizzando il formato di output e l'accuratezza del modello
- Dataset Rwecd: Costruito su immagini reali di cantieri autostradali provinciali
- Scala totale: 325 campioni di immagini di rischi
- Numero di categorie: 15 diversi tipi di categorie di rischi
- Divisione dei dati: 105 immagini per costruire la base di recupero, 220 immagini come set di test
- Accuratezza di categoria:
CategoryAccuracy=N1∑i=1NI(Li=Li^)
- Similarità BERT:
BERTSim(Ci,Ci^)=∣∣fBERT(Ci)∣∣⋅∣∣fBERT(Ci^)∣∣fBERT(Ci)⋅fBERT(Ci^)
- Similarità TF-IDF:
TFIDFSim(Ci,Ci^)=∣∣fTFIDF(Ci)∣∣⋅∣∣fTFIDF(Ci^)∣∣fTFIDF(Ci)⋅fTFIDF(Ci^)
- GLM-4V: Versione multimodale estesa della serie di modelli linguistici Zhipu ChatGLM
- ChatGPT-4o: Grande modello linguistico multimodale lanciato da OpenAI
- Deepseek-vl2: Grande modello linguistico multimodale sviluppato dal team DeepSeek
Progetta quattro template di prompt:
- Type1: Istruzione di base, senza aggiunta di informazioni supplementari
- Type2: Guida per categoria, aggiunge informazioni sulle 15 categorie di rischi
- Type3: Specifica di formato, aggiunge requisiti di formato di output
- Type4: Potenziamento composito, aggiunge simultaneamente informazioni di categoria e formato
| Metodo | Modello | Acc | BERT | TF-IDF |
|---|
| Base | GLM-4V | 14,51% | 69,95 | 3,17 |
| Base | ChatGPT-4O | 53,54% | 71,67 | 5,75 |
| Base | Deepseek-vl2 | 14,91% | 68,15 | 2,34 |
| COT | GLM-4V | 17,28% | 70,09 | 3,68 |
| COT | ChatGPT-4O | 55,08% | 71,30 | 4,64 |
| COT | Deepseek-vl2 | 12,11% | 66,87 | 2,33 |
| RDRAG | GLM-4V | 50,00% | 77,51 | 11,83 |
| RDRAG | ChatGPT-4O | 59,09% | 73,81 | 6,40 |
| RDRAG | Deepseek-vl2 | 36,53% | 72,25 | 6,86 |
Scoperte chiave:
- L'accuratezza di GLM-4V aumenta da 14,51% a 50,00%, con un miglioramento di 35,49%
- Tutti i modelli mostrano miglioramenti significativi nella similarità BERT e TF-IDF
- Il metodo COT ha effetti limitati, mostrando persino effetti negativi in alcuni casi
| Modello | Metodo | Acc | BERT | TF-IDF |
|---|
| GLM-4V | RDRAG | 50,00% | 77,51 | 11,83 |
| GLM-4V | LPIPS | 43,64% | 77,11 | 9,63 |
| GLM-4V | Base | 37,73% | 76,49 | 6,66 |
Analisi dei risultati:
- La strategia di recupero basata su CLIP supera la strategia basata su LPIPS
- Il meccanismo della base di recupero fornisce miglioramenti positivi per tutti i modelli
- La capacità cross-modale di CLIP è più efficace nel comprendere la similarità del contenuto delle immagini
Il template Type4 (potenziamento composito) mostra le migliori prestazioni sia nella similarità semantica che nella corrispondenza di parole chiave, quindi è stato selezionato come schema di prompt finale.
Tra le 15 categorie di rischi, il metodo RDRAG mostra miglioramenti significativi nella maggior parte delle categorie, in particolare in:
- Categorie con maggior numero di campioni (ad es. quadri di distribuzione non chiusi tempestivamente: 26%→60%)
- Categorie con oggetti target simili (ad es. strutture antincendio correlate: 0%→50%)
- Categorie di scene complesse (ad es. protezione della sicurezza delle apparecchiature: 12%→64,71%)
- Ispezione manuale: Dipende dall'esperienza del personale di gestione della sicurezza, con problemi di omissioni e natura ripetitiva
- Tecnologia IoT: Monitoraggio in tempo reale attraverso reti di sensori, ma con elevati costi e requisiti di apparecchiature
- Visione artificiale: Basata su tecniche SIFT, HOG, CNN, ma con prestazioni limitate dalla qualità dell'immagine e dalla precisione dell'algoritmo
- Allineamento multimodale: Miglioramento delle prestazioni attraverso apprendimento contrastivo e meccanismi di attenzione cross-modale
- Apprendimento con pochi esempi: Utilizzo di meta-apprendimento, apprendimento dei prompt e apprendimento per trasferimento per ridurre la dipendenza dai dati annotati
- Generazione potenziata dal recupero: Combinazione di basi di conoscenza esterne per migliorare le prestazioni del modello
- Il framework RDRAG migliora significativamente l'accuratezza e la capacità di comprensione del contesto dei grandi modelli nell'identificazione dei rischi nei cantieri
- Il metodo di potenziamento del recupero realizza miglioramenti significativi delle prestazioni senza necessità di addestramento
- La strategia di recupero di immagini basata su CLIP supera i metodi tradizionali di similarità percettiva
- Il metodo mostra buone prestazioni di generalizzazione in scenari di rischi multi-categoria
- Categorie con pochi campioni: L'effetto di ottimizzazione è instabile per categorie con numero estremamente ridotto di campioni
- Percezione di piccoli obiettivi: L'identificazione precisa dei punti di rischio in sfondi complessi presenta ancora sfide
- Qualità della base di recupero: Le prestazioni dipendono dalla qualità e dalla copertura della base di recupero
- Overhead computazionale: Il recupero in tempo reale potrebbe introdurre un certo ritardo computazionale
- Adozione di tecniche di potenziamento dei prompt RAG più complesse
- Miglioramento della capacità di percezione di piccoli obiettivi del modello
- Ottimizzazione della strategia di recupero per gestire scene complesse
- Estensione ad altri settori della sicurezza industriale
- Forte innovazione: Prima applicazione della generazione potenziata dal recupero all'identificazione dei rischi nei cantieri, con miglioramento significativo delle prestazioni senza necessità di fine-tuning
- Elevato valore pratico: Risolve problemi di ingegneria reale con forti prospettive di applicazione
- Esperimenti completi: Valutazione sistematica su più modelli, inclusi esperimenti di ablazione e analisi a livello di categoria
- Metodo universale: Il design del framework ha universalità e può essere esteso ad altri settori di rilevamento della sicurezza
- Scala del dataset: Il dataset Rwecd è relativamente piccolo (325 immagini), il che potrebbe limitare l'universalità delle conclusioni
- Squilibrio di categoria: Alcune categorie di rischi hanno troppi pochi campioni, influenzando la valutazione delle prestazioni di queste categorie
- Efficienza computazionale: Manca un'analisi dettagliata dell'overhead computazionale e della tempestività del processo di recupero
- Analisi degli errori: Manca un'analisi approfondita dei casi di fallimento
- Contributo accademico: Fornisce nuove prospettive per l'applicazione di grandi modelli multimodali in settori verticali
- Valore ingegneristico: Fornisce una soluzione tecnica pratica per la gestione della sicurezza nei cantieri
- Ispirazione metodologica: Il framework di potenziamento del recupero può ispirare ricerche correlate in altri settori
- Monitoraggio della sicurezza nei cantieri: Rilevamento dei rischi in tempo reale o periodico
- Formazione sulla sicurezza: Utilizzo come strumento ausiliario per aiutare a identificare e imparare i tipi di rischi
- Controllo della conformità: Assistenza al personale di gestione della sicurezza nell'esecuzione di controlli standardizzati
- Altri scenari industriali: Estensione a settori ad alto rischio come miniere e industria chimica
L'articolo cita numerosi lavori correlati, coprendo metodi tradizionali di visione artificiale, apprendimento multimodale, generazione potenziata dal recupero e altre direzioni di ricerca, fornendo una base teorica solida per la ricerca.
Valutazione complessiva: Questo è un articolo di ricerca di alta qualità di tipo applicativo. Il framework RDRAG proposto ha innovazione e praticità, il design sperimentale è ragionevole e i risultati sono convincenti. Sebbene ci sia ancora spazio per miglioramenti nella scala dei dati e in alcuni dettagli tecnici, fornisce un contributo prezioso all'applicazione di grandi modelli multimodali nel settore della sicurezza industriale.