2025-11-11T07:07:08.271446

Large model retrieval enhancement framework for construction site risk identification

Li, Yang, Zhang et al.

This study addresses construction site hazard identification by proposing a retrieval-augmented framework that enhances large language models (LLMs) without requiring fine-tuning. Current LLM-based approaches face limitations: image-text matching struggles with complex hazards, while instruction tuning lacks generalization and is resource-intensive. Our method dynamically integrates external knowledge and retrieved similar cases via prompt tuning, overcoming LLMs' limitations in domain knowledge and feature correlation. The framework comprises a case database, an image retrieval module, and an LLM-based reasoning module. Evaluated on real-site data, our approach boosted GLM-4V's accuracy to 50%, a 35.49% improvement over baselines, with consistent gains across hazard types. Ablation studies validated the effectiveness of our image retrieval strategy, showing the superiority of our LPIPS- and CLIP-based method. The proposed technique significantly improves identification accuracy and contextual understanding, demonstrating strong generalization and offering a practical path for intelligent safety risk detection in construction.

academic

Framework di potenziamento del recupero di grandi modelli per l'identificazione dei rischi nei cantieri

Informazioni di base

ID articolo: 2508.02073
Titolo: Large model retrieval enhancement framework for construction site risk identification (Framework di potenziamento del recupero di grandi modelli per l'identificazione dei rischi nei cantieri)
Autori: Li Jiawei, Yang Chengye, Zhang Yaochen, Sun Weilin, Meng Lei, Meng Xiangxu
Classificazione: cs.AI
Data di pubblicazione/Conferenza: Journal of Image and Graphics (中国图象图形学报)
Link articolo: https://arxiv.org/abs/2508.02073

Riassunto

Questo studio affronta il problema dell'identificazione dei rischi nei cantieri, proponendo un framework di potenziamento del recupero senza necessità di fine-tuning per migliorare le prestazioni dei grandi modelli linguistici. I metodi attuali basati su LLM presentano limitazioni: l'abbinamento immagine-testo manca di capacità nell'identificazione di rischi complessi, mentre il fine-tuning istruzionale carente di capacità di generalizzazione e consuma molte risorse. Questo metodo supera le carenze dei grandi modelli nella conoscenza di dominio e nell'associazione di caratteristiche attraverso tecniche di fine-tuning dei prompt che integrano dinamicamente basi di conoscenza esterne e contesti di casi recuperati. Il framework contiene un database di casi, un modulo di recupero di immagini e un modulo di ragionamento basato su LLM. La valutazione su dati reali di cantieri mostra che il metodo aumenta l'accuratezza di GLM-4V al 50%, migliorando il metodo di base del 35,49%, con miglioramenti coerenti delle prestazioni in tutti i tipi di identificazione dei rischi. Gli esperimenti di ablazione verificano l'efficacia della strategia di recupero di immagini, dimostrando la superiorità del metodo basato su CLIP rispetto a LPIPS.

Contesto di ricerca e motivazione

1. Problema da risolvere

Questo studio affronta il problema dell'identificazione automatizzata dei rischi nei cantieri. L'ispezione manuale tradizionale presenta limitazioni come elevati tassi di omissione, natura ripetitiva e impossibilità di monitoraggio in tempo reale, mentre i metodi attuali basati sulla visione artificiale presentano ancora insufficienze nella capacità di generalizzazione e nella precisione di identificazione.

2. Importanza del problema

Garanzia di sicurezza: Gli incidenti nei cantieri sono frequenti; l'identificazione accurata dei rischi è essenziale per la prevenzione degli incidenti
Miglioramento dell'efficienza: L'identificazione automatizzata può sostituire l'ispezione manuale tradizionale, aumentando l'efficienza dei controlli
Controllo dei costi: Riduzione degli investimenti di manodopera e delle perdite economiche causate da incidenti di sicurezza

3. Limitazioni dei metodi esistenti

I metodi attuali basati su grandi modelli linguistici si dividono principalmente in due categorie:

Metodi di abbinamento immagine-testo: Migliorano l'abbinamento immagine-semantica attraverso l'allineamento multimodale, ma hanno capacità limitate nel comprendere caratteristiche di rischi complessi
Metodi di fine-tuning istruzionale: Approfondiscono l'analisi del modello attraverso l'arricchimento di conoscenza di dominio, ma presentano problemi di elevati costi di addestramento e scarsa generalità

4. Motivazione della ricerca

Per evitare il fine-tuning ad alto costo mantenendo l'accuratezza e l'adattabilità del dominio dei grandi modelli nell'identificazione di rischi complessi, l'introduzione di fonti di conoscenza esterne e l'implementazione del potenziamento del recupero rappresentano un percorso di soluzione degno di esplorazione.

Contributi principali

Framework innovativo: Propone un framework innovativo di identificazione dei rischi potenziato dal recupero di casi simili (RDRAG), che integra innovativamente l'apprendimento dei prompt dei grandi modelli con meccanismi di recupero di istanze
Design plug-and-play: Costruisce un modulo di potenziamento del recupero plug-and-play, realizzando l'ottimizzazione senza addestramento dei grandi modelli attraverso strategie di fine-tuning dei prompt
Valutazione sistematica: Valuta sistematicamente le prestazioni di identificazione di diversi grandi modelli su dati reali di cantieri, chiarendo i vantaggi del potenziamento del recupero nel migliorare la capacità di generalizzazione e di interpretazione del modello
Miglioramento significativo delle prestazioni: L'accuratezza del modello GLM-4V aumenta da 14,51% a 50%, con un miglioramento di 35,49%

Spiegazione dettagliata del metodo

Definizione del compito

Dato un dataset di identificazione dei rischi multimodale $D = \{(I_1, C_1, L_1), (I_2, C_2, L_2), ..., (I_N, C_N, L_N)\}$ , dove:

$I_i$ : immagine di cantiere
$C_i$ : informazioni di testo descrittivo del rischio
$L_i$ : etichetta di categoria del rischio

L'obiettivo è generare attraverso un framework di generazione potenziato dal recupero la categoria di rischio accurata $\hat{L_i}$ e la descrizione $\hat{C_i}$ per l'immagine di input $I_i$ :

$\hat{L_i}, \hat{C_i} = f(I_i, \{C_j | j=1,...,K\})$

Architettura del modello

Il framework RDRAG contiene tre moduli principali:

1. Modulo della base di recupero

Costruisce un database strutturato di casi di rischi nei cantieri, memorizzando casi storici di rischi, con ogni voce contenente immagine, descrizione testuale e etichetta di categoria.

2. Modulo di recupero della similarità delle immagini

Implementa il calcolo della similarità cross-modale basato su CLIP:

Estrazione delle caratteristiche: $f(I_i) = \text{CLIP}(I_i), \quad f(I_j) = \text{CLIP}(I_j)$

Calcolo della similarità: $\text{Sim}(I_i, I_j) = \frac{f(I_i) \cdot f(I_j)}{||f(I_i)|| \cdot ||f(I_j)||}$

Recupero Top-K: $\{(I_j, C_j, L_j) | j \in \{1,2,...,K\}\} = \text{Top-K}(\text{Sim}(I_i, I_j))$

3. Modulo di potenziamento del recupero del grande modello

Combina i casi simili recuperati con l'immagine corrente in un prompt:

$\text{Prompt}_i = \text{Concat}(I_i, \{C_j | j \in \{1,2,...,K\}\})$

Genera risultati attraverso un grande modello linguistico multimodale: $\hat{L_i}, \hat{C_i} = \text{LM}(\text{Prompt}_i)$

Punti di innovazione tecnica

Ottimizzazione senza addestramento: Non richiede fine-tuning del grande modello, realizzando miglioramento delle prestazioni attraverso potenziamento del recupero
Integrazione dinamica della conoscenza: Recupera dinamicamente casi rilevanti in base all'immagine di input, fornendo informazioni di contesto
Recupero cross-modale: Utilizza il modello CLIP per il calcolo della similarità cross-modale immagine-testo
Ingegneria dei prompt: Progetta quattro diversi template di prompt, ottimizzando il formato di output e l'accuratezza del modello

Configurazione sperimentale

Dataset

Dataset Rwecd: Costruito su immagini reali di cantieri autostradali provinciali
Scala totale: 325 campioni di immagini di rischi
Numero di categorie: 15 diversi tipi di categorie di rischi
Divisione dei dati: 105 immagini per costruire la base di recupero, 220 immagini come set di test

Metriche di valutazione

Accuratezza di categoria: $\text{CategoryAccuracy} = \frac{1}{N}\sum_{i=1}^{N}\mathbb{I}(L_i = \hat{L_i})$
Similarità BERT: $\text{BERTSim}(C_i, \hat{C_i}) = \frac{f_{BERT}(C_i) \cdot f_{BERT}(\hat{C_i})}{||f_{BERT}(C_i)|| \cdot ||f_{BERT}(\hat{C_i})||}$
Similarità TF-IDF: $\text{TFIDFSim}(C_i, \hat{C_i}) = \frac{f_{TFIDF}(C_i) \cdot f_{TFIDF}(\hat{C_i})}{||f_{TFIDF}(C_i)|| \cdot ||f_{TFIDF}(\hat{C_i})||}$

Metodi di confronto

GLM-4V: Versione multimodale estesa della serie di modelli linguistici Zhipu ChatGLM
ChatGPT-4o: Grande modello linguistico multimodale lanciato da OpenAI
Deepseek-vl2: Grande modello linguistico multimodale sviluppato dal team DeepSeek

Dettagli di implementazione

Progetta quattro template di prompt:

Type1: Istruzione di base, senza aggiunta di informazioni supplementari
Type2: Guida per categoria, aggiunge informazioni sulle 15 categorie di rischi
Type3: Specifica di formato, aggiunge requisiti di formato di output
Type4: Potenziamento composito, aggiunge simultaneamente informazioni di categoria e formato

Risultati sperimentali

Risultati principali

Metodo	Modello	Acc	BERT	TF-IDF
Base	GLM-4V	14,51%	69,95	3,17
Base	ChatGPT-4O	53,54%	71,67	5,75
Base	Deepseek-vl2	14,91%	68,15	2,34
COT	GLM-4V	17,28%	70,09	3,68
COT	ChatGPT-4O	55,08%	71,30	4,64
COT	Deepseek-vl2	12,11%	66,87	2,33
RDRAG	GLM-4V	50,00%	77,51	11,83
RDRAG	ChatGPT-4O	59,09%	73,81	6,40
RDRAG	Deepseek-vl2	36,53%	72,25	6,86

Scoperte chiave:

L'accuratezza di GLM-4V aumenta da 14,51% a 50,00%, con un miglioramento di 35,49%
Tutti i modelli mostrano miglioramenti significativi nella similarità BERT e TF-IDF
Il metodo COT ha effetti limitati, mostrando persino effetti negativi in alcuni casi

Esperimenti di ablazione

Modello	Metodo	Acc	BERT	TF-IDF
GLM-4V	RDRAG	50,00%	77,51	11,83
GLM-4V	LPIPS	43,64%	77,11	9,63
GLM-4V	Base	37,73%	76,49	6,66

Analisi dei risultati:

La strategia di recupero basata su CLIP supera la strategia basata su LPIPS
Il meccanismo della base di recupero fornisce miglioramenti positivi per tutti i modelli
La capacità cross-modale di CLIP è più efficace nel comprendere la similarità del contenuto delle immagini

Analisi comparativa dei template di prompt

Il template Type4 (potenziamento composito) mostra le migliori prestazioni sia nella similarità semantica che nella corrispondenza di parole chiave, quindi è stato selezionato come schema di prompt finale.

Analisi a livello di categoria

Tra le 15 categorie di rischi, il metodo RDRAG mostra miglioramenti significativi nella maggior parte delle categorie, in particolare in:

Categorie con maggior numero di campioni (ad es. quadri di distribuzione non chiusi tempestivamente: 26%→60%)
Categorie con oggetti target simili (ad es. strutture antincendio correlate: 0%→50%)
Categorie di scene complesse (ad es. protezione della sicurezza delle apparecchiature: 12%→64,71%)

Lavori correlati

Metodi tradizionali di identificazione dei rischi

Ispezione manuale: Dipende dall'esperienza del personale di gestione della sicurezza, con problemi di omissioni e natura ripetitiva
Tecnologia IoT: Monitoraggio in tempo reale attraverso reti di sensori, ma con elevati costi e requisiti di apparecchiature
Visione artificiale: Basata su tecniche SIFT, HOG, CNN, ma con prestazioni limitate dalla qualità dell'immagine e dalla precisione dell'algoritmo

Metodi basati su grandi modelli linguistici

Allineamento multimodale: Miglioramento delle prestazioni attraverso apprendimento contrastivo e meccanismi di attenzione cross-modale
Apprendimento con pochi esempi: Utilizzo di meta-apprendimento, apprendimento dei prompt e apprendimento per trasferimento per ridurre la dipendenza dai dati annotati
Generazione potenziata dal recupero: Combinazione di basi di conoscenza esterne per migliorare le prestazioni del modello

Conclusioni e discussione

Conclusioni principali

Il framework RDRAG migliora significativamente l'accuratezza e la capacità di comprensione del contesto dei grandi modelli nell'identificazione dei rischi nei cantieri
Il metodo di potenziamento del recupero realizza miglioramenti significativi delle prestazioni senza necessità di addestramento
La strategia di recupero di immagini basata su CLIP supera i metodi tradizionali di similarità percettiva
Il metodo mostra buone prestazioni di generalizzazione in scenari di rischi multi-categoria

Limitazioni

Categorie con pochi campioni: L'effetto di ottimizzazione è instabile per categorie con numero estremamente ridotto di campioni
Percezione di piccoli obiettivi: L'identificazione precisa dei punti di rischio in sfondi complessi presenta ancora sfide
Qualità della base di recupero: Le prestazioni dipendono dalla qualità e dalla copertura della base di recupero
Overhead computazionale: Il recupero in tempo reale potrebbe introdurre un certo ritardo computazionale

Direzioni future

Adozione di tecniche di potenziamento dei prompt RAG più complesse
Miglioramento della capacità di percezione di piccoli obiettivi del modello
Ottimizzazione della strategia di recupero per gestire scene complesse
Estensione ad altri settori della sicurezza industriale

Valutazione approfondita

Punti di forza

Forte innovazione: Prima applicazione della generazione potenziata dal recupero all'identificazione dei rischi nei cantieri, con miglioramento significativo delle prestazioni senza necessità di fine-tuning
Elevato valore pratico: Risolve problemi di ingegneria reale con forti prospettive di applicazione
Esperimenti completi: Valutazione sistematica su più modelli, inclusi esperimenti di ablazione e analisi a livello di categoria
Metodo universale: Il design del framework ha universalità e può essere esteso ad altri settori di rilevamento della sicurezza

Insufficienze

Scala del dataset: Il dataset Rwecd è relativamente piccolo (325 immagini), il che potrebbe limitare l'universalità delle conclusioni
Squilibrio di categoria: Alcune categorie di rischi hanno troppi pochi campioni, influenzando la valutazione delle prestazioni di queste categorie
Efficienza computazionale: Manca un'analisi dettagliata dell'overhead computazionale e della tempestività del processo di recupero
Analisi degli errori: Manca un'analisi approfondita dei casi di fallimento

Impatto

Contributo accademico: Fornisce nuove prospettive per l'applicazione di grandi modelli multimodali in settori verticali
Valore ingegneristico: Fornisce una soluzione tecnica pratica per la gestione della sicurezza nei cantieri
Ispirazione metodologica: Il framework di potenziamento del recupero può ispirare ricerche correlate in altri settori

Scenari applicabili

Monitoraggio della sicurezza nei cantieri: Rilevamento dei rischi in tempo reale o periodico
Formazione sulla sicurezza: Utilizzo come strumento ausiliario per aiutare a identificare e imparare i tipi di rischi
Controllo della conformità: Assistenza al personale di gestione della sicurezza nell'esecuzione di controlli standardizzati
Altri scenari industriali: Estensione a settori ad alto rischio come miniere e industria chimica

Bibliografia

L'articolo cita numerosi lavori correlati, coprendo metodi tradizionali di visione artificiale, apprendimento multimodale, generazione potenziata dal recupero e altre direzioni di ricerca, fornendo una base teorica solida per la ricerca.

Valutazione complessiva: Questo è un articolo di ricerca di alta qualità di tipo applicativo. Il framework RDRAG proposto ha innovazione e praticità, il design sperimentale è ragionevole e i risultati sono convincenti. Sebbene ci sia ancora spazio per miglioramenti nella scala dei dati e in alcuni dettagli tecnici, fornisce un contributo prezioso all'applicazione di grandi modelli multimodali nel settore della sicurezza industriale.