2025-11-11T07:07:08.271446

Large model retrieval enhancement framework for construction site risk identification

Li, Yang, Zhang et al.
This study addresses construction site hazard identification by proposing a retrieval-augmented framework that enhances large language models (LLMs) without requiring fine-tuning. Current LLM-based approaches face limitations: image-text matching struggles with complex hazards, while instruction tuning lacks generalization and is resource-intensive. Our method dynamically integrates external knowledge and retrieved similar cases via prompt tuning, overcoming LLMs' limitations in domain knowledge and feature correlation. The framework comprises a case database, an image retrieval module, and an LLM-based reasoning module. Evaluated on real-site data, our approach boosted GLM-4V's accuracy to 50%, a 35.49% improvement over baselines, with consistent gains across hazard types. Ablation studies validated the effectiveness of our image retrieval strategy, showing the superiority of our LPIPS- and CLIP-based method. The proposed technique significantly improves identification accuracy and contextual understanding, demonstrating strong generalization and offering a practical path for intelligent safety risk detection in construction.
academic

Großmodell-Abruf-Verbesserungsrahmen zur Identifizierung von Baustellenrisiken

Grundinformationen

  • Paper-ID: 2508.02073
  • Titel: Large model retrieval enhancement framework for construction site risk identification (Großmodell-Abruf-Verbesserungsrahmen zur Identifizierung von Baustellenrisiken)
  • Autoren: Li Jiawei, Yang Chengye, Zhang Yaochen, Sun Weilin, Meng Lei, Meng Xiangxu
  • Klassifizierung: cs.AI
  • Veröffentlichungszeit/Konferenz: Journal of Image and Graphics (中国图象图形学报)
  • Paper-Link: https://arxiv.org/abs/2508.02073

Zusammenfassung

Diese Forschung schlägt einen Abruf-Verbesserungsrahmen ohne Feinabstimmung vor, um die Leistung großer Sprachmodelle bei der Identifizierung von Baustellenrisiken zu verbessern. Aktuelle LLM-basierte Methoden haben Einschränkungen: Bild-Text-Matching zeigt unzureichende Fähigkeiten bei der Erkennung komplexer Risiken, während Anweisungs-Feinabstimmung mangelnde Generalisierungsfähigkeit und hohe Ressourcenverbrauch aufweist. Diese Methode überwindet die Unzulänglichkeiten großer Modelle bei Domänenwissen und Merkmalszuordnung durch dynamische Fusion externer Wissensdatenbanken und Abruf-Fallkontexte mittels Prompt-Feinabstimmungstechniken. Der Rahmen umfasst eine Falldatenbank, ein Bildabruf-Modul und ein LLM-basiertes Inferenzmodul. Die Evaluierung auf echten Baustellendaten zeigt, dass diese Methode die Genauigkeit von GLM-4V auf 50% erhöht, was einer Verbesserung von 35,49% gegenüber der Baseline-Methode entspricht, mit konsistenten Leistungsverbesserungen bei allen Arten von Risikoidentifizierungen. Ablationsstudien validieren die Effektivität der Bildabruf-Strategie und demonstrieren die Überlegenheit der CLIP-basierten Methode gegenüber LPIPS.

Forschungshintergrund und Motivation

1. Zu lösende Probleme

Diese Forschung befasst sich mit der automatisierten Identifizierung von Baustellenrisiken. Traditionelle manuelle Inspektionen weisen hohe Übersehungsquoten, repetitive Natur und fehlende Echtzeitüberwachung auf, während bestehende computergestützte Sichtverfahren noch Mängel in Generalisierungsfähigkeit und Erkennungsgenauigkeit aufweisen.

2. Bedeutung des Problems

  • Sicherheitsgarantie: Baustellenunfälle treten häufig auf; genaue Risikoidentifizierung ist von großer Bedeutung für Unfallprävention
  • Effizienzsteigerung: Automatisierte Identifizierung kann traditionelle manuelle Inspektionen ersetzen und die Inspektionseffizienz verbessern
  • Kostenkontrolle: Reduzierung von Personalaufwand und wirtschaftlichen Verlusten durch Sicherheitsunfälle

3. Einschränkungen bestehender Methoden

Bestehende Methoden basierend auf großen Sprachmodellen fallen hauptsächlich in zwei Kategorien:

  • Bild-Text-Matching-Methoden: Verbesserung der Bild- und semantischen Übereinstimmung durch multimodale Ausrichtung, aber begrenzte Erfassung komplexer Risikomerkmale
  • Anweisungs-Feinabstimmungs-Methoden: Verbesserung der Modellanalysentiefe durch Domänenwissen, aber mit Problemen hoher Trainingskosten und schlechter Allgemeingültigkeit

4. Forschungsmotivation

Um hohe Feinabstimmungskosten zu vermeiden und gleichzeitig die Genauigkeit und Domänenanpassung großer Modelle bei der Erkennung komplexer Risiken zu verbessern, wird die Einführung externer Wissensquellen und die Implementierung von Abruf-Verbesserung zu einem vielversprechenden Lösungsweg.

Kernbeiträge

  1. Innovativer Rahmen: Vorschlag eines ähnlichkeitsfall-abruf-verstärkten Risikoidentifizierungsrahmens (RDRAG), der innovativ Prompt-Learning großer Modelle mit Instanz-Abruf-Mechanismen verbindet
  2. Plug-and-Play-Design: Aufbau eines Plug-and-Play-Abruf-Verbesserungsmoduls, das große Modelle durch Prompt-Feinabstimmungsstrategien ohne Training optimiert
  3. Systematische Evaluierung: Systematische Evaluierung der Erkennungsleistung verschiedener großer Modelle auf echten Baustellendaten, Klärung der Vorteile von Abruf-Verbesserung bei der Verbesserung von Generalisierungsfähigkeit und Erklärbarkeit
  4. Signifikante Leistungsverbesserung: Genauigkeit des GLM-4V-Modells von 14,51% auf 50% erhöht, mit einer Verbesserung von 35,49%

Methodische Details

Aufgabendefinition

Gegeben ein multimodales Risikoidentifizierungsdatensatz D={(I1,C1,L1),(I2,C2,L2),...,(IN,CN,LN)}D = \{(I_1, C_1, L_1), (I_2, C_2, L_2), ..., (I_N, C_N, L_N)\}, wobei:

  • IiI_i: Baustellenkonstruktionsbilder
  • CiC_i: Textinformationen zur Risikobeschreibung
  • LiL_i: Risikokategorie-Labels

Das Ziel besteht darin, durch einen Abruf-Verbesserungs-Generierungsrahmen genaue Risikokategorien Li^\hat{L_i} und Beschreibungen Ci^\hat{C_i} für das Eingabebild IiI_i zu generieren:

Li^,Ci^=f(Ii,{Cjj=1,...,K})\hat{L_i}, \hat{C_i} = f(I_i, \{C_j | j=1,...,K\})

Modellarchitektur

Der RDRAG-Rahmen besteht aus drei Kernmodulen:

1. Abruf-Datenbank-Modul

Aufbau einer strukturierten Risikofall-Datenbank, die historische Baustellenrisikofälle speichert, wobei jeder Eintrag Bilder, Textbeschreibungen und Kategorie-Labels enthält.

2. Bildähnlichkeits-Abruf-Modul

Realisierung der Cross-Modal-Ähnlichkeitsberechnung basierend auf dem CLIP-Modell:

Merkmalextraktion: f(Ii)=CLIP(Ii),f(Ij)=CLIP(Ij)f(I_i) = \text{CLIP}(I_i), \quad f(I_j) = \text{CLIP}(I_j)

Ähnlichkeitsberechnung: Sim(Ii,Ij)=f(Ii)f(Ij)f(Ii)f(Ij)\text{Sim}(I_i, I_j) = \frac{f(I_i) \cdot f(I_j)}{||f(I_i)|| \cdot ||f(I_j)||}

Top-K-Abruf: {(Ij,Cj,Lj)j{1,2,...,K}}=Top-K(Sim(Ii,Ij))\{(I_j, C_j, L_j) | j \in \{1,2,...,K\}\} = \text{Top-K}(\text{Sim}(I_i, I_j))

3. Großmodell-Abruf-Verbesserungs-Modul

Kombination der abgerufenen ähnlichen Fälle mit dem aktuellen Bild in einen Prompt:

Prompti=Concat(Ii,{Cjj{1,2,...,K}})\text{Prompt}_i = \text{Concat}(I_i, \{C_j | j \in \{1,2,...,K\}\})

Generierung von Ergebnissen durch multimodales großes Sprachmodell: Li^,Ci^=LM(Prompti)\hat{L_i}, \hat{C_i} = \text{LM}(\text{Prompt}_i)

Technische Innovationspunkte

  1. Trainingsfreie Optimierung: Keine Feinabstimmung großer Modelle erforderlich; Leistungsverbesserung durch Abruf-Verbesserung
  2. Dynamische Wissensfusion: Dynamischer Abruf relevanter Fälle basierend auf Eingabebildern zur Bereitstellung von Kontextinformationen
  3. Cross-Modal-Abruf: Verwendung des CLIP-Modells zur Berechnung der Bild-Text-Cross-Modal-Ähnlichkeit
  4. Prompt-Engineering: Entwurf von vier verschiedenen Prompt-Vorlagen zur Optimierung von Modellausgabeformat und Genauigkeit

Experimentelle Einrichtung

Datensatz

  • Rwecd-Datensatz: Basierend auf echten Bildern von Hochgeschwindigkeitsstraßenbau konstruiert
  • Gesamtumfang: 325 Risikobildmuster
  • Anzahl der Kategorien: 15 verschiedene Risikokategorien
  • Datenaufteilung: 105 Bilder zur Konstruktion der Abruf-Datenbank, 220 Bilder als Testset

Bewertungsmetriken

  1. Kategoriegenauigkeit: CategoryAccuracy=1Ni=1NI(Li=Li^)\text{CategoryAccuracy} = \frac{1}{N}\sum_{i=1}^{N}\mathbb{I}(L_i = \hat{L_i})
  2. BERT-Ähnlichkeit: BERTSim(Ci,Ci^)=fBERT(Ci)fBERT(Ci^)fBERT(Ci)fBERT(Ci^)\text{BERTSim}(C_i, \hat{C_i}) = \frac{f_{BERT}(C_i) \cdot f_{BERT}(\hat{C_i})}{||f_{BERT}(C_i)|| \cdot ||f_{BERT}(\hat{C_i})||}
  3. TF-IDF-Ähnlichkeit: TFIDFSim(Ci,Ci^)=fTFIDF(Ci)fTFIDF(Ci^)fTFIDF(Ci)fTFIDF(Ci^)\text{TFIDFSim}(C_i, \hat{C_i}) = \frac{f_{TFIDF}(C_i) \cdot f_{TFIDF}(\hat{C_i})}{||f_{TFIDF}(C_i)|| \cdot ||f_{TFIDF}(\hat{C_i})||}

Vergleichsmethoden

  • GLM-4V: Multimodale Erweiterung der Zhipu ChatGLM-Serie von universellen Sprachmodellen
  • ChatGPT-4o: Von OpenAI eingeführtes multimodales großes Sprachmodell
  • Deepseek-vl2: Von DeepSeek-Team entwickeltes multimodales großes Sprachmodell

Implementierungsdetails

Entwurf von vier Prompt-Vorlagen:

  • Type1: Grundlegende Anweisung ohne zusätzliche Informationen
  • Type2: Kategorieleitung mit Hinzufügung von 15 Risikokategorieinformationen
  • Type3: Formatspezifikation mit Ausgabeformatanforderungen
  • Type4: Zusammengesetzte Verbesserung mit gleichzeitiger Hinzufügung von Kategorie- und Formatinformationen

Experimentelle Ergebnisse

Hauptergebnisse

MethodeModellAccBERTTF-IDF
BaseGLM-4V14,51%69,953,17
BaseChatGPT-4O53,54%71,675,75
BaseDeepseek-vl214,91%68,152,34
COTGLM-4V17,28%70,093,68
COTChatGPT-4O55,08%71,304,64
COTDeepseek-vl212,11%66,872,33
RDRAGGLM-4V50,00%77,5111,83
RDRAGChatGPT-4O59,09%73,816,40
RDRAGDeepseek-vl236,53%72,256,86

Schlüsselfunde:

  • GLM-4V-Genauigkeit von 14,51% auf 50,00% erhöht, Verbesserung von 35,49%
  • Alle Modelle zeigen signifikante Verbesserungen in BERT-Ähnlichkeit und TF-IDF-Ähnlichkeit
  • COT-Methode zeigt begrenzte Effektivität, zeigt sogar in einigen Fällen negative Auswirkungen

Ablationsstudien

ModellMethodeAccBERTTF-IDF
GLM-4VRDRAG50,00%77,5111,83
GLM-4VLPIPS43,64%77,119,63
GLM-4VBase37,73%76,496,66

Ergebnisanalyse:

  • CLIP-basierte Abruf-Strategie überlegen gegenüber LPIPS-basierter Strategie
  • Abruf-Datenbank-Mechanismus zeigt positive Verbesserungen für alle Modelle
  • Cross-Modal-Fähigkeit von CLIP ist effektiver beim Verständnis von Bildinhaltähnlichkeit

Vergleichsanalyse von Prompt-Vorlagen

Type4 (zusammengesetzte Verbesserung)-Vorlage zeigt beste Leistung sowohl in semantischer Ähnlichkeit als auch in Schlüsselwort-Übereinstimmungsgrad, daher als endgültige Prompt-Lösung ausgewählt.

Kategorieebenen-Analyse

Bei 15 Risikokategorien zeigt die RDRAG-Methode signifikante Verbesserungen in den meisten Kategorien, besonders bei:

  • Kategorien mit größerer Stichprobenzahl (z.B. Verteilerkasten nicht rechtzeitig verriegelt: 26%→60%)
  • Kategorien mit ähnlichen Schlüsselobjekten (z.B. Brandschutzeinrichtungen: 0%→50%)
  • Komplexe Szenariokategorien (z.B. Gerätesicherheitsschutz: 12%→64,71%)

Verwandte Arbeiten

Traditionelle Risikoidentifizierungsmethoden

  • Manuelle Inspektionen: Abhängig von Erfahrung von Sicherheitspersonal, mit Problemen wie Übersehen und hoher Repetitivität
  • IoT-Technologie: Echtzeitüberwachung durch Sensornetzwerke, aber mit hohen Kosten und großem Gerätebedarf
  • Computersehen: Basierend auf SIFT-, HOG-, CNN-Techniken, aber Leistung begrenzt durch Bildqualität und Algorithmusgenauigkeit

Großmodell-basierte Methoden

  • Multimodale Ausrichtung: Leistungsverbesserung durch kontrastives Lernen und Cross-Modal-Aufmerksamkeitsmechanismen
  • Few-Shot-Lernen: Reduzierung der Abhängigkeit von annotierten Daten durch Meta-Learning, Prompt-Learning und Transfer-Learning
  • Abruf-verstärkte Generierung: Leistungsverbesserung durch Kombination mit externen Wissensdatenbanken

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Der RDRAG-Rahmen verbessert signifikant die Genauigkeit und Kontextverständnisfähigkeit großer Modelle bei der Baustellenrisikoidentifizierung
  2. Die Abruf-Verbesserungsmethode erreicht signifikante Leistungsverbesserungen ohne Training
  3. Die CLIP-basierte Bildabruf-Strategie ist überlegen gegenüber traditionellen Wahrnehmungsähnlichkeitsmethoden
  4. Die Methode zeigt gute Generalisierungsleistung in Multi-Kategorie-Risikoszenarien

Einschränkungen

  1. Kategorien mit wenigen Stichproben: Instabile Optimierungsergebnisse für Kategorien mit extrem wenigen Stichproben
  2. Wahrnehmung kleiner Ziele: Präzise Risikoidentifizierung in komplexem Hintergrund bleibt eine Herausforderung
  3. Qualität der Abruf-Datenbank: Leistung hängt von Qualität und Abdeckung der Abruf-Datenbank ab
  4. Rechenlast: Echtzeit-Abruf kann gewisse Rechenverzögerung verursachen

Zukünftige Richtungen

  1. Anwendung komplexerer RAG-Prompt-Verbesserungstechniken
  2. Verbesserung der Modellwahrnehmungsfähigkeit für kleine Ziele
  3. Optimierung von Abruf-Strategien zur Behandlung komplexer Szenarien
  4. Erweiterung auf weitere Industriesicherheitsbereiche

Tiefenbewertung

Stärken

  1. Hohe Innovativität: Erste Anwendung von Abruf-verstärkter Generierung auf Baustellenrisikoidentifizierung, signifikante Leistungsverbesserung ohne Feinabstimmung
  2. Hoher praktischer Wert: Lösung praktischer Ingenieurprobleme mit starken Anwendungsaussichten
  3. Umfassende Experimente: Systematische Evaluierung über mehrere Modelle hinweg, einschließlich Ablationsstudien und Kategorieebenen-Analyse
  4. Allgemeine Methode: Rahmen-Design mit Allgemeingültigkeit, erweiterbar auf andere Sicherheitserkennungsbereiche

Mängel

  1. Datensatzgröße: Rwecd-Datensatz ist relativ klein (325 Bilder), kann die Allgemeingültigkeit von Schlussfolgerungen einschränken
  2. Kategorieunausgeglichenheit: Einige Risikokategorien haben zu wenige Stichproben, beeinflussen die Leistungsbewertung dieser Kategorien
  3. Recheneffizienz: Rechenlast und Echtzeitfähigkeit des Abruf-Prozesses nicht detailliert analysiert
  4. Fehleranalyse: Mangel an tiefgehender Analyse fehlgeschlagener Fälle

Einfluss

  1. Akademischer Beitrag: Bietet neue Perspektiven für die Anwendung multimoder großer Modelle in vertikalen Bereichen
  2. Ingenieurwert: Bietet praktische technische Lösungen für Baustellensicherheitsverwaltung
  3. Methodische Inspiration: Abruf-Verbesserungsrahmen kann verwandte Forschung in anderen Bereichen inspirieren

Anwendungsszenarien

  1. Baustellensicherheitsüberwachung: Echtzeit- oder regelmäßige Risikoerkennung
  2. Sicherheitsschulung: Als Hilfsmittel zur Unterstützung der Erkennung und des Lernens von Risikotypen
  3. Compliance-Überprüfung: Unterstützung von Sicherheitspersonal bei standardisierter Überprüfung
  4. Andere Industrieszenarien: Erweiterbar auf Bergbau, Chemie und andere Hochrisikobranchen

Literaturverzeichnis

Das Papier zitiert umfangreiche verwandte Arbeiten, die traditionelle Computersehen-Methoden, multimodales Lernen, Abruf-verstärkte Generierung und andere Forschungsrichtungen abdecken und eine solide theoretische Grundlage für die Forschung bieten.


Gesamtbewertung: Dies ist ein hochqualitatives anwendungsorientiertes Forschungspapier. Der vorgeschlagene RDRAG-Rahmen ist innovativ und praktisch, das Experimentdesign ist vernünftig und die Ergebnisse überzeugend. Obwohl es noch Verbesserungspotenzial in Datensatzgröße und einigen technischen Details gibt, leistet es einen wertvollen Beitrag zur Anwendung multimoder großer Modelle im Bereich der Industriesicherheit.