2025-11-11T07:07:08.271446

Large model retrieval enhancement framework for construction site risk identification

Li, Yang, Zhang et al.

This study addresses construction site hazard identification by proposing a retrieval-augmented framework that enhances large language models (LLMs) without requiring fine-tuning. Current LLM-based approaches face limitations: image-text matching struggles with complex hazards, while instruction tuning lacks generalization and is resource-intensive. Our method dynamically integrates external knowledge and retrieved similar cases via prompt tuning, overcoming LLMs' limitations in domain knowledge and feature correlation. The framework comprises a case database, an image retrieval module, and an LLM-based reasoning module. Evaluated on real-site data, our approach boosted GLM-4V's accuracy to 50%, a 35.49% improvement over baselines, with consistent gains across hazard types. Ablation studies validated the effectiveness of our image retrieval strategy, showing the superiority of our LPIPS- and CLIP-based method. The proposed technique significantly improves identification accuracy and contextual understanding, demonstrating strong generalization and offering a practical path for intelligent safety risk detection in construction.

academic

Фреймворк поиска с увеличением больших моделей для идентификации рисков на строительной площадке

Основная информация

ID статьи: 2508.02073
Название: Large model retrieval enhancement framework for construction site risk identification (Фреймворк поиска с увеличением больших моделей для идентификации рисков на строительной площадке)
Авторы: Ли Цзявэй, Ян Чэнъе, Чжан Яочэнь, Сунь Вэйлинь, Мэн Лэй, Мэн Сянсюй
Классификация: cs.AI
Время публикации/конференция: Журнал изображений и графики (Journal of Image and Graphics)
Ссылка на статью: https://arxiv.org/abs/2508.02073

Аннотация

В данном исследовании предлагается фреймворк поиска с увеличением без необходимости тонкой настройки для повышения производительности больших языковых моделей при решении задачи идентификации рисков на строительной площадке. Существующие методы на основе LLM имеют ограничения: согласование изображения и текста недостаточно эффективно для сложной идентификации рисков, а инструкционная тонкая настройка не обладает способностью к обобщению и требует больших ресурсов. Предложенный метод динамически объединяет внешние базы знаний и контекст извлеченных примеров посредством техники тонкой настройки подсказок, преодолевая недостатки больших моделей в области знаний и связи признаков. Фреймворк включает базу данных примеров, модуль поиска изображений и модуль рассуждений на основе LLM. Оценка на реальных данных строительной площадки показывает, что метод повышает точность GLM-4V до 50%, что на 35,49% выше базовых методов, с последовательным улучшением производительности при идентификации всех типов рисков. Абляционные эксперименты подтверждают эффективность стратегии поиска изображений, демонстрируя превосходство метода на основе CLIP по сравнению с LPIPS.

Исследовательский контекст и мотивация

1. Решаемая проблема

Данное исследование решает проблему автоматизированной идентификации рисков и скрытых опасностей на строительной площадке. Традиционные методы ручного осмотра имеют ограничения: высокий уровень пропусков, монотонность работы, невозможность осуществления мониторинга в реальном времени, а существующие методы на основе компьютерного зрения все еще недостаточны в отношении способности к обобщению и точности идентификации.

2. Важность проблемы

Обеспечение безопасности: Несчастные случаи на строительной площадке происходят часто; точная идентификация рисков имеет важное значение для предотвращения аварий
Повышение эффективности: Автоматизированная идентификация может заменить традиционные ручные осмотры и повысить эффективность проверок
Контроль затрат: Снижение затрат на рабочую силу и экономических потерь от несчастных случаев на производстве

3. Ограничения существующих методов

Существующие методы на основе больших языковых моделей разделяются на две категории:

Методы согласования изображения и текста: Повышение согласования изображения и семантики посредством многомодального выравнивания, но с ограниченной способностью к пониманию сложных признаков рисков
Методы инструкционной тонкой настройки: Углубление анализа модели посредством расширения знаний предметной области, но с высокими затратами на обучение и низкой универсальностью

4. Исследовательская мотивация

Для избежания высокостоимостной тонкой настройки при одновременном повышении точности и адаптивности больших моделей к сложной идентификации рисков введение внешних источников знаний и реализация поиска с увеличением становится перспективным направлением исследования.

Основные вклады

Предложение инновационного фреймворка: Представлен фреймворк идентификации рисков на основе поиска похожих примеров (RDRAG), инновационно объединяющий обучение подсказок больших моделей с механизмом поиска примеров
Дизайн "plug-and-play": Построен модуль поиска с увеличением типа "plug-and-play", реализующий оптимизацию больших моделей без обучения посредством стратегии тонкой настройки подсказок
Систематическая оценка: Систематическая оценка производительности различных больших моделей на реальных данных строительной площадки, уточнение преимуществ поиска с увеличением в повышении способности к обобщению и объяснимости модели
Значительное улучшение производительности: Точность модели GLM-4V повышена с 14,51% до 50%, что составляет увеличение на 35,49%

Подробное описание метода

Определение задачи

Дан многомодальный набор данных идентификации рисков $D = \{(I_1, C_1, L_1), (I_2, C_2, L_2), ..., (I_N, C_N, L_N)\}$ , где:

$I_i$ : фотография строительной площадки
$C_i$ : текстовая информация описания риска
$L_i$ : метка категории риска

Цель состоит в генерации фреймворка с поиском и увеличением для создания точной категории риска $\hat{L_i}$ и описания $\hat{C_i}$ для входного изображения $I_i$ :

$\hat{L_i}, \hat{C_i} = f(I_i, \{C_j | j=1,...,K\})$

Архитектура модели

Фреймворк RDRAG включает три основных модуля:

1. Модуль хранилища поиска

Построение структурированной базы данных примеров рисков на строительной площадке, хранящей исторические примеры, каждая запись включает изображение, текстовое описание и метку категории.

2. Модуль поиска сходства изображений

Реализация расчета кроссмодального сходства на основе модели CLIP:

Извлечение признаков: $f(I_i) = \text{CLIP}(I_i), \quad f(I_j) = \text{CLIP}(I_j)$

Расчет сходства: $\text{Sim}(I_i, I_j) = \frac{f(I_i) \cdot f(I_j)}{||f(I_i)|| \cdot ||f(I_j)||}$

Поиск Top-K: $\{(I_j, C_j, L_j) | j \in \{1,2,...,K\}\} = \text{Top-K}(\text{Sim}(I_i, I_j))$

3. Модуль поиска с увеличением больших моделей

Объединение извлеченных похожих примеров с текущим изображением в подсказку:

$\text{Prompt}_i = \text{Concat}(I_i, \{C_j | j \in \{1,2,...,K\}\})$

Генерация результатов посредством многомодальной большой языковой модели: $\hat{L_i}, \hat{C_i} = \text{LM}(\text{Prompt}_i)$

Технические инновации

Оптимизация без обучения: Не требуется тонкая настройка больших моделей; повышение производительности достигается посредством поиска с увеличением
Динамическое объединение знаний: Динамический поиск соответствующих примеров на основе входного изображения для предоставления контекстной информации
Кроссмодальный поиск: Использование модели CLIP для расчета кроссмодального сходства изображение-текст
Инженерия подсказок: Разработка четырех различных шаблонов подсказок для оптимизации формата и точности выходных данных модели

Экспериментальная установка

Набор данных

Набор данных Rwecd: Построен на основе реальных фотографий строительства скоростной дороги провинции
Общий размер: 325 образцов фотографий рисков
Количество категорий: 15 различных типов рисков
Разделение данных: 105 фотографий для построения хранилища поиска, 220 фотографий для набора тестирования

Метрики оценки

Точность категории: $\text{CategoryAccuracy} = \frac{1}{N}\sum_{i=1}^{N}\mathbb{I}(L_i = \hat{L_i})$
Сходство BERT: $\text{BERTSim}(C_i, \hat{C_i}) = \frac{f_{BERT}(C_i) \cdot f_{BERT}(\hat{C_i})}{||f_{BERT}(C_i)|| \cdot ||f_{BERT}(\hat{C_i})||}$
Сходство TF-IDF: $\text{TFIDFSim}(C_i, \hat{C_i}) = \frac{f_{TFIDF}(C_i) \cdot f_{TFIDF}(\hat{C_i})}{||f_{TFIDF}(C_i)|| \cdot ||f_{TFIDF}(\hat{C_i})||}$

Методы сравнения

GLM-4V: Многомодальное расширение серии многомодальных больших языковых моделей Zhipu ChatGLM
ChatGPT-4o: Многомодальная большая языковая модель, выпущенная OpenAI
Deepseek-vl2: Многомодальная большая языковая модель, разработанная командой DeepSeek

Детали реализации

Разработаны четыре шаблона подсказок:

Type1: Базовая инструкция без дополнительной информации
Type2: Руководство по категориям с добавлением информации о 15 типах рисков
Type3: Нормализация формата с добавлением требований к формату выходных данных
Type4: Комплексное увеличение с одновременным добавлением информации о категориях и требований к формату

Результаты экспериментов

Основные результаты

Метод	Модель	Точность	BERT	TF-IDF
Base	GLM-4V	14,51%	69,95	3,17
Base	ChatGPT-4O	53,54%	71,67	5,75
Base	Deepseek-vl2	14,91%	68,15	2,34
COT	GLM-4V	17,28%	70,09	3,68
COT	ChatGPT-4O	55,08%	71,30	4,64
COT	Deepseek-vl2	12,11%	66,87	2,33
RDRAG	GLM-4V	50,00%	77,51	11,83
RDRAG	ChatGPT-4O	59,09%	73,81	6,40
RDRAG	Deepseek-vl2	36,53%	72,25	6,86

Ключевые выводы:

Точность GLM-4V повышена с 14,51% до 50,00%, увеличение составляет 35,49%
Все модели показывают значительное улучшение в сходстве BERT и TF-IDF
Метод COT имеет ограниченный эффект, в некоторых случаях даже отрицательное влияние

Абляционные эксперименты

Модель	Метод	Точность	BERT	TF-IDF
GLM-4V	RDRAG	50,00%	77,51	11,83
GLM-4V	LPIPS	43,64%	77,11	9,63
GLM-4V	Base	37,73%	76,49	6,66

Анализ результатов:

Стратегия поиска на основе CLIP превосходит стратегию на основе LPIPS
Механизм хранилища поиска оказывает положительное влияние на все модели
Кроссмодальная способность CLIP более эффективна в понимании сходства содержания изображений

Анализ сравнения шаблонов подсказок

Шаблон Type4 (комплексное увеличение) показывает лучшие результаты как в семантическом сходстве, так и в соответствии ключевых слов, поэтому был выбран в качестве окончательной схемы подсказок.

Анализ на уровне категорий

Метод RDRAG показывает значительное улучшение в большинстве из 15 категорий рисков, особенно в:

Категориях с большим количеством образцов (например, распределительный щит не закрыт вовремя: 26%→60%)
Категориях с похожими целевыми объектами (например, противопожарные сооружения: 0%→50%)
Категориях сложных сцен (например, защита оборудования: 12%→64,71%)

Связанные работы

Традиционные методы идентификации рисков

Ручной осмотр: Зависит от опыта специалистов по безопасности, подвержен пропускам, монотонен
Технология Интернета вещей: Мониторинг в реальном времени через сетевые датчики, но с высокой стоимостью и большими требованиями к оборудованию
Компьютерное зрение: На основе методов SIFT, HOG, CNN и т.д., но производительность ограничена качеством изображения и точностью алгоритма

Методы на основе больших языковых моделей

Многомодальное выравнивание: Повышение производительности посредством контрастного обучения и механизмов кроссмодального внимания
Обучение с малым количеством примеров: Использование метаобучения, обучения подсказкам и трансферного обучения для снижения зависимости от аннотированных данных
Поиск с увеличением генерации: Объединение внешних баз знаний для повышения производительности модели

Заключение и обсуждение

Основные выводы

Фреймворк RDRAG значительно повышает точность и способность контекстного понимания больших моделей при идентификации рисков на строительной площадке
Метод поиска с увеличением достигает значительного улучшения производительности без необходимости обучения
Стратегия поиска изображений на основе CLIP превосходит традиционные методы перцептивного сходства
Метод демонстрирует хорошую способность к обобщению в многокатегорийных сценариях идентификации рисков

Ограничения

Категории с малым количеством примеров: Нестабильные результаты оптимизации для категорий с очень малым количеством образцов
Восприятие малых объектов: Остаются вызовы в точной идентификации точек риска в сложном фоне
Качество хранилища поиска: Производительность зависит от качества и полноты хранилища поиска
Вычислительные затраты: Поиск в реальном времени может привести к определенной вычислительной задержке

Будущие направления

Применение более сложных техник увеличения подсказок RAG
Повышение способности модели к восприятию малых объектов
Оптимизация стратегии поиска для обработки сложных сцен
Расширение на другие области промышленной безопасности

Глубокая оценка

Преимущества

Высокая инновационность: Первое применение поиска с увеличением генерации к идентификации рисков на строительной площадке, значительное улучшение производительности без необходимости тонкой настройки
Высокая практическая ценность: Решение реальной инженерной проблемы с сильными перспективами применения
Полные эксперименты: Систематическая оценка на нескольких моделях, включая абляционные эксперименты и анализ на уровне категорий
Универсальность метода: Дизайн фреймворка универсален и может быть расширен на другие области обнаружения безопасности

Недостатки

Размер набора данных: Набор данных Rwecd относительно небольшой (325 фотографий), что может ограничить универсальность выводов
Дисбаланс категорий: Некоторые категории рисков имеют слишком мало образцов, влияя на оценку производительности этих категорий
Вычислительная эффективность: Отсутствует подробный анализ вычислительных затрат процесса поиска и производительности в реальном времени
Анализ ошибок: Недостаточно глубокого анализа неудачных примеров

Влияние

Академический вклад: Предоставление новых идей для применения многомодальных больших моделей в вертикальных областях
Инженерная ценность: Предоставление практического технического решения для управления безопасностью на строительной площадке
Методологическое вдохновение: Фреймворк поиска с увеличением может вдохновить соответствующие исследования в других областях

Применимые сценарии

Мониторинг безопасности на строительной площадке: Обнаружение рисков в реальном времени или периодическое обнаружение
Обучение безопасности: Использование в качестве вспомогательного инструмента для помощи в идентификации и изучении типов рисков
Проверка соответствия: Помощь специалистам по безопасности в проведении стандартизированных проверок
Другие промышленные сценарии: Может быть расширено на другие высокорисковые отрасли, такие как горнодобывающая промышленность и химическое производство

Библиография

Статья ссылается на большое количество связанных работ, охватывающих традиционные методы компьютерного зрения, многомодальное обучение, поиск с увеличением генерации и другие направления исследований, обеспечивая прочную теоретическую основу для исследования.

Общая оценка: Это высококачественная прикладная исследовательская работа. Предложенный фреймворк RDRAG обладает инновационностью и практичностью, экспериментальный дизайн обоснован, результаты убедительны. Хотя существует место для улучшения в масштабе данных и некоторых технических деталях, работа предоставляет ценный вклад в применение многомодальных больших моделей в области промышленной безопасности.