2025-11-11T07:07:08.271446

Large model retrieval enhancement framework for construction site risk identification

Li, Yang, Zhang et al.
This study addresses construction site hazard identification by proposing a retrieval-augmented framework that enhances large language models (LLMs) without requiring fine-tuning. Current LLM-based approaches face limitations: image-text matching struggles with complex hazards, while instruction tuning lacks generalization and is resource-intensive. Our method dynamically integrates external knowledge and retrieved similar cases via prompt tuning, overcoming LLMs' limitations in domain knowledge and feature correlation. The framework comprises a case database, an image retrieval module, and an LLM-based reasoning module. Evaluated on real-site data, our approach boosted GLM-4V's accuracy to 50%, a 35.49% improvement over baselines, with consistent gains across hazard types. Ablation studies validated the effectiveness of our image retrieval strategy, showing the superiority of our LPIPS- and CLIP-based method. The proposed technique significantly improves identification accuracy and contextual understanding, demonstrating strong generalization and offering a practical path for intelligent safety risk detection in construction.
academic

Фреймворк поиска с увеличением больших моделей для идентификации рисков на строительной площадке

Основная информация

  • ID статьи: 2508.02073
  • Название: Large model retrieval enhancement framework for construction site risk identification (Фреймворк поиска с увеличением больших моделей для идентификации рисков на строительной площадке)
  • Авторы: Ли Цзявэй, Ян Чэнъе, Чжан Яочэнь, Сунь Вэйлинь, Мэн Лэй, Мэн Сянсюй
  • Классификация: cs.AI
  • Время публикации/конференция: Журнал изображений и графики (Journal of Image and Graphics)
  • Ссылка на статью: https://arxiv.org/abs/2508.02073

Аннотация

В данном исследовании предлагается фреймворк поиска с увеличением без необходимости тонкой настройки для повышения производительности больших языковых моделей при решении задачи идентификации рисков на строительной площадке. Существующие методы на основе LLM имеют ограничения: согласование изображения и текста недостаточно эффективно для сложной идентификации рисков, а инструкционная тонкая настройка не обладает способностью к обобщению и требует больших ресурсов. Предложенный метод динамически объединяет внешние базы знаний и контекст извлеченных примеров посредством техники тонкой настройки подсказок, преодолевая недостатки больших моделей в области знаний и связи признаков. Фреймворк включает базу данных примеров, модуль поиска изображений и модуль рассуждений на основе LLM. Оценка на реальных данных строительной площадки показывает, что метод повышает точность GLM-4V до 50%, что на 35,49% выше базовых методов, с последовательным улучшением производительности при идентификации всех типов рисков. Абляционные эксперименты подтверждают эффективность стратегии поиска изображений, демонстрируя превосходство метода на основе CLIP по сравнению с LPIPS.

Исследовательский контекст и мотивация

1. Решаемая проблема

Данное исследование решает проблему автоматизированной идентификации рисков и скрытых опасностей на строительной площадке. Традиционные методы ручного осмотра имеют ограничения: высокий уровень пропусков, монотонность работы, невозможность осуществления мониторинга в реальном времени, а существующие методы на основе компьютерного зрения все еще недостаточны в отношении способности к обобщению и точности идентификации.

2. Важность проблемы

  • Обеспечение безопасности: Несчастные случаи на строительной площадке происходят часто; точная идентификация рисков имеет важное значение для предотвращения аварий
  • Повышение эффективности: Автоматизированная идентификация может заменить традиционные ручные осмотры и повысить эффективность проверок
  • Контроль затрат: Снижение затрат на рабочую силу и экономических потерь от несчастных случаев на производстве

3. Ограничения существующих методов

Существующие методы на основе больших языковых моделей разделяются на две категории:

  • Методы согласования изображения и текста: Повышение согласования изображения и семантики посредством многомодального выравнивания, но с ограниченной способностью к пониманию сложных признаков рисков
  • Методы инструкционной тонкой настройки: Углубление анализа модели посредством расширения знаний предметной области, но с высокими затратами на обучение и низкой универсальностью

4. Исследовательская мотивация

Для избежания высокостоимостной тонкой настройки при одновременном повышении точности и адаптивности больших моделей к сложной идентификации рисков введение внешних источников знаний и реализация поиска с увеличением становится перспективным направлением исследования.

Основные вклады

  1. Предложение инновационного фреймворка: Представлен фреймворк идентификации рисков на основе поиска похожих примеров (RDRAG), инновационно объединяющий обучение подсказок больших моделей с механизмом поиска примеров
  2. Дизайн "plug-and-play": Построен модуль поиска с увеличением типа "plug-and-play", реализующий оптимизацию больших моделей без обучения посредством стратегии тонкой настройки подсказок
  3. Систематическая оценка: Систематическая оценка производительности различных больших моделей на реальных данных строительной площадки, уточнение преимуществ поиска с увеличением в повышении способности к обобщению и объяснимости модели
  4. Значительное улучшение производительности: Точность модели GLM-4V повышена с 14,51% до 50%, что составляет увеличение на 35,49%

Подробное описание метода

Определение задачи

Дан многомодальный набор данных идентификации рисков D={(I1,C1,L1),(I2,C2,L2),...,(IN,CN,LN)}D = \{(I_1, C_1, L_1), (I_2, C_2, L_2), ..., (I_N, C_N, L_N)\}, где:

  • IiI_i: фотография строительной площадки
  • CiC_i: текстовая информация описания риска
  • LiL_i: метка категории риска

Цель состоит в генерации фреймворка с поиском и увеличением для создания точной категории риска Li^\hat{L_i} и описания Ci^\hat{C_i} для входного изображения IiI_i:

Li^,Ci^=f(Ii,{Cjj=1,...,K})\hat{L_i}, \hat{C_i} = f(I_i, \{C_j | j=1,...,K\})

Архитектура модели

Фреймворк RDRAG включает три основных модуля:

1. Модуль хранилища поиска

Построение структурированной базы данных примеров рисков на строительной площадке, хранящей исторические примеры, каждая запись включает изображение, текстовое описание и метку категории.

2. Модуль поиска сходства изображений

Реализация расчета кроссмодального сходства на основе модели CLIP:

Извлечение признаков: f(Ii)=CLIP(Ii),f(Ij)=CLIP(Ij)f(I_i) = \text{CLIP}(I_i), \quad f(I_j) = \text{CLIP}(I_j)

Расчет сходства: Sim(Ii,Ij)=f(Ii)f(Ij)f(Ii)f(Ij)\text{Sim}(I_i, I_j) = \frac{f(I_i) \cdot f(I_j)}{||f(I_i)|| \cdot ||f(I_j)||}

Поиск Top-K: {(Ij,Cj,Lj)j{1,2,...,K}}=Top-K(Sim(Ii,Ij))\{(I_j, C_j, L_j) | j \in \{1,2,...,K\}\} = \text{Top-K}(\text{Sim}(I_i, I_j))

3. Модуль поиска с увеличением больших моделей

Объединение извлеченных похожих примеров с текущим изображением в подсказку:

Prompti=Concat(Ii,{Cjj{1,2,...,K}})\text{Prompt}_i = \text{Concat}(I_i, \{C_j | j \in \{1,2,...,K\}\})

Генерация результатов посредством многомодальной большой языковой модели: Li^,Ci^=LM(Prompti)\hat{L_i}, \hat{C_i} = \text{LM}(\text{Prompt}_i)

Технические инновации

  1. Оптимизация без обучения: Не требуется тонкая настройка больших моделей; повышение производительности достигается посредством поиска с увеличением
  2. Динамическое объединение знаний: Динамический поиск соответствующих примеров на основе входного изображения для предоставления контекстной информации
  3. Кроссмодальный поиск: Использование модели CLIP для расчета кроссмодального сходства изображение-текст
  4. Инженерия подсказок: Разработка четырех различных шаблонов подсказок для оптимизации формата и точности выходных данных модели

Экспериментальная установка

Набор данных

  • Набор данных Rwecd: Построен на основе реальных фотографий строительства скоростной дороги провинции
  • Общий размер: 325 образцов фотографий рисков
  • Количество категорий: 15 различных типов рисков
  • Разделение данных: 105 фотографий для построения хранилища поиска, 220 фотографий для набора тестирования

Метрики оценки

  1. Точность категории: CategoryAccuracy=1Ni=1NI(Li=Li^)\text{CategoryAccuracy} = \frac{1}{N}\sum_{i=1}^{N}\mathbb{I}(L_i = \hat{L_i})
  2. Сходство BERT: BERTSim(Ci,Ci^)=fBERT(Ci)fBERT(Ci^)fBERT(Ci)fBERT(Ci^)\text{BERTSim}(C_i, \hat{C_i}) = \frac{f_{BERT}(C_i) \cdot f_{BERT}(\hat{C_i})}{||f_{BERT}(C_i)|| \cdot ||f_{BERT}(\hat{C_i})||}
  3. Сходство TF-IDF: TFIDFSim(Ci,Ci^)=fTFIDF(Ci)fTFIDF(Ci^)fTFIDF(Ci)fTFIDF(Ci^)\text{TFIDFSim}(C_i, \hat{C_i}) = \frac{f_{TFIDF}(C_i) \cdot f_{TFIDF}(\hat{C_i})}{||f_{TFIDF}(C_i)|| \cdot ||f_{TFIDF}(\hat{C_i})||}

Методы сравнения

  • GLM-4V: Многомодальное расширение серии многомодальных больших языковых моделей Zhipu ChatGLM
  • ChatGPT-4o: Многомодальная большая языковая модель, выпущенная OpenAI
  • Deepseek-vl2: Многомодальная большая языковая модель, разработанная командой DeepSeek

Детали реализации

Разработаны четыре шаблона подсказок:

  • Type1: Базовая инструкция без дополнительной информации
  • Type2: Руководство по категориям с добавлением информации о 15 типах рисков
  • Type3: Нормализация формата с добавлением требований к формату выходных данных
  • Type4: Комплексное увеличение с одновременным добавлением информации о категориях и требований к формату

Результаты экспериментов

Основные результаты

МетодМодельТочностьBERTTF-IDF
BaseGLM-4V14,51%69,953,17
BaseChatGPT-4O53,54%71,675,75
BaseDeepseek-vl214,91%68,152,34
COTGLM-4V17,28%70,093,68
COTChatGPT-4O55,08%71,304,64
COTDeepseek-vl212,11%66,872,33
RDRAGGLM-4V50,00%77,5111,83
RDRAGChatGPT-4O59,09%73,816,40
RDRAGDeepseek-vl236,53%72,256,86

Ключевые выводы:

  • Точность GLM-4V повышена с 14,51% до 50,00%, увеличение составляет 35,49%
  • Все модели показывают значительное улучшение в сходстве BERT и TF-IDF
  • Метод COT имеет ограниченный эффект, в некоторых случаях даже отрицательное влияние

Абляционные эксперименты

МодельМетодТочностьBERTTF-IDF
GLM-4VRDRAG50,00%77,5111,83
GLM-4VLPIPS43,64%77,119,63
GLM-4VBase37,73%76,496,66

Анализ результатов:

  • Стратегия поиска на основе CLIP превосходит стратегию на основе LPIPS
  • Механизм хранилища поиска оказывает положительное влияние на все модели
  • Кроссмодальная способность CLIP более эффективна в понимании сходства содержания изображений

Анализ сравнения шаблонов подсказок

Шаблон Type4 (комплексное увеличение) показывает лучшие результаты как в семантическом сходстве, так и в соответствии ключевых слов, поэтому был выбран в качестве окончательной схемы подсказок.

Анализ на уровне категорий

Метод RDRAG показывает значительное улучшение в большинстве из 15 категорий рисков, особенно в:

  • Категориях с большим количеством образцов (например, распределительный щит не закрыт вовремя: 26%→60%)
  • Категориях с похожими целевыми объектами (например, противопожарные сооружения: 0%→50%)
  • Категориях сложных сцен (например, защита оборудования: 12%→64,71%)

Связанные работы

Традиционные методы идентификации рисков

  • Ручной осмотр: Зависит от опыта специалистов по безопасности, подвержен пропускам, монотонен
  • Технология Интернета вещей: Мониторинг в реальном времени через сетевые датчики, но с высокой стоимостью и большими требованиями к оборудованию
  • Компьютерное зрение: На основе методов SIFT, HOG, CNN и т.д., но производительность ограничена качеством изображения и точностью алгоритма

Методы на основе больших языковых моделей

  • Многомодальное выравнивание: Повышение производительности посредством контрастного обучения и механизмов кроссмодального внимания
  • Обучение с малым количеством примеров: Использование метаобучения, обучения подсказкам и трансферного обучения для снижения зависимости от аннотированных данных
  • Поиск с увеличением генерации: Объединение внешних баз знаний для повышения производительности модели

Заключение и обсуждение

Основные выводы

  1. Фреймворк RDRAG значительно повышает точность и способность контекстного понимания больших моделей при идентификации рисков на строительной площадке
  2. Метод поиска с увеличением достигает значительного улучшения производительности без необходимости обучения
  3. Стратегия поиска изображений на основе CLIP превосходит традиционные методы перцептивного сходства
  4. Метод демонстрирует хорошую способность к обобщению в многокатегорийных сценариях идентификации рисков

Ограничения

  1. Категории с малым количеством примеров: Нестабильные результаты оптимизации для категорий с очень малым количеством образцов
  2. Восприятие малых объектов: Остаются вызовы в точной идентификации точек риска в сложном фоне
  3. Качество хранилища поиска: Производительность зависит от качества и полноты хранилища поиска
  4. Вычислительные затраты: Поиск в реальном времени может привести к определенной вычислительной задержке

Будущие направления

  1. Применение более сложных техник увеличения подсказок RAG
  2. Повышение способности модели к восприятию малых объектов
  3. Оптимизация стратегии поиска для обработки сложных сцен
  4. Расширение на другие области промышленной безопасности

Глубокая оценка

Преимущества

  1. Высокая инновационность: Первое применение поиска с увеличением генерации к идентификации рисков на строительной площадке, значительное улучшение производительности без необходимости тонкой настройки
  2. Высокая практическая ценность: Решение реальной инженерной проблемы с сильными перспективами применения
  3. Полные эксперименты: Систематическая оценка на нескольких моделях, включая абляционные эксперименты и анализ на уровне категорий
  4. Универсальность метода: Дизайн фреймворка универсален и может быть расширен на другие области обнаружения безопасности

Недостатки

  1. Размер набора данных: Набор данных Rwecd относительно небольшой (325 фотографий), что может ограничить универсальность выводов
  2. Дисбаланс категорий: Некоторые категории рисков имеют слишком мало образцов, влияя на оценку производительности этих категорий
  3. Вычислительная эффективность: Отсутствует подробный анализ вычислительных затрат процесса поиска и производительности в реальном времени
  4. Анализ ошибок: Недостаточно глубокого анализа неудачных примеров

Влияние

  1. Академический вклад: Предоставление новых идей для применения многомодальных больших моделей в вертикальных областях
  2. Инженерная ценность: Предоставление практического технического решения для управления безопасностью на строительной площадке
  3. Методологическое вдохновение: Фреймворк поиска с увеличением может вдохновить соответствующие исследования в других областях

Применимые сценарии

  1. Мониторинг безопасности на строительной площадке: Обнаружение рисков в реальном времени или периодическое обнаружение
  2. Обучение безопасности: Использование в качестве вспомогательного инструмента для помощи в идентификации и изучении типов рисков
  3. Проверка соответствия: Помощь специалистам по безопасности в проведении стандартизированных проверок
  4. Другие промышленные сценарии: Может быть расширено на другие высокорисковые отрасли, такие как горнодобывающая промышленность и химическое производство

Библиография

Статья ссылается на большое количество связанных работ, охватывающих традиционные методы компьютерного зрения, многомодальное обучение, поиск с увеличением генерации и другие направления исследований, обеспечивая прочную теоретическую основу для исследования.


Общая оценка: Это высококачественная прикладная исследовательская работа. Предложенный фреймворк RDRAG обладает инновационностью и практичностью, экспериментальный дизайн обоснован, результаты убедительны. Хотя существует место для улучшения в масштабе данных и некоторых технических деталях, работа предоставляет ценный вклад в применение многомодальных больших моделей в области промышленной безопасности.