This study addresses construction site hazard identification by proposing a retrieval-augmented framework that enhances large language models (LLMs) without requiring fine-tuning. Current LLM-based approaches face limitations: image-text matching struggles with complex hazards, while instruction tuning lacks generalization and is resource-intensive. Our method dynamically integrates external knowledge and retrieved similar cases via prompt tuning, overcoming LLMs' limitations in domain knowledge and feature correlation. The framework comprises a case database, an image retrieval module, and an LLM-based reasoning module. Evaluated on real-site data, our approach boosted GLM-4V's accuracy to 50%, a 35.49% improvement over baselines, with consistent gains across hazard types. Ablation studies validated the effectiveness of our image retrieval strategy, showing the superiority of our LPIPS- and CLIP-based method. The proposed technique significantly improves identification accuracy and contextual understanding, demonstrating strong generalization and offering a practical path for intelligent safety risk detection in construction.
- ID статьи: 2508.02073
- Название: Large model retrieval enhancement framework for construction site risk identification (Фреймворк поиска с увеличением больших моделей для идентификации рисков на строительной площадке)
- Авторы: Ли Цзявэй, Ян Чэнъе, Чжан Яочэнь, Сунь Вэйлинь, Мэн Лэй, Мэн Сянсюй
- Классификация: cs.AI
- Время публикации/конференция: Журнал изображений и графики (Journal of Image and Graphics)
- Ссылка на статью: https://arxiv.org/abs/2508.02073
В данном исследовании предлагается фреймворк поиска с увеличением без необходимости тонкой настройки для повышения производительности больших языковых моделей при решении задачи идентификации рисков на строительной площадке. Существующие методы на основе LLM имеют ограничения: согласование изображения и текста недостаточно эффективно для сложной идентификации рисков, а инструкционная тонкая настройка не обладает способностью к обобщению и требует больших ресурсов. Предложенный метод динамически объединяет внешние базы знаний и контекст извлеченных примеров посредством техники тонкой настройки подсказок, преодолевая недостатки больших моделей в области знаний и связи признаков. Фреймворк включает базу данных примеров, модуль поиска изображений и модуль рассуждений на основе LLM. Оценка на реальных данных строительной площадки показывает, что метод повышает точность GLM-4V до 50%, что на 35,49% выше базовых методов, с последовательным улучшением производительности при идентификации всех типов рисков. Абляционные эксперименты подтверждают эффективность стратегии поиска изображений, демонстрируя превосходство метода на основе CLIP по сравнению с LPIPS.
Данное исследование решает проблему автоматизированной идентификации рисков и скрытых опасностей на строительной площадке. Традиционные методы ручного осмотра имеют ограничения: высокий уровень пропусков, монотонность работы, невозможность осуществления мониторинга в реальном времени, а существующие методы на основе компьютерного зрения все еще недостаточны в отношении способности к обобщению и точности идентификации.
- Обеспечение безопасности: Несчастные случаи на строительной площадке происходят часто; точная идентификация рисков имеет важное значение для предотвращения аварий
- Повышение эффективности: Автоматизированная идентификация может заменить традиционные ручные осмотры и повысить эффективность проверок
- Контроль затрат: Снижение затрат на рабочую силу и экономических потерь от несчастных случаев на производстве
Существующие методы на основе больших языковых моделей разделяются на две категории:
- Методы согласования изображения и текста: Повышение согласования изображения и семантики посредством многомодального выравнивания, но с ограниченной способностью к пониманию сложных признаков рисков
- Методы инструкционной тонкой настройки: Углубление анализа модели посредством расширения знаний предметной области, но с высокими затратами на обучение и низкой универсальностью
Для избежания высокостоимостной тонкой настройки при одновременном повышении точности и адаптивности больших моделей к сложной идентификации рисков введение внешних источников знаний и реализация поиска с увеличением становится перспективным направлением исследования.
- Предложение инновационного фреймворка: Представлен фреймворк идентификации рисков на основе поиска похожих примеров (RDRAG), инновационно объединяющий обучение подсказок больших моделей с механизмом поиска примеров
- Дизайн "plug-and-play": Построен модуль поиска с увеличением типа "plug-and-play", реализующий оптимизацию больших моделей без обучения посредством стратегии тонкой настройки подсказок
- Систематическая оценка: Систематическая оценка производительности различных больших моделей на реальных данных строительной площадки, уточнение преимуществ поиска с увеличением в повышении способности к обобщению и объяснимости модели
- Значительное улучшение производительности: Точность модели GLM-4V повышена с 14,51% до 50%, что составляет увеличение на 35,49%
Дан многомодальный набор данных идентификации рисков D={(I1,C1,L1),(I2,C2,L2),...,(IN,CN,LN)}, где:
- Ii: фотография строительной площадки
- Ci: текстовая информация описания риска
- Li: метка категории риска
Цель состоит в генерации фреймворка с поиском и увеличением для создания точной категории риска Li^ и описания Ci^ для входного изображения Ii:
Li^,Ci^=f(Ii,{Cj∣j=1,...,K})
Фреймворк RDRAG включает три основных модуля:
Построение структурированной базы данных примеров рисков на строительной площадке, хранящей исторические примеры, каждая запись включает изображение, текстовое описание и метку категории.
Реализация расчета кроссмодального сходства на основе модели CLIP:
Извлечение признаков:
f(Ii)=CLIP(Ii),f(Ij)=CLIP(Ij)
Расчет сходства:
Sim(Ii,Ij)=∣∣f(Ii)∣∣⋅∣∣f(Ij)∣∣f(Ii)⋅f(Ij)
Поиск Top-K:
{(Ij,Cj,Lj)∣j∈{1,2,...,K}}=Top-K(Sim(Ii,Ij))
Объединение извлеченных похожих примеров с текущим изображением в подсказку:
Prompti=Concat(Ii,{Cj∣j∈{1,2,...,K}})
Генерация результатов посредством многомодальной большой языковой модели:
Li^,Ci^=LM(Prompti)
- Оптимизация без обучения: Не требуется тонкая настройка больших моделей; повышение производительности достигается посредством поиска с увеличением
- Динамическое объединение знаний: Динамический поиск соответствующих примеров на основе входного изображения для предоставления контекстной информации
- Кроссмодальный поиск: Использование модели CLIP для расчета кроссмодального сходства изображение-текст
- Инженерия подсказок: Разработка четырех различных шаблонов подсказок для оптимизации формата и точности выходных данных модели
- Набор данных Rwecd: Построен на основе реальных фотографий строительства скоростной дороги провинции
- Общий размер: 325 образцов фотографий рисков
- Количество категорий: 15 различных типов рисков
- Разделение данных: 105 фотографий для построения хранилища поиска, 220 фотографий для набора тестирования
- Точность категории:
CategoryAccuracy=N1∑i=1NI(Li=Li^)
- Сходство BERT:
BERTSim(Ci,Ci^)=∣∣fBERT(Ci)∣∣⋅∣∣fBERT(Ci^)∣∣fBERT(Ci)⋅fBERT(Ci^)
- Сходство TF-IDF:
TFIDFSim(Ci,Ci^)=∣∣fTFIDF(Ci)∣∣⋅∣∣fTFIDF(Ci^)∣∣fTFIDF(Ci)⋅fTFIDF(Ci^)
- GLM-4V: Многомодальное расширение серии многомодальных больших языковых моделей Zhipu ChatGLM
- ChatGPT-4o: Многомодальная большая языковая модель, выпущенная OpenAI
- Deepseek-vl2: Многомодальная большая языковая модель, разработанная командой DeepSeek
Разработаны четыре шаблона подсказок:
- Type1: Базовая инструкция без дополнительной информации
- Type2: Руководство по категориям с добавлением информации о 15 типах рисков
- Type3: Нормализация формата с добавлением требований к формату выходных данных
- Type4: Комплексное увеличение с одновременным добавлением информации о категориях и требований к формату
| Метод | Модель | Точность | BERT | TF-IDF |
|---|
| Base | GLM-4V | 14,51% | 69,95 | 3,17 |
| Base | ChatGPT-4O | 53,54% | 71,67 | 5,75 |
| Base | Deepseek-vl2 | 14,91% | 68,15 | 2,34 |
| COT | GLM-4V | 17,28% | 70,09 | 3,68 |
| COT | ChatGPT-4O | 55,08% | 71,30 | 4,64 |
| COT | Deepseek-vl2 | 12,11% | 66,87 | 2,33 |
| RDRAG | GLM-4V | 50,00% | 77,51 | 11,83 |
| RDRAG | ChatGPT-4O | 59,09% | 73,81 | 6,40 |
| RDRAG | Deepseek-vl2 | 36,53% | 72,25 | 6,86 |
Ключевые выводы:
- Точность GLM-4V повышена с 14,51% до 50,00%, увеличение составляет 35,49%
- Все модели показывают значительное улучшение в сходстве BERT и TF-IDF
- Метод COT имеет ограниченный эффект, в некоторых случаях даже отрицательное влияние
| Модель | Метод | Точность | BERT | TF-IDF |
|---|
| GLM-4V | RDRAG | 50,00% | 77,51 | 11,83 |
| GLM-4V | LPIPS | 43,64% | 77,11 | 9,63 |
| GLM-4V | Base | 37,73% | 76,49 | 6,66 |
Анализ результатов:
- Стратегия поиска на основе CLIP превосходит стратегию на основе LPIPS
- Механизм хранилища поиска оказывает положительное влияние на все модели
- Кроссмодальная способность CLIP более эффективна в понимании сходства содержания изображений
Шаблон Type4 (комплексное увеличение) показывает лучшие результаты как в семантическом сходстве, так и в соответствии ключевых слов, поэтому был выбран в качестве окончательной схемы подсказок.
Метод RDRAG показывает значительное улучшение в большинстве из 15 категорий рисков, особенно в:
- Категориях с большим количеством образцов (например, распределительный щит не закрыт вовремя: 26%→60%)
- Категориях с похожими целевыми объектами (например, противопожарные сооружения: 0%→50%)
- Категориях сложных сцен (например, защита оборудования: 12%→64,71%)
- Ручной осмотр: Зависит от опыта специалистов по безопасности, подвержен пропускам, монотонен
- Технология Интернета вещей: Мониторинг в реальном времени через сетевые датчики, но с высокой стоимостью и большими требованиями к оборудованию
- Компьютерное зрение: На основе методов SIFT, HOG, CNN и т.д., но производительность ограничена качеством изображения и точностью алгоритма
- Многомодальное выравнивание: Повышение производительности посредством контрастного обучения и механизмов кроссмодального внимания
- Обучение с малым количеством примеров: Использование метаобучения, обучения подсказкам и трансферного обучения для снижения зависимости от аннотированных данных
- Поиск с увеличением генерации: Объединение внешних баз знаний для повышения производительности модели
- Фреймворк RDRAG значительно повышает точность и способность контекстного понимания больших моделей при идентификации рисков на строительной площадке
- Метод поиска с увеличением достигает значительного улучшения производительности без необходимости обучения
- Стратегия поиска изображений на основе CLIP превосходит традиционные методы перцептивного сходства
- Метод демонстрирует хорошую способность к обобщению в многокатегорийных сценариях идентификации рисков
- Категории с малым количеством примеров: Нестабильные результаты оптимизации для категорий с очень малым количеством образцов
- Восприятие малых объектов: Остаются вызовы в точной идентификации точек риска в сложном фоне
- Качество хранилища поиска: Производительность зависит от качества и полноты хранилища поиска
- Вычислительные затраты: Поиск в реальном времени может привести к определенной вычислительной задержке
- Применение более сложных техник увеличения подсказок RAG
- Повышение способности модели к восприятию малых объектов
- Оптимизация стратегии поиска для обработки сложных сцен
- Расширение на другие области промышленной безопасности
- Высокая инновационность: Первое применение поиска с увеличением генерации к идентификации рисков на строительной площадке, значительное улучшение производительности без необходимости тонкой настройки
- Высокая практическая ценность: Решение реальной инженерной проблемы с сильными перспективами применения
- Полные эксперименты: Систематическая оценка на нескольких моделях, включая абляционные эксперименты и анализ на уровне категорий
- Универсальность метода: Дизайн фреймворка универсален и может быть расширен на другие области обнаружения безопасности
- Размер набора данных: Набор данных Rwecd относительно небольшой (325 фотографий), что может ограничить универсальность выводов
- Дисбаланс категорий: Некоторые категории рисков имеют слишком мало образцов, влияя на оценку производительности этих категорий
- Вычислительная эффективность: Отсутствует подробный анализ вычислительных затрат процесса поиска и производительности в реальном времени
- Анализ ошибок: Недостаточно глубокого анализа неудачных примеров
- Академический вклад: Предоставление новых идей для применения многомодальных больших моделей в вертикальных областях
- Инженерная ценность: Предоставление практического технического решения для управления безопасностью на строительной площадке
- Методологическое вдохновение: Фреймворк поиска с увеличением может вдохновить соответствующие исследования в других областях
- Мониторинг безопасности на строительной площадке: Обнаружение рисков в реальном времени или периодическое обнаружение
- Обучение безопасности: Использование в качестве вспомогательного инструмента для помощи в идентификации и изучении типов рисков
- Проверка соответствия: Помощь специалистам по безопасности в проведении стандартизированных проверок
- Другие промышленные сценарии: Может быть расширено на другие высокорисковые отрасли, такие как горнодобывающая промышленность и химическое производство
Статья ссылается на большое количество связанных работ, охватывающих традиционные методы компьютерного зрения, многомодальное обучение, поиск с увеличением генерации и другие направления исследований, обеспечивая прочную теоретическую основу для исследования.
Общая оценка: Это высококачественная прикладная исследовательская работа. Предложенный фреймворк RDRAG обладает инновационностью и практичностью, экспериментальный дизайн обоснован, результаты убедительны. Хотя существует место для улучшения в масштабе данных и некоторых технических деталях, работа предоставляет ценный вклад в применение многомодальных больших моделей в области промышленной безопасности.