2025-11-11T07:07:08.271446

Large model retrieval enhancement framework for construction site risk identification

Li, Yang, Zhang et al.

This study addresses construction site hazard identification by proposing a retrieval-augmented framework that enhances large language models (LLMs) without requiring fine-tuning. Current LLM-based approaches face limitations: image-text matching struggles with complex hazards, while instruction tuning lacks generalization and is resource-intensive. Our method dynamically integrates external knowledge and retrieved similar cases via prompt tuning, overcoming LLMs' limitations in domain knowledge and feature correlation. The framework comprises a case database, an image retrieval module, and an LLM-based reasoning module. Evaluated on real-site data, our approach boosted GLM-4V's accuracy to 50%, a 35.49% improvement over baselines, with consistent gains across hazard types. Ablation studies validated the effectiveness of our image retrieval strategy, showing the superiority of our LPIPS- and CLIP-based method. The proposed technique significantly improves identification accuracy and contextual understanding, demonstrating strong generalization and offering a practical path for intelligent safety risk detection in construction.

academic

건설현장 위험 식별을 위한 대규모 모델 검색 강화 프레임워크

기본 정보

논문 ID: 2508.02073
제목: Large model retrieval enhancement framework for construction site risk identification (건설현장 위험 식별을 위한 대모델 검색 강화 프레임워크)
저자: 李嘉威, 杨成业, 张尧臣, 孙玮琳, 孟雷, 孟祥旭
분류: cs.AI
발표 시간/학회: 중국 이미지 그래픽 저널 (Journal of Image and Graphics)
논문 링크: https://arxiv.org/abs/2508.02073

초록

본 연구는 건설현장 위험 식별 문제를 해결하기 위해 미세조정이 필요 없는 검색 강화 프레임워크를 제안하여 대규모 언어 모델의 성능을 향상시킵니다. 현재 LLM 기반 방법의 한계점은 다음과 같습니다: 이미지-텍스트 매칭이 복잡한 위험 식별에서 능력이 부족하며, 명령어 미세조정은 일반화 능력이 부족하고 자원 소비가 큽니다. 본 방법은 프롬프트 미세조정 기술을 통해 외부 지식 데이터베이스와 검색된 사례 컨텍스트를 동적으로 융합하여 대모델의 도메인 지식 및 특징 연관성 부족을 극복합니다. 프레임워크는 사례 데이터베이스, 이미지 검색 모듈 및 LLM 기반 추론 모듈로 구성됩니다. 실제 건설현장 데이터에 대한 평가 결과, 본 방법은 GLM-4V의 정확도를 50%로 향상시켜 기준 방법 대비 35.49% 개선되었으며, 모든 유형의 위험 식별에서 일관된 성능 향상을 보였습니다. 소거 실험은 이미지 검색 전략의 유효성을 검증했으며, CLIP 기반 방법이 LPIPS 대비 우수함을 입증했습니다.

연구 배경 및 동기

1. 해결해야 할 문제

본 연구는 건설현장 위험의 자동화 식별 문제를 해결합니다. 전통적인 인력 순찰은 누락률이 높고 반복성이 강하며 실시간 모니터링이 불가능한 한계가 있으며, 기존 컴퓨터 비전 기반 방법은 일반화 능력과 식별 정확도에서 여전히 부족합니다.

2. 문제의 중요성

안전 보장: 건설현장 안전 사고가 빈번하게 발생하며, 정확한 위험 식별은 사고 예방에 중요한 의미를 가집니다
효율성 향상: 자동화 식별은 전통적인 인력 순찰을 대체할 수 있어 검사 효율을 높입니다
비용 관리: 인력 투입 감소 및 안전 사고로 인한 경제적 손실을 줄입니다

3. 기존 방법의 한계

기존 대규모 언어 모델 기반 방법은 주로 두 가지로 분류됩니다:

이미지-텍스트 매칭 방법: 다중모달 정렬을 통해 이미지와 의미 매칭을 향상시키지만, 복잡한 위험 특징 파악에 제한이 있습니다
명령어 미세조정 방법: 도메인 지식을 통해 모델 분석 깊이를 향상시키지만, 훈련 비용이 높고 범용성이 떨어집니다

4. 연구 동기

높은 비용의 미세조정을 피하면서 동시에 복잡한 위험 식별에 대한 대모델의 정확성과 도메인 적응성을 향상시키기 위해, 외부 지식 소스를 도입하고 검색 강화를 실시하는 것이 탐색할 가치 있는 해결 경로가 됩니다.

핵심 기여

혁신적 프레임워크 제안: 유사 사례 검색 강화 기반의 위험 식별 프레임워크(RDRAG)를 제안하여, 대모델 프롬프트 학습과 인스턴스 검색 메커니즘을 혁신적으로 융합합니다
플러그 앤 플레이 설계: 프롬프트 미세조정 전략을 통해 대모델의 훈련 없는 최적화를 실현하는 플러그 앤 플레이 검색 강화 모듈을 구축합니다
체계적 평가: 실제 건설현장 데이터에서 다양한 대모델의 식별 성능을 체계적으로 평가하여, 검색 강화가 모델 일반화 능력 및 설명 능력 향상에 미치는 이점을 명확히 합니다
현저한 성능 향상: GLM-4V 모델 정확도를 14.51%에서 50%로 향상시켜 35.49%의 향상 폭을 달성합니다

방법 상세 설명

작업 정의

다중모달 위험 식별 데이터셋 $D = \{(I_1, C_1, L_1), (I_2, C_2, L_2), ..., (I_N, C_N, L_N)\}$ 이 주어졌을 때, 여기서:

$I_i$ : 건설현장 시공 이미지
$C_i$ : 위험 설명 텍스트 정보
$L_i$ : 위험 카테고리 레이블

목표는 검색 강화 생성 프레임워크를 통해 입력 이미지 $I_i$ 에 대해 정확한 위험 카테고리 $\hat{L_i}$ 와 설명 $\hat{C_i}$ 를 생성하는 것입니다:

$\hat{L_i}, \hat{C_i} = f(I_i, \{C_j | j=1,...,K\})$

모델 아키텍처

RDRAG 프레임워크는 세 개의 핵심 모듈로 구성됩니다:

1. 검색 라이브러리 모듈

구조화된 위험 사례 데이터베이스를 구축하여 과거 건설현장 위험 사례를 저장하며, 각 항목은 이미지, 텍스트 설명 및 카테고리 레이블을 포함합니다.

2. 이미지 유사도 검색 모듈

CLIP 모델을 기반으로 교차 모달 유사도 계산을 구현합니다:

특징 추출: $f(I_i) = \text{CLIP}(I_i), \quad f(I_j) = \text{CLIP}(I_j)$

유사도 계산: $\text{Sim}(I_i, I_j) = \frac{f(I_i) \cdot f(I_j)}{||f(I_i)|| \cdot ||f(I_j)||}$

상위-K 검색: $\{(I_j, C_j, L_j) | j \in \{1,2,...,K\}\} = \text{Top-K}(\text{Sim}(I_i, I_j))$

3. 대모델 검색 강화 모듈

검색된 유사 사례와 현재 이미지를 결합하여 프롬프트를 구성합니다:

$\text{Prompt}_i = \text{Concat}(I_i, \{C_j | j \in \{1,2,...,K\}\})$

다중모달 대규모 언어 모델을 통해 결과를 생성합니다: $\hat{L_i}, \hat{C_i} = \text{LM}(\text{Prompt}_i)$

기술 혁신점

훈련 없는 최적화: 대모델에 대한 미세조정이 필요 없으며, 검색 강화를 통해 성능 향상을 실현합니다
동적 지식 융합: 입력 이미지에 따라 동적으로 관련 사례를 검색하여 컨텍스트 정보를 제공합니다
교차 모달 검색: CLIP 모델을 사용하여 이미지-텍스트 교차 모달 유사도를 계산합니다
프롬프트 엔지니어링: 네 가지 다양한 프롬프트 템플릿을 설계하여 모델 출력 형식과 정확성을 최적화합니다

실험 설정

데이터셋

Rwecd 데이터셋: 성 고속도로 시공 실제 이미지를 기반으로 구축
총 규모: 325개 위험 이미지 샘플
카테고리 수: 15가지 다양한 위험 카테고리
데이터 분할: 105개 이미지로 검색 라이브러리 구축, 220개 이미지를 테스트 세트로 사용

평가 지표

카테고리 정확도: $\text{CategoryAccuracy} = \frac{1}{N}\sum_{i=1}^{N}\mathbb{I}(L_i = \hat{L_i})$
BERT 유사도: $\text{BERTSim}(C_i, \hat{C_i}) = \frac{f_{BERT}(C_i) \cdot f_{BERT}(\hat{C_i})}{||f_{BERT}(C_i)|| \cdot ||f_{BERT}(\hat{C_i})||}$
TF-IDF 유사도: $\text{TFIDFSim}(C_i, \hat{C_i}) = \frac{f_{TFIDF}(C_i) \cdot f_{TFIDF}(\hat{C_i})}{||f_{TFIDF}(C_i)|| \cdot ||f_{TFIDF}(\hat{C_i})||}$

비교 방법

GLM-4V: 지스프 ChatGLM 시리즈의 다중모달 확장 버전
ChatGPT-4o: OpenAI가 출시한 다중모달 대규모 언어 모델
Deepseek-vl2: DeepSeek 팀이 개발한 다중모달 대규모 언어 모델

구현 세부사항

네 가지 프롬프트 템플릿을 설계했습니다:

Type1: 기본 명령어, 추가 정보 없음
Type2: 카테고리 가이드, 15개 위험 카테고리 정보 추가
Type3: 형식 규범, 출력 형식 요구사항 추가
Type4: 복합 강화, 카테고리 및 형식 정보 동시 추가

실험 결과

주요 결과

방법	모델	정확도	BERT	TF-IDF
Base	GLM-4V	14.51%	69.95	3.17
Base	ChatGPT-4O	53.54%	71.67	5.75
Base	Deepseek-vl2	14.91%	68.15	2.34
COT	GLM-4V	17.28%	70.09	3.68
COT	ChatGPT-4O	55.08%	71.30	4.64
COT	Deepseek-vl2	12.11%	66.87	2.33
RDRAG	GLM-4V	50.00%	77.51	11.83
RDRAG	ChatGPT-4O	59.09%	73.81	6.40
RDRAG	Deepseek-vl2	36.53%	72.25	6.86

주요 발견:

GLM-4V 정확도가 14.51%에서 50.00%로 향상되어 35.49% 개선
모든 모델이 BERT 유사도 및 TF-IDF 유사도에서 현저한 향상
COT 방법은 효과가 제한적이며, 일부 경우 부정적 영향 발생

소거 실험

모델	방법	정확도	BERT	TF-IDF
GLM-4V	RDRAG	50.00%	77.51	11.83
GLM-4V	LPIPS	43.64%	77.11	9.63
GLM-4V	Base	37.73%	76.49	6.66

결과 분석:

CLIP 기반 검색 전략이 LPIPS 기반 전략보다 우수
검색 라이브러리 메커니즘이 모든 모델에 긍정적 향상 제공
CLIP의 교차 모달 능력이 이미지 콘텐츠 유사성 이해에 더 효과적

프롬프트 템플릿 비교 분석

Type4(복합 강화) 템플릿이 의미 유사성 및 핵심 키워드 매칭도에서 최고 성능을 보여 최종 프롬프트 방안으로 선택되었습니다.

카테고리 수준 분석

15개 위험 카테고리 중 RDRAG 방법은 대부분의 카테고리에서 현저한 향상을 보였으며, 특히:

샘플 수량이 많은 카테고리(예: 배전함 미시간 잠금: 26%→60%)
주요 목표물이 유사한 카테고리(예: 소방 시설 관련: 0%→50%)
복잡한 장면 카테고리(예: 장비 안전 방호: 12%→64.71%)

결론 및 논의

주요 결론

RDRAG 프레임워크는 건설현장 위험 식별에서 대모델의 정확도 및 컨텍스트 이해 능력을 현저히 향상시킵니다
검색 강화 방법은 훈련 없이도 현저한 성능 향상을 실현합니다
CLIP 기반 이미지 검색 전략이 전통적 지각 유사성 방법보다 우수합니다
방법은 다중 카테고리 위험 장면에서 우수한 일반화 성능을 보입니다

한계점

소수 샘플 카테고리: 샘플 수량이 극히 적은 카테고리에서 최적화 효과가 불안정합니다
소형 목표 인식: 복잡한 배경에서 위험 지점의 정확한 식별에 여전히 도전이 있습니다
검색 라이브러리 품질: 성능이 검색 라이브러리의 품질 및 커버리지에 의존합니다
계산 오버헤드: 실시간 검색이 일정한 계산 지연을 야기할 수 있습니다

향후 방향

더 복잡한 RAG 프롬프트 강화 기술 채택
소형 목표 인식에 대한 모델 능력 향상
복잡한 장면 처리를 위한 검색 전략 최적화
다른 산업 안전 분야로 확장

심층 평가

장점

높은 혁신성: 검색 강화 생성을 건설현장 위험 식별에 처음 적용하여 미세조정 없이 성능을 현저히 향상시킵니다
높은 실용 가치: 실제 공학 문제를 해결하며 매우 강한 응용 전망을 가집니다
충분한 실험: 다양한 모델에서 체계적 평가를 수행하며, 소거 실험 및 카테고리 수준 분석을 포함합니다
방법의 범용성: 프레임워크 설계가 범용적이며 다른 안전 감지 분야로 확장 가능합니다

부족한 점

데이터셋 규모: Rwecd 데이터셋이 상대적으로 작아(325개 이미지) 결론의 보편성을 제한할 수 있습니다
카테고리 불균형: 일부 위험 카테고리 샘플이 너무 적어 이들 카테고리의 성능 평가에 영향을 미칩니다
계산 효율성: 검색 과정의 계산 오버헤드 및 실시간성에 대한 상세 분석이 부족합니다
오류 분석: 실패 사례에 대한 심층 분석이 부족합니다

영향력

학술 기여: 다중모달 대모델의 수직 분야 응용에 새로운 사고를 제공합니다
공학 가치: 건설현장 안전 관리에 실용적 기술 방안을 제공합니다
방법 영감: 검색 강화 프레임워크가 다른 분야의 관련 연구에 영감을 줄 수 있습니다

적용 장면

건설현장 안전 모니터링: 실시간 또는 정기적 위험 감지
안전 교육: 위험 유형 식별 및 학습을 돕는 보조 도구로 사용
규정 준수 검사: 안전 관리 인원의 표준화 검사 지원
다른 산업 장면: 광산, 화학 등 다른 고위험 산업으로 확장 가능

참고문헌

논문은 전통적 컴퓨터 비전 방법, 다중모달 학습, 검색 강화 생성 등 다양한 연구 방향을 포함한 많은 관련 연구를 인용하여 연구에 견고한 이론적 기초를 제공합니다.

종합 평가: 이는 높은 품질의 응용형 연구 논문으로, 제안된 RDRAG 프레임워크는 혁신성과 실용성을 가지며, 실험 설계가 합리적이고 결과가 설득력 있습니다. 데이터 규모 및 일부 기술 세부사항에서 개선 여지가 있지만, 다중모달 대모델의 산업 안전 분야 응용에 가치 있는 기여를 제공합니다.