This study addresses construction site hazard identification by proposing a retrieval-augmented framework that enhances large language models (LLMs) without requiring fine-tuning. Current LLM-based approaches face limitations: image-text matching struggles with complex hazards, while instruction tuning lacks generalization and is resource-intensive. Our method dynamically integrates external knowledge and retrieved similar cases via prompt tuning, overcoming LLMs' limitations in domain knowledge and feature correlation. The framework comprises a case database, an image retrieval module, and an LLM-based reasoning module. Evaluated on real-site data, our approach boosted GLM-4V's accuracy to 50%, a 35.49% improvement over baselines, with consistent gains across hazard types. Ablation studies validated the effectiveness of our image retrieval strategy, showing the superiority of our LPIPS- and CLIP-based method. The proposed technique significantly improves identification accuracy and contextual understanding, demonstrating strong generalization and offering a practical path for intelligent safety risk detection in construction.
- 논문 ID: 2508.02073
- 제목: Large model retrieval enhancement framework for construction site risk identification (건설현장 위험 식별을 위한 대모델 검색 강화 프레임워크)
- 저자: 李嘉威, 杨成业, 张尧臣, 孙玮琳, 孟雷, 孟祥旭
- 분류: cs.AI
- 발표 시간/학회: 중국 이미지 그래픽 저널 (Journal of Image and Graphics)
- 논문 링크: https://arxiv.org/abs/2508.02073
본 연구는 건설현장 위험 식별 문제를 해결하기 위해 미세조정이 필요 없는 검색 강화 프레임워크를 제안하여 대규모 언어 모델의 성능을 향상시킵니다. 현재 LLM 기반 방법의 한계점은 다음과 같습니다: 이미지-텍스트 매칭이 복잡한 위험 식별에서 능력이 부족하며, 명령어 미세조정은 일반화 능력이 부족하고 자원 소비가 큽니다. 본 방법은 프롬프트 미세조정 기술을 통해 외부 지식 데이터베이스와 검색된 사례 컨텍스트를 동적으로 융합하여 대모델의 도메인 지식 및 특징 연관성 부족을 극복합니다. 프레임워크는 사례 데이터베이스, 이미지 검색 모듈 및 LLM 기반 추론 모듈로 구성됩니다. 실제 건설현장 데이터에 대한 평가 결과, 본 방법은 GLM-4V의 정확도를 50%로 향상시켜 기준 방법 대비 35.49% 개선되었으며, 모든 유형의 위험 식별에서 일관된 성능 향상을 보였습니다. 소거 실험은 이미지 검색 전략의 유효성을 검증했으며, CLIP 기반 방법이 LPIPS 대비 우수함을 입증했습니다.
본 연구는 건설현장 위험의 자동화 식별 문제를 해결합니다. 전통적인 인력 순찰은 누락률이 높고 반복성이 강하며 실시간 모니터링이 불가능한 한계가 있으며, 기존 컴퓨터 비전 기반 방법은 일반화 능력과 식별 정확도에서 여전히 부족합니다.
- 안전 보장: 건설현장 안전 사고가 빈번하게 발생하며, 정확한 위험 식별은 사고 예방에 중요한 의미를 가집니다
- 효율성 향상: 자동화 식별은 전통적인 인력 순찰을 대체할 수 있어 검사 효율을 높입니다
- 비용 관리: 인력 투입 감소 및 안전 사고로 인한 경제적 손실을 줄입니다
기존 대규모 언어 모델 기반 방법은 주로 두 가지로 분류됩니다:
- 이미지-텍스트 매칭 방법: 다중모달 정렬을 통해 이미지와 의미 매칭을 향상시키지만, 복잡한 위험 특징 파악에 제한이 있습니다
- 명령어 미세조정 방법: 도메인 지식을 통해 모델 분석 깊이를 향상시키지만, 훈련 비용이 높고 범용성이 떨어집니다
높은 비용의 미세조정을 피하면서 동시에 복잡한 위험 식별에 대한 대모델의 정확성과 도메인 적응성을 향상시키기 위해, 외부 지식 소스를 도입하고 검색 강화를 실시하는 것이 탐색할 가치 있는 해결 경로가 됩니다.
- 혁신적 프레임워크 제안: 유사 사례 검색 강화 기반의 위험 식별 프레임워크(RDRAG)를 제안하여, 대모델 프롬프트 학습과 인스턴스 검색 메커니즘을 혁신적으로 융합합니다
- 플러그 앤 플레이 설계: 프롬프트 미세조정 전략을 통해 대모델의 훈련 없는 최적화를 실현하는 플러그 앤 플레이 검색 강화 모듈을 구축합니다
- 체계적 평가: 실제 건설현장 데이터에서 다양한 대모델의 식별 성능을 체계적으로 평가하여, 검색 강화가 모델 일반화 능력 및 설명 능력 향상에 미치는 이점을 명확히 합니다
- 현저한 성능 향상: GLM-4V 모델 정확도를 14.51%에서 50%로 향상시켜 35.49%의 향상 폭을 달성합니다
다중모달 위험 식별 데이터셋 D={(I1,C1,L1),(I2,C2,L2),...,(IN,CN,LN)}이 주어졌을 때, 여기서:
- Ii: 건설현장 시공 이미지
- Ci: 위험 설명 텍스트 정보
- Li: 위험 카테고리 레이블
목표는 검색 강화 생성 프레임워크를 통해 입력 이미지 Ii에 대해 정확한 위험 카테고리 Li^와 설명 Ci^를 생성하는 것입니다:
Li^,Ci^=f(Ii,{Cj∣j=1,...,K})
RDRAG 프레임워크는 세 개의 핵심 모듈로 구성됩니다:
구조화된 위험 사례 데이터베이스를 구축하여 과거 건설현장 위험 사례를 저장하며, 각 항목은 이미지, 텍스트 설명 및 카테고리 레이블을 포함합니다.
CLIP 모델을 기반으로 교차 모달 유사도 계산을 구현합니다:
특징 추출:
f(Ii)=CLIP(Ii),f(Ij)=CLIP(Ij)
유사도 계산:
Sim(Ii,Ij)=∣∣f(Ii)∣∣⋅∣∣f(Ij)∣∣f(Ii)⋅f(Ij)
상위-K 검색:
{(Ij,Cj,Lj)∣j∈{1,2,...,K}}=Top-K(Sim(Ii,Ij))
검색된 유사 사례와 현재 이미지를 결합하여 프롬프트를 구성합니다:
Prompti=Concat(Ii,{Cj∣j∈{1,2,...,K}})
다중모달 대규모 언어 모델을 통해 결과를 생성합니다:
Li^,Ci^=LM(Prompti)
- 훈련 없는 최적화: 대모델에 대한 미세조정이 필요 없으며, 검색 강화를 통해 성능 향상을 실현합니다
- 동적 지식 융합: 입력 이미지에 따라 동적으로 관련 사례를 검색하여 컨텍스트 정보를 제공합니다
- 교차 모달 검색: CLIP 모델을 사용하여 이미지-텍스트 교차 모달 유사도를 계산합니다
- 프롬프트 엔지니어링: 네 가지 다양한 프롬프트 템플릿을 설계하여 모델 출력 형식과 정확성을 최적화합니다
- Rwecd 데이터셋: 성 고속도로 시공 실제 이미지를 기반으로 구축
- 총 규모: 325개 위험 이미지 샘플
- 카테고리 수: 15가지 다양한 위험 카테고리
- 데이터 분할: 105개 이미지로 검색 라이브러리 구축, 220개 이미지를 테스트 세트로 사용
- 카테고리 정확도:
CategoryAccuracy=N1∑i=1NI(Li=Li^)
- BERT 유사도:
BERTSim(Ci,Ci^)=∣∣fBERT(Ci)∣∣⋅∣∣fBERT(Ci^)∣∣fBERT(Ci)⋅fBERT(Ci^)
- TF-IDF 유사도:
TFIDFSim(Ci,Ci^)=∣∣fTFIDF(Ci)∣∣⋅∣∣fTFIDF(Ci^)∣∣fTFIDF(Ci)⋅fTFIDF(Ci^)
- GLM-4V: 지스프 ChatGLM 시리즈의 다중모달 확장 버전
- ChatGPT-4o: OpenAI가 출시한 다중모달 대규모 언어 모델
- Deepseek-vl2: DeepSeek 팀이 개발한 다중모달 대규모 언어 모델
네 가지 프롬프트 템플릿을 설계했습니다:
- Type1: 기본 명령어, 추가 정보 없음
- Type2: 카테고리 가이드, 15개 위험 카테고리 정보 추가
- Type3: 형식 규범, 출력 형식 요구사항 추가
- Type4: 복합 강화, 카테고리 및 형식 정보 동시 추가
| 방법 | 모델 | 정확도 | BERT | TF-IDF |
|---|
| Base | GLM-4V | 14.51% | 69.95 | 3.17 |
| Base | ChatGPT-4O | 53.54% | 71.67 | 5.75 |
| Base | Deepseek-vl2 | 14.91% | 68.15 | 2.34 |
| COT | GLM-4V | 17.28% | 70.09 | 3.68 |
| COT | ChatGPT-4O | 55.08% | 71.30 | 4.64 |
| COT | Deepseek-vl2 | 12.11% | 66.87 | 2.33 |
| RDRAG | GLM-4V | 50.00% | 77.51 | 11.83 |
| RDRAG | ChatGPT-4O | 59.09% | 73.81 | 6.40 |
| RDRAG | Deepseek-vl2 | 36.53% | 72.25 | 6.86 |
주요 발견:
- GLM-4V 정확도가 14.51%에서 50.00%로 향상되어 35.49% 개선
- 모든 모델이 BERT 유사도 및 TF-IDF 유사도에서 현저한 향상
- COT 방법은 효과가 제한적이며, 일부 경우 부정적 영향 발생
| 모델 | 방법 | 정확도 | BERT | TF-IDF |
|---|
| GLM-4V | RDRAG | 50.00% | 77.51 | 11.83 |
| GLM-4V | LPIPS | 43.64% | 77.11 | 9.63 |
| GLM-4V | Base | 37.73% | 76.49 | 6.66 |
결과 분석:
- CLIP 기반 검색 전략이 LPIPS 기반 전략보다 우수
- 검색 라이브러리 메커니즘이 모든 모델에 긍정적 향상 제공
- CLIP의 교차 모달 능력이 이미지 콘텐츠 유사성 이해에 더 효과적
Type4(복합 강화) 템플릿이 의미 유사성 및 핵심 키워드 매칭도에서 최고 성능을 보여 최종 프롬프트 방안으로 선택되었습니다.
15개 위험 카테고리 중 RDRAG 방법은 대부분의 카테고리에서 현저한 향상을 보였으며, 특히:
- 샘플 수량이 많은 카테고리(예: 배전함 미시간 잠금: 26%→60%)
- 주요 목표물이 유사한 카테고리(예: 소방 시설 관련: 0%→50%)
- 복잡한 장면 카테고리(예: 장비 안전 방호: 12%→64.71%)
- 인력 순찰: 안전 관리 인원의 경험에 의존하며, 누락, 반복성 높음 등의 문제 존재
- IoT 기술: 센서 네트워크를 통한 실시간 모니터링이지만, 비용이 높고 장비 요구사항이 큼
- 컴퓨터 비전: SIFT, HOG, CNN 등 기술 기반이지만, 이미지 품질 및 알고리즘 정확도에 의해 성능 제한
- 다중모달 정렬: 대조 학습, 교차 모달 주의 메커니즘을 통해 성능 향상
- 소수 샘플 학습: 메타 학습, 프롬프트 학습, 전이 학습을 활용하여 주석 데이터 의존성 감소
- 검색 강화 생성: 외부 지식 데이터베이스와 결합하여 모델 성능 향상
- RDRAG 프레임워크는 건설현장 위험 식별에서 대모델의 정확도 및 컨텍스트 이해 능력을 현저히 향상시킵니다
- 검색 강화 방법은 훈련 없이도 현저한 성능 향상을 실현합니다
- CLIP 기반 이미지 검색 전략이 전통적 지각 유사성 방법보다 우수합니다
- 방법은 다중 카테고리 위험 장면에서 우수한 일반화 성능을 보입니다
- 소수 샘플 카테고리: 샘플 수량이 극히 적은 카테고리에서 최적화 효과가 불안정합니다
- 소형 목표 인식: 복잡한 배경에서 위험 지점의 정확한 식별에 여전히 도전이 있습니다
- 검색 라이브러리 품질: 성능이 검색 라이브러리의 품질 및 커버리지에 의존합니다
- 계산 오버헤드: 실시간 검색이 일정한 계산 지연을 야기할 수 있습니다
- 더 복잡한 RAG 프롬프트 강화 기술 채택
- 소형 목표 인식에 대한 모델 능력 향상
- 복잡한 장면 처리를 위한 검색 전략 최적화
- 다른 산업 안전 분야로 확장
- 높은 혁신성: 검색 강화 생성을 건설현장 위험 식별에 처음 적용하여 미세조정 없이 성능을 현저히 향상시킵니다
- 높은 실용 가치: 실제 공학 문제를 해결하며 매우 강한 응용 전망을 가집니다
- 충분한 실험: 다양한 모델에서 체계적 평가를 수행하며, 소거 실험 및 카테고리 수준 분석을 포함합니다
- 방법의 범용성: 프레임워크 설계가 범용적이며 다른 안전 감지 분야로 확장 가능합니다
- 데이터셋 규모: Rwecd 데이터셋이 상대적으로 작아(325개 이미지) 결론의 보편성을 제한할 수 있습니다
- 카테고리 불균형: 일부 위험 카테고리 샘플이 너무 적어 이들 카테고리의 성능 평가에 영향을 미칩니다
- 계산 효율성: 검색 과정의 계산 오버헤드 및 실시간성에 대한 상세 분석이 부족합니다
- 오류 분석: 실패 사례에 대한 심층 분석이 부족합니다
- 학술 기여: 다중모달 대모델의 수직 분야 응용에 새로운 사고를 제공합니다
- 공학 가치: 건설현장 안전 관리에 실용적 기술 방안을 제공합니다
- 방법 영감: 검색 강화 프레임워크가 다른 분야의 관련 연구에 영감을 줄 수 있습니다
- 건설현장 안전 모니터링: 실시간 또는 정기적 위험 감지
- 안전 교육: 위험 유형 식별 및 학습을 돕는 보조 도구로 사용
- 규정 준수 검사: 안전 관리 인원의 표준화 검사 지원
- 다른 산업 장면: 광산, 화학 등 다른 고위험 산업으로 확장 가능
논문은 전통적 컴퓨터 비전 방법, 다중모달 학습, 검색 강화 생성 등 다양한 연구 방향을 포함한 많은 관련 연구를 인용하여 연구에 견고한 이론적 기초를 제공합니다.
종합 평가: 이는 높은 품질의 응용형 연구 논문으로, 제안된 RDRAG 프레임워크는 혁신성과 실용성을 가지며, 실험 설계가 합리적이고 결과가 설득력 있습니다. 데이터 규모 및 일부 기술 세부사항에서 개선 여지가 있지만, 다중모달 대모델의 산업 안전 분야 응용에 가치 있는 기여를 제공합니다.