2025-11-14T12:40:11.870251

Leveraging LLMs to Streamline the Review of Public Funding Applications

Marques, Duarte, Carvalho et al.

Every year, the European Union and its member states allocate millions of euros to fund various development initiatives. However, the increasing number of applications received for these programs often creates significant bottlenecks in evaluation processes, due to limited human capacity. In this work, we detail the real-world deployment of AI-assisted evaluation within the pipeline of two government initiatives: (i) corporate applications aimed at international business expansion, and (ii) citizen reimbursement claims for investments in energy-efficient home improvements. While these two cases involve distinct evaluation procedures, our findings confirm that AI effectively enhanced processing efficiency and reduced workload across both types of applications. Specifically, in the citizen reimbursement claims initiative, our solution increased reviewer productivity by 20.1%, while keeping a negligible false-positive rate based on our test set observations. These improvements resulted in an overall reduction of more than 2 months in the total evaluation time, illustrating the impact of AI-driven automation in large-scale evaluation workflows.

academic

대규모 공공자금 신청서 검토 효율화를 위한 LLM 활용

기본정보

논문ID: 2510.09674
제목: Leveraging LLMs to Streamline the Review of Public Funding Applications
저자: João D.S. Marques, André V. Duarte, André Carvalho, Gil Rocha, Bruno Martins, Arlindo L. Oliveira
분류: cs.CY cs.AI
발표일시: 2025년 10월 8일 (arXiv 사전인쇄본)
논문링크: https://arxiv.org/abs/2510.09674

초록

매년 유럽연합 및 회원국들은 다양한 개발 이니셔티브에 수백만 유로를 투자하고 있습니다. 그러나 이러한 프로그램이 받는 신청서 수량이 지속적으로 증가하면서 제한된 인적자원으로 인해 평가 과정에서 심각한 병목 현상이 발생하고 있습니다. 본 연구는 두 개의 정부 이니셔티브 파이프라인에서 AI 보조 평가를 배포한 실제 사례를 상세히 설명합니다: (i) 국제 사업 확장을 위한 기업 신청서, (ii) 에너지 효율 주택 개선 투자에 대한 시민 환급 신청서. 이 두 가지 경우가 서로 다른 평가 절차를 포함하고 있음에도 불구하고, 본 연구는 AI가 처리 효율성을 효과적으로 향상시키고 두 가지 신청서 유형의 업무량을 감소시킨다는 것을 발견했습니다. 구체적으로, 시민 환급 신청서 이니셔티브에서 이 솔루션은 검토자 생산성을 20.1% 향상시키면서 테스트 세트 관찰을 기반으로 무시할 수 있는 수준의 거짓 양성률을 유지했습니다. 이러한 개선으로 총 평가 시간이 2개월 이상 단축되었으며, 대규모 평가 워크플로우에서 AI 기반 자동화의 영향을 입증합니다.

연구 배경 및 동기

문제 정의

본 연구가 해결하고자 하는 핵심 문제는 유럽연합 공공자금 프로젝트 평가의 효율성 병목 현상입니다. 신청서 수량의 급증으로 인해 전통적인 인력 평가 방식이 처리 수요를 충족하지 못하고 있으며, 이는 평가 주기의 연장, 신청자 만족도 저하, 궁극적으로 이러한 이니셔티브의 효율성에 대한 대중의 신뢰도 하락으로 이어지고 있습니다.

문제의 중요성

공공자금 프로젝트는 경제 성장, 지속 가능한 발전 및 혁신을 추진하는 중요한 도구입니다. 평가 효율성의 저하는 자금 배분의 적시성에 영향을 미칠 뿐만 아니라 우수 프로젝트의 기회 상실을 초래할 수 있으며, 전반적인 정책 목표 달성에 영향을 미칩니다.

기존 방법의 한계

전통적인 문서 검토는 규칙 기반 자연어처리 및 광학 문자 인식 기술에 의존하고 있습니다. 이러한 방법들은 통제된 환경에서는 우수한 성능을 보이지만, 문서 구조 및 내용의 변화에 매우 민감하며 유지보수가 어렵고 더 광범위한 응용으로의 확장이 어렵습니다.

연구 동기

대규모 언어모델(LLMs)의 출현은 자동화된 문서 처리에 전례 없는 유연성과 적응성을 제공합니다. 본 연구는 인적 감시를 보장하는 전제 하에서 LLM을 활용하여 공공자금 신청서 평가의 효율성과 일관성을 향상시키는 방법을 탐색하는 것을 목표로 합니다.

핵심 기여

실제 배포 경험 보고: 두 개의 AI 보조 문서 평가 시스템의 성공적인 배포를 처음으로 보고하며, 의사결정 무결성을 보장하는 인적 감시 하에서 자동화가 신청서 분석을 어떻게 가속화하는지 보여줍니다.
실제 효과 검증: ReClaim 이니셔티브에서 검토자 생산성 21.0% 향상을 달성하고 총 평가 시간을 2개월 이상 단축했습니다.
모범 사례 요약: 실제 배포 경험을 바탕으로 유사한 환경에 AI 모델을 통합하기 위한 모범 사례 및 핵심 교훈을 제시합니다.
이중 시나리오 검증: 두 가지 서로 다른 유형의 정부 이니셔티브(기업 국제화 신청서 및 시민 에너지 효율 개선 환급)를 통해 AI 보조 평가의 보편성을 검증합니다.

방법론 상세 설명

작업 정의

본 연구는 두 가지 서로 다른 작업을 포함합니다:

IExp 작업: 기업 국제화 신청서의 종합 평가로, 문서 요약 생성, 내부 일관성 감지 및 초기 평가 포함
ReClaim 작업: 시민 에너지 효율 개선 환급 신청서의 문서 검증으로, 주로 신청 정보와 지원 문서의 일관성 확인

시스템 아키텍처

IExp 시스템 아키텍처

입력: 평균 30,000개 토큰의 기업 신청서 문서(50페이지 이상)
핵심 모델: GPT-4o
처리 흐름:
1. 문서 분할 및 필터링으로 LLM 컨텍스트 과부하 방지
2. 평가 팀의 전문 지식을 바탕으로 각 작업의 핵심 필드 식별
3. 가장 시간이 많이 소요되는 6개 평가 작업 자동화
출력: 신청서 요약, 일관성 보고서, 초기 평가 및 근거

ReClaim 시스템 아키텍처

입력: 약 80,000개 신청서, 신청서당 평균 11개 지원 문서
혼합 처리 파이프라인:
1. 문서 표준화: PDF, ZIP, PNG 등 광범위하게 사용되는 파일 형식만 지원
2. XML 변환: 사용자 양식 필드를 구조화된 XML 형식으로 변환
3. VLM 정보 추출: GPT-4o를 사용하여 비정형 지원 문서 파싱
4. 자동 일관성 검사: 추출된 정보와 신청자 보고 값 비교
출력: 사전 작성된 검증 체크리스트로 인적 검토가 필요한 항목 표시

기술 혁신 포인트

인간-기계 협력 설계: 시스템 출력은 제안으로만 기능하며, 인적 검토자가 항상 감시 및 책임 권한을 유지하도록 보장합니다.
작업별 최적화: 다양한 유형의 평가 작업에 맞춤형 솔루션을 적용합니다.
비용 효율성 균형: 목표 입력 및 작업 우선순위를 통해 비용 관리를 실현합니다.
GDPR 준수: 데이터 처리는 EU 경계 내에서 완전히 수행되며 암호화된 로컬 디스크에 저장됩니다.

실험 설정

데이터셋

IExp 데이터셋:
- 개념 증명: 과거 공고에서 50개 신청서
- 현재 평가: AI 도구 지원을 받는 11개 신청서
- 활동 분류: 과거 764개 신청서
ReClaim 데이터셋:
- 총 신청서 수: 약 80,000개
- 테스트 세트: 200개 샘플, 각 유형에 균등 분포
- 총 문서 수: 약 880,000개 문서

평가 지표

IExp 지표:
- 요약 정렬: 코사인 유사도, ROUGE-L, BLEU, METEOR
- 활동 분류 일관성: 검토자와 LLM의 일관성 수준
ReClaim 지표:
- 생산성 향상: 처리 시간 감소 백분율
- 자동 검증률: 인적 검증이 필요 없는 필드 비율
- 정확성: 정확, 경미한 오류, 거짓 양성, 누락, 읽기 오류의 비율

비교 방법

모델 선택: GPT-4o vs Gemini-1.5 Pro의 블라인드 테스트 비교
처리 방식: AI 보조 vs 순수 인력 처리의 효과 비교

실험 결과

주요 결과

IExp 시스템 결과

요약 정렬의 현저한 개선:
- 코사인 유사도가 0.77에서 0.99로 향상
- ROUGE-L, BLEU 및 METEOR 지표 모두 0.35 이하에서 0.9 이상으로 향상
활동 분류 일관성:
- LLM과 검토자의 일관성 약 70%
- LLM과 후보자의 일관성이 더 높음

ReClaim 시스템 결과

생산성 향상: 검토자 생산성 약 20% 향상
자동 검증 효과:
- 전체 자동 검증률: 76%
- 각 부분 검증률: 자격 심사 84%, 공개 핵심 76%, 유형 심사 67%
정확성 분석:
- 정확률: 88%
- 경미한 오류: 5%
- 거짓 양성: 0%
- 누락: 3%
- 읽기 오류: 4%

시스템 영향 분석

AI 시스템 배포 후의 긍정적 영향:

명확화 요청/신청: 2.13에서 2.05로 감소
신청자 항소율: 25.8%에서 20.4%로 감소

사용자 피드백

IExp 작업: 평가자들은 AI 보조가 검토 과정을 최대 30%까지 가속화할 수 있다고 추정
ReClaim 작업: 피드백이 양극화됨
- 개발에 참여한 검토자는 강한 찬성 표시
- 경험 많은 검토자는 최대 40%의 시간 절감 추정
- 일부 검토자는 오류 발생 후 신뢰도 상실

결론 및 논의

주요 결론

기술적 타당성: LLM은 신청서 검토 과정을 상당히 지원할 수 있을 만큼 충분히 성숙했습니다.
효율성 향상 현저함: 적절히 통합된 인간-기계 협력 파이프라인에서 LLM은 평가 워크플로우를 크게 가속화할 수 있습니다.
일관성 개선: AI 보조는 검토자 산출물의 균일성 향상에 도움이 됩니다.

핵심 교훈

조직 및 규제 장애물

관료주의는 종종 지연 및 솔루션 품질 저하의 주요 원인입니다.
제3자 플랫폼 소유권은 시스템 수정 능력을 제한합니다.
엄격한 GDPR 요구사항은 실행 가능한 모델의 범위를 축소합니다.
복잡한 다단계 승인 워크플로우는 데이터 접근을 지연시킵니다.

양극화된 채택 패턴

검토자는 종종 두 그룹으로 나뉩니다: 도구 사용을 기꺼이 하고 장점에 집중하는 사람들과 시스템 오류 시 매우 신중하거나 비판적이 되는 사람들
효과적인 변화 관리는 성공적인 구현에 필수적입니다.

높은 실제 응용 잠재력

대규모 배포 속도는 인력 평가보다 훨씬 빠릅니다.
ReClaim 시스템은 3주 미만에 약 80,000개 신청서를 처리했습니다.
모델이 계속 개선됨에 따라 완전 자동화 평가가 점점 더 가능해지고 있습니다.

한계

IExp 시스템: 과거 신청서 또는 외부 데이터베이스에 접근할 수 없음으로 제한됨
ReClaim 시스템: 문서 형식 불일치 및 저품질 파일 제출의 과제에 직면
적용 범위: 약 10%의 문서는 지원되지 않는 형식으로 인해 자동 파싱에서 제외됨

심층 평가

장점

실제 배포 가치: 실제 LLM 배포 경험을 보고하는 소수의 연구 중 하나로, 중요한 실무 지도 가치를 가집니다.
포괄적 평가 체계: 기술 지표에서 사용자 피드백, 효율성 향상에서 시스템 영향까지 평가 차원이 포괄적입니다.
이중 시나리오 검증: 두 가지 서로 다른 응용 시나리오를 통해 방법의 보편성을 검증합니다.
솔직한 경험 공유: 배포 중 직면한 과제 및 실패 경험을 객관적으로 보고합니다.

부족한 점

기술 혁신 제한적: 주로 기존 LLM 기술의 응용으로, 알고리즘 수준의 혁신이 부족합니다.
평가 규모 제한: 테스트 세트 규모가 상대적으로 작으며, 특히 IExp 작업의 11개 샘플
장기 효과 미지수: 배포 기간이 3개월에 불과하여 장기 효과 및 안정성은 추가 검증 필요
비용 효율성 분석 부족: 상세한 비용 효율성 분석 및 ROI 계산이 부족합니다.

영향력

정책 수립 참고: 정부 부서의 AI 기술 채택을 위한 중요한 참고자료 제공
실무 지도 가치: 유사한 시나리오의 AI 배포를 위한 귀중한 경험 제공
교차 분야 응용: 방법은 대규모 문서 처리가 필요한 다른 분야로 확대 가능

적용 시나리오

정부 기관: 각종 신청 승인, 문서 검토 프로세스
금융 기관: 대출 신청, 규정 준수 검토
교육 기관: 신청 자료 심사, 학술 평가
기업 조직: 내부 문서 검토, 공급업체 평가

참고문헌

논문은 다음을 포함한 여러 중요 참고문헌을 인용합니다:

OpenAI GPT-4o 시스템 카드 (2024)
유럽연합 인공지능법 관련 문서
다양한 분야의 LLM 응용 관련 연구
인간-기계 협력 및 책임 있는 AI 배포의 모범 사례 연구

종합 평가: 본 논문은 중요한 실무 가치를 지닌 응용 연구 논문입니다. 기술 혁신 측면에서는 상대적으로 제한적이지만, 실제 배포 경험과 포괄적인 효과 평가는 공공 부문의 AI 응용을 위한 귀중한 참고자료를 제공합니다. 논문의 솔직성과 실용성은 이를 해당 분야의 중요한 기여로 만듭니다.