2025-11-14T12:40:11.870251

Leveraging LLMs to Streamline the Review of Public Funding Applications

Marques, Duarte, Carvalho et al.
Every year, the European Union and its member states allocate millions of euros to fund various development initiatives. However, the increasing number of applications received for these programs often creates significant bottlenecks in evaluation processes, due to limited human capacity. In this work, we detail the real-world deployment of AI-assisted evaluation within the pipeline of two government initiatives: (i) corporate applications aimed at international business expansion, and (ii) citizen reimbursement claims for investments in energy-efficient home improvements. While these two cases involve distinct evaluation procedures, our findings confirm that AI effectively enhanced processing efficiency and reduced workload across both types of applications. Specifically, in the citizen reimbursement claims initiative, our solution increased reviewer productivity by 20.1%, while keeping a negligible false-positive rate based on our test set observations. These improvements resulted in an overall reduction of more than 2 months in the total evaluation time, illustrating the impact of AI-driven automation in large-scale evaluation workflows.
academic

Leveraging LLMs to Streamline the Review of Public Funding Applications

基本信息

  • 论文ID: 2510.09674
  • 标题: Leveraging LLMs to Streamline the Review of Public Funding Applications
  • 作者: João D.S. Marques, André V. Duarte, André Carvalho, Gil Rocha, Bruno Martins, Arlindo L. Oliveira
  • 分类: cs.CY cs.AI
  • 发表时间: 2025年10月8日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2510.09674

摘要

每年,欧盟及其成员国投入数百万欧元资助各种发展倡议。然而,这些项目收到的申请数量不断增加,由于人力资源有限,往往在评估过程中造成严重瓶颈。本研究详细介绍了在两个政府倡议管道中部署AI辅助评估的实际情况:(i) 针对国际业务扩张的企业申请,(ii) 公民在节能家居改善投资方面的报销申请。虽然这两种情况涉及不同的评估程序,但研究发现AI有效提高了处理效率,减少了两种申请类型的工作量。具体而言,在公民报销申请倡议中,该解决方案将审查员生产力提高了20.1%,同时基于测试集观察保持了可忽略的误报率。这些改进使总评估时间减少了2个多月,展示了AI驱动自动化在大规模评估工作流程中的影响。

研究背景与动机

问题定义

本研究要解决的核心问题是欧盟公共资助项目评估中的效率瓶颈。随着申请数量的激增,传统的人工评估方式已经无法满足处理需求,导致评估周期过长、申请人满意度下降,最终影响公众对这些倡议效率的信心。

问题重要性

公共资助项目是推动经济增长、可持续发展和创新的重要工具。评估效率的低下不仅影响资金分配的及时性,还可能导致优质项目错失机会,影响整体政策目标的实现。

现有方法局限性

传统的文档审查依赖于基于规则的自然语言处理和光学字符识别技术,这些方法在受控环境中表现良好,但对文档结构和内容的变化高度敏感,难以维护且难以扩展到更广泛的应用。

研究动机

大型语言模型(LLMs)的出现为自动化文档处理提供了前所未有的灵活性和适应性。本研究旨在探索如何在保证人工监督的前提下,利用LLMs提高公共资助申请评估的效率和一致性。

核心贡献

  1. 实际部署经验报告:首次报告了两个AI辅助文档评估系统的成功部署,展示了自动化如何在确保决策完整性的人工监督下加速申请分析。
  2. 实际效果验证:在ReClaim倡议中实现了20.1%的审查员生产力提升,总评估时间减少超过2个月。
  3. 最佳实践总结:基于真实世界部署经验,提供了将AI模型集成到类似环境中的最佳实践和关键经验教训。
  4. 双重场景验证:通过两个不同类型的政府倡议(企业国际化申请和公民节能改造报销)验证了AI辅助评估的普适性。

方法详解

任务定义

研究涉及两个不同的任务:

  1. IExp任务:企业国际化申请的综合评估,包括文档摘要生成、内部一致性检测和初步评分
  2. ReClaim任务:公民节能改造报销申请的文档验证,主要进行申请信息与支持文档的一致性检查

系统架构

IExp系统架构

  • 输入:平均30,000个token的企业申请文档(超过50页)
  • 核心模型:GPT-4o
  • 处理流程
    1. 文档分段和过滤,避免LLM上下文过载
    2. 基于评估团队专业知识识别每个任务的关键字段
    3. 自动化6个最耗时的评估任务
  • 输出:应用摘要、一致性报告、初步评分和理由

ReClaim系统架构

  • 输入:约80,000份申请,每份平均11个支持文档
  • 混合处理管道
    1. 文档标准化:仅支持PDF、ZIP、PNG等广泛使用的文件格式
    2. XML转换:将用户表单字段转换为结构化XML格式
    3. VLM信息提取:使用GPT-4o解析非结构化支持文档
    4. 自动一致性检查:比较提取信息与申请人报告值
  • 输出:预填充的验证清单,标记需要人工检查的项目

技术创新点

  1. 人机协作设计:系统输出仅作为建议,确保人工审查员始终保持监督和问责权
  2. 任务特定优化:针对不同类型的评估任务采用定制化解决方案
  3. 成本效益平衡:通过目标输入和任务优先级实现成本控制
  4. GDPR合规:数据处理完全在EU边界内进行,存储在加密本地磁盘上

实验设置

数据集

  1. IExp数据集
    • 概念验证:50个来自过往调用的申请
    • 当前评估:11个使用AI工具支持的申请
    • 活动分类:764个过往申请
  2. ReClaim数据集
    • 总申请数:约80,000份
    • 测试集:200个样本,均匀分布在各个类型中
    • 文档总数:约880,000个文档

评价指标

  1. IExp指标
    • 摘要对齐:余弦相似度、ROUGE-L、BLEU、METEOR
    • 活动分类一致性:审查员与LLM的一致性水平
  2. ReClaim指标
    • 生产力提升:处理时间减少百分比
    • 自动验证率:无需人工验证的字段比例
    • 准确性:正确、轻微错误、误报、漏报、读取错误的比例

对比方法

  • 模型选择:GPT-4o vs Gemini-1.5 Pro的盲测对比
  • 处理方式:AI辅助 vs 纯人工处理的效果对比

实验结果

主要结果

IExp系统结果

  1. 摘要对齐显著改善
    • 余弦相似度从0.77提升至0.99
    • ROUGE-L、BLEU和METEOR指标均从0.35以下提升至0.9以上
  2. 活动分类一致性
    • LLM与审查员的一致性约为70%
    • LLM与候选人的一致性更高

ReClaim系统结果

  1. 生产力提升:审查员生产力提高约20%
  2. 自动验证效果
    • 总体自动验证率:76%
    • 各部分验证率:资格审查84%,公共核心76%,类型审查67%
  3. 准确性分析
    • 正确率:88%
    • 轻微错误:5%
    • 误报:0%
    • 漏报:3%
    • 读取错误:4%

系统影响分析

部署AI系统后的积极影响:

  • 澄清请求/申请:从2.13降至2.05
  • 申请人上诉率:从25.8%降至20.4%

用户反馈

  1. IExp任务:评估员估计AI辅助可将审查过程加速高达30%
  2. ReClaim任务:反馈呈两极分化
    • 参与开发的审查员表示强烈赞赏
    • 经验丰富的审查员估计节省时间高达40%
    • 部分审查员在遇到错误后失去信心

相关工作

传统文档处理方法

传统自动化文档审查依赖于基于规则的NLP和OCR技术,在受控环境中表现良好,但对文档结构变化敏感,维护困难。

LLM驱动的文档处理

  • 法律领域:LLM工具能够快速审查和提取各种法律文本
  • 人力资源:从基础关键词分析演变为复杂的候选人-角色匹配
  • 公共管理:从传统机器学习解决方案向生成式AI和LLM集成转变

人机协作趋势

由于偏见、透明度不足或过度依赖无监督自动化导致的失败案例,大多数组织现在在关键决策点嵌入明确的人机协作审查。

结论与讨论

主要结论

  1. 技术可行性:LLMs已经足够成熟,能够显著支持申请审查过程
  2. 效率提升显著:在适当集成的人机协作管道中,LLMs可以大幅加速评估工作流程
  3. 一致性改善:AI辅助有助于提高审查员输出的统一性

关键经验教训

组织和监管障碍

  • 官僚主义往往是延迟和降低解决方案质量的主要原因
  • 第三方平台所有权限制了系统修改能力
  • 严格的GDPR要求缩小了可行模型的范围
  • 复杂的多步授权工作流程延迟了数据访问

两极化采用模式

  • 审查员往往分为两组:愿意使用工具并关注其优势的人,以及在系统出错时变得非常谨慎或批评的人
  • 有效的变更管理对成功实施至关重要

高实际应用潜力

  • 大规模部署速度远快于人工评估
  • ReClaim系统在不到三周内处理了约80,000份申请
  • 随着模型持续改进,完全自动化评估变得越来越可行

局限性

  1. IExp系统:受限于无法访问过往申请或外部数据库
  2. ReClaim系统:面临文档格式不一致和低质量文件提交的挑战
  3. 适用范围:约10%的文档因格式不支持而被排除在自动解析之外

深度评价

优点

  1. 实际部署价值:这是少数报告真实世界LLM部署经验的研究,具有重要的实践指导意义
  2. 全面的评估体系:从技术指标到用户反馈,从效率提升到系统影响,评估维度全面
  3. 双重场景验证:通过两个不同类型的应用场景验证了方法的普适性
  4. 诚实的经验分享:客观报告了部署中遇的挑战和失败经验

不足

  1. 技术创新有限:主要是现有LLM技术的应用,缺乏算法层面的创新
  2. 评估规模受限:测试集规模相对较小,特别是IExp任务的11个样本
  3. 长期效果未知:部署时间仅3个月,长期效果和稳定性有待验证
  4. 成本效益分析不足:缺乏详细的成本效益分析和ROI计算

影响力

  1. 政策制定参考:为政府部门采用AI技术提供了重要参考
  2. 实践指导价值:为类似场景的AI部署提供了宝贵经验
  3. 跨领域应用:方法可推广到其他需要大规模文档处理的领域

适用场景

  1. 政府机构:各类申请审批、文档审查流程
  2. 金融机构:贷款申请、合规审查
  3. 教育机构:申请材料审核、学术评估
  4. 企业组织:内部文档审查、供应商评估

参考文献

论文引用了多个重要参考文献,包括:

  • OpenAI GPT-4o系统卡片 (2024)
  • 欧盟人工智能法案相关文档
  • LLM在各领域应用的相关研究
  • 人机协作和负责任AI部署的最佳实践研究

总体评价:这是一篇具有重要实践价值的应用研究论文。虽然在技术创新方面相对有限,但其真实世界部署经验和全面的效果评估为AI在公共部门的应用提供了宝贵的参考。论文的诚实性和实用性使其成为该领域的重要贡献。