2025-11-14T12:40:11.870251

Leveraging LLMs to Streamline the Review of Public Funding Applications

Marques, Duarte, Carvalho et al.
Every year, the European Union and its member states allocate millions of euros to fund various development initiatives. However, the increasing number of applications received for these programs often creates significant bottlenecks in evaluation processes, due to limited human capacity. In this work, we detail the real-world deployment of AI-assisted evaluation within the pipeline of two government initiatives: (i) corporate applications aimed at international business expansion, and (ii) citizen reimbursement claims for investments in energy-efficient home improvements. While these two cases involve distinct evaluation procedures, our findings confirm that AI effectively enhanced processing efficiency and reduced workload across both types of applications. Specifically, in the citizen reimbursement claims initiative, our solution increased reviewer productivity by 20.1%, while keeping a negligible false-positive rate based on our test set observations. These improvements resulted in an overall reduction of more than 2 months in the total evaluation time, illustrating the impact of AI-driven automation in large-scale evaluation workflows.
academic

大規模言語モデル(LLM)を活用した公共資金申請審査の効率化

基本情報

  • 論文ID: 2510.09674
  • タイトル: Leveraging LLMs to Streamline the Review of Public Funding Applications
  • 著者: João D.S. Marques, André V. Duarte, André Carvalho, Gil Rocha, Bruno Martins, Arlindo L. Oliveira
  • 分類: cs.CY cs.AI
  • 発表日: 2025年10月8日 (arXivプレプリント)
  • 論文リンク: https://arxiv.org/abs/2510.09674

要旨

毎年、欧州連合およびその加盟国は、様々な開発イニシアティブに数百万ユーロを投資している。しかし、これらのプロジェクトが受け取る申請数は増加し続けており、限定的な人的資源のため、評価プロセスにおいて深刻なボトルネックが生じている。本研究は、2つの政府イニシアティブパイプラインにおけるAI支援評価の実装について詳述している:(i)国際ビジネス拡張を目的とした企業申請、(ii)省エネ住宅改修投資に関する市民払戻申請。これら2つのシナリオは異なる評価手続きを含むが、本研究はAIが処理効率を効果的に向上させ、両方の申請タイプの業務負荷を軽減することを発見した。具体的には、市民払戻申請イニシアティブにおいて、本ソリューションは審査官の生産性を20.1%向上させ、同時にテストセットの観察に基づいて無視できるレベルの誤検知率を維持した。これらの改善により、総評価時間は2ヶ月以上短縮され、大規模評価ワークフローにおけるAI駆動自動化の影響を実証した。

研究背景と動機

問題定義

本研究が解決すべき中核的な問題は、欧州連合の公共資金プロジェクト評価における効率性のボトルネックである。申請数の急増に伴い、従来の人工評価方式はもはや処理需要を満たすことができず、評価サイクルの延長、申請者の満足度低下、最終的にはこれらのイニシアティブの効率性に対する公衆の信頼低下をもたらしている。

問題の重要性

公共資金プロジェクトは、経済成長、持続可能な開発、およびイノベーションを推進するための重要なツールである。評価効率の低下は、資金配分のタイムリー性に影響するだけでなく、優良プロジェクトの機会喪失につながり、全体的な政策目標の達成に影響を及ぼす可能性がある。

既存手法の限界

従来の文書審査は、ルールベースの自然言語処理および光学文字認識技術に依存している。これらの手法は統制された環境では良好に機能するが、文書構造とコンテンツの変化に対して高度に敏感であり、保守が困難で、より広範なアプリケーションへの拡張が難しい。

研究動機

大規模言語モデル(LLM)の出現は、文書処理の自動化に前例のない柔軟性と適応性をもたらした。本研究は、人的監督を確保しながら、LLMを活用して公共資金申請評価の効率性と一貫性を向上させる方法を探索することを目的としている。

中核的貢献

  1. 実装経験の報告:2つのAI支援文書評価システムの成功した実装を初めて報告し、決定の完全性を確保する人的監督下で自動化がいかに申請分析を加速させるかを実証した。
  2. 実際の効果検証:ReClaim イニシアティブにおいて審査官の生産性を20.1%向上させ、総評価時間を2ヶ月以上短縮することを実現した。
  3. ベストプラクティスの要約:実世界の実装経験に基づいて、類似環境へのAIモデル統合のためのベストプラクティスと重要な教訓を提供した。
  4. 二重シナリオ検証:2つの異なるタイプの政府イニシアティブ(企業国際化申請および市民省エネ改修払戻)を通じて、AI支援評価の普遍性を検証した。

方法論の詳細

タスク定義

本研究は2つの異なるタスクを含む:

  1. IExpタスク:企業国際化申請の包括的評価。文書要約生成、内部一貫性検出、および初期スコアリングを含む
  2. ReClaim タスク:市民省エネ改修払戻申請の文書検証。主に申請情報と支援文書の一貫性チェックを実施

システムアーキテクチャ

IExp システムアーキテクチャ

  • 入力:平均30,000トークンの企業申請文書(50ページ以上)
  • コアモデル:GPT-4o
  • 処理フロー
    1. 文書セグメンテーションとフィルタリング。LLMコンテキストオーバーロードを回避
    2. 評価チームの専門知識に基づいて各タスクの重要フィールドを識別
    3. 最も時間を要する6つの評価タスクを自動化
  • 出力:アプリケーション要約、一貫性レポート、初期スコアリング、および根拠

ReClaim システムアーキテクチャ

  • 入力:約80,000件の申請。各申請あたり平均11の支援文書
  • ハイブリッド処理パイプライン
    1. 文書標準化:PDF、ZIP、PNG等の広く使用されているファイル形式のみをサポート
    2. XML変換:ユーザーフォームフィールドを構造化XML形式に変換
    3. VLM情報抽出:GPT-4oを使用して非構造化支援文書を解析
    4. 自動一貫性チェック:抽出情報と申請者報告値を比較
  • 出力:事前入力された検証チェックリスト。人的チェックが必要な項目をマーク

技術的革新点

  1. 人機協働設計:システム出力は提案としてのみ機能し、人的審査官が常に監督と説明責任を保持することを確保
  2. タスク特定最適化:異なるタイプの評価タスクに対してカスタマイズされたソリューションを採用
  3. 費用対効果のバランス:目標入力とタスク優先順位付けを通じたコスト管理を実現
  4. GDPR準拠:データ処理は完全にEU境界内で実施され、暗号化されたローカルディスクに保存

実験設定

データセット

  1. IExp データセット
    • 概念実証:過去の呼び出しからの50件の申請
    • 現在の評価:AI ツールでサポートされた11件の申請
    • アクティビティ分類:過去の764件の申請
  2. ReClaim データセット
    • 総申請数:約80,000件
    • テストセット:200サンプル。各タイプに均等に分布
    • 文書総数:約880,000件の文書

評価指標

  1. IExp 指標
    • 要約アライメント:コサイン類似度、ROUGE-L、BLEU、METEOR
    • アクティビティ分類一貫性:審査官とLLMの一貫性レベル
  2. ReClaim 指標
    • 生産性向上:処理時間削減率
    • 自動検証率:人的検証を必要としないフィールドの割合
    • 精度:正確、軽微エラー、誤検知、見落とし、読取エラーの割合

比較手法

  • モデル選択:GPT-4o対Gemini-1.5 Proのブラインドテスト比較
  • 処理方式:AI支援対純粋人工処理の効果比較

実験結果

主要結果

IExp システム結果

  1. 要約アライメントの大幅な改善
    • コサイン類似度が0.77から0.99に向上
    • ROUGE-L、BLEU、METEOR指標はすべて0.35以下から0.9以上に向上
  2. アクティビティ分類一貫性
    • LLMと審査官の一貫性は約70%
    • LLMと候補者の一貫性はさらに高い

ReClaim システム結果

  1. 生産性向上:審査官の生産性は約20%向上
  2. 自動検証効果
    • 全体自動検証率:76%
    • 各部分検証率:適格性審査84%、公開コア76%、タイプ審査67%
  3. 精度分析
    • 正確率:88%
    • 軽微エラー:5%
    • 誤検知:0%
    • 見落とし:3%
    • 読取エラー:4%

システム影響分析

AI システム導入後の肯定的な影響:

  • 明確化要求/申請:2.13から2.05に低下
  • 申請者上訴率:25.8%から20.4%に低下

ユーザーフィードバック

  1. IExp タスク:評価者はAI支援により審査プロセスを最大30%加速できると推定
  2. ReClaim タスク:フィードバックは二極化
    • 開発に参加した審査官は強い支持を表明
    • 経験豊富な審査官は最大40%の時間節約を推定
    • 一部の審査官はエラー発生後に信頼を失った

関連研究

従来の文書処理手法

従来の自動文書審査は、ルールベースのNLPおよびOCR技術に依存している。統制された環境では良好に機能するが、文書構造の変化に敏感で、保守が困難である。

LLM駆動の文書処理

  • 法律分野:LLMツールは様々な法的文書の迅速な審査と抽出が可能
  • 人的資源:基本的なキーワード分析から複雑な候補者-職務マッチングへの進化
  • 公共管理:従来の機械学習ソリューションから生成型AIおよびLLM統合への転換

人機協働の傾向

バイアス、透明性不足、または無監督自動化への過度な依存による失敗事例のため、ほとんどの組織は現在、重要な決定ポイントに明示的な人機協働審査を組み込んでいる。

結論と考察

主要な結論

  1. 技術的実現可能性:LLMは申請審査プロセスを大幅にサポートするのに十分成熟している
  2. 効率向上は顕著:適切に統合された人機協働パイプラインでは、LLMは評価ワークフローを大幅に加速できる
  3. 一貫性の改善:AI支援は審査官出力の統一性向上に役立つ

重要な教訓

組織的および規制的障害

  • 官僚主義はしばしば遅延とソリューション品質低下の主要な原因
  • 第三者プラットフォーム所有権はシステム修正能力を制限
  • 厳格なGDPR要件は実行可能なモデルの範囲を縮小
  • 複雑な多段階承認ワークフローはデータアクセスを遅延

二極化した採用パターン

  • 審査官はしばしば2つのグループに分かれる:ツール使用に積極的でその利点に焦点を当てる者と、システムエラー時に非常に慎重または批判的になる者
  • 効果的な変更管理は成功した実装に不可欠

高い実用的応用可能性

  • 大規模展開速度は人工評価をはるかに上回る
  • ReClaim システムは3週間以内に約80,000件の申請を処理
  • モデルの継続的改善に伴い、完全自動化評価はますます実行可能になる

限界

  1. IExp システム:過去の申請または外部データベースへのアクセス不可に制限
  2. ReClaim システム:文書形式の不一貫性と低品質ファイル提出の課題に直面
  3. 適用範囲:約10%の文書は形式非対応のため自動解析から除外

深層評価

強み

  1. 実装の実用的価値:実世界のLLM展開経験を報告する数少ない研究の1つであり、重要な実践的指導価値を有する
  2. 包括的な評価体系:技術指標からユーザーフィードバック、効率向上からシステム影響まで、評価次元が包括的
  3. 二重シナリオ検証:2つの異なるアプリケーションシナリオを通じて方法の普遍性を検証
  4. 誠実な経験共有:展開で遭遇した課題と失敗経験を客観的に報告

不足

  1. 技術的革新は限定的:主に既存LLM技術の応用であり、アルゴリズムレベルの革新に欠ける
  2. 評価規模は制限的:テストセット規模は相対的に小さく、特にIExpタスクの11サンプル
  3. 長期効果は未知:展開期間はわずか3ヶ月であり、長期効果と安定性は検証待ち
  4. 費用対効果分析は不十分:詳細な費用対効果分析とROI計算に欠ける

影響力

  1. 政策立案の参考:政府部門によるAI技術採用に重要な参考を提供
  2. 実践的指導価値:類似シナリオのAI展開に貴重な経験を提供
  3. 分野横断的応用:大規模文書処理を必要とする他の分野への方法の推広が可能

適用シナリオ

  1. 政府機関:各種申請承認、文書審査プロセス
  2. 金融機関:ローン申請、コンプライアンス審査
  3. 教育機関:申請書類審査、学術評価
  4. 企業組織:内部文書審査、サプライヤー評価

参考文献

論文は複数の重要な参考文献を引用している。以下を含む:

  • OpenAI GPT-4o システムカード (2024)
  • 欧州連合人工知能法案関連文書
  • 各分野におけるLLM応用に関する研究
  • 人機協働および責任あるAI展開のベストプラクティス研究

総合評価:これは重要な実践的価値を有する応用研究論文である。技術的革新の面では相対的に限定的であるが、その実世界展開経験と包括的な効果評価は、公共部門におけるAI応用に貴重な参考を提供する。論文の誠実性と実用性は、本分野への重要な貢献となっている。