2025-11-14T12:40:11.870251

Leveraging LLMs to Streamline the Review of Public Funding Applications

Marques, Duarte, Carvalho et al.
Every year, the European Union and its member states allocate millions of euros to fund various development initiatives. However, the increasing number of applications received for these programs often creates significant bottlenecks in evaluation processes, due to limited human capacity. In this work, we detail the real-world deployment of AI-assisted evaluation within the pipeline of two government initiatives: (i) corporate applications aimed at international business expansion, and (ii) citizen reimbursement claims for investments in energy-efficient home improvements. While these two cases involve distinct evaluation procedures, our findings confirm that AI effectively enhanced processing efficiency and reduced workload across both types of applications. Specifically, in the citizen reimbursement claims initiative, our solution increased reviewer productivity by 20.1%, while keeping a negligible false-positive rate based on our test set observations. These improvements resulted in an overall reduction of more than 2 months in the total evaluation time, illustrating the impact of AI-driven automation in large-scale evaluation workflows.
academic

Exploiter les LLMs pour Rationaliser l'Examen des Demandes de Financement Public

Informations Fondamentales

  • ID de l'article : 2510.09674
  • Titre : Leveraging LLMs to Streamline the Review of Public Funding Applications
  • Auteurs : João D.S. Marques, André V. Duarte, André Carvalho, Gil Rocha, Bruno Martins, Arlindo L. Oliveira
  • Classification : cs.CY cs.AI
  • Date de publication : 8 octobre 2025 (prépublication arXiv)
  • Lien de l'article : https://arxiv.org/abs/2510.09674

Résumé

Chaque année, l'Union européenne et ses États membres investissent des millions d'euros pour financer diverses initiatives de développement. Cependant, le nombre de demandes reçues pour ces projets augmente continuellement, et en raison des ressources humaines limitées, cela crée souvent des goulots d'étranglement importants dans le processus d'évaluation. Cette recherche détaille le déploiement pratique de l'évaluation assistée par IA dans deux pipelines d'initiatives gouvernementales : (i) les demandes d'entreprises pour l'expansion commerciale internationale, et (ii) les demandes de remboursement des citoyens pour les investissements en amélioration énergétique du logement. Bien que ces deux cas impliquent des procédures d'évaluation différentes, l'étude constate que l'IA améliore efficacement l'efficacité du traitement et réduit la charge de travail pour les deux types de demandes. Spécifiquement, dans l'initiative de remboursement des citoyens, la solution a augmenté la productivité des examinateurs de 20,1 %, tout en maintenant un taux de faux positifs négligeable selon les observations de l'ensemble de test. Ces améliorations ont réduit le temps d'évaluation total de plus de deux mois, démontrant l'impact de l'automatisation basée sur l'IA dans les flux de travail d'évaluation à grande échelle.

Contexte et Motivation de la Recherche

Définition du Problème

Le problème fondamental que cette recherche vise à résoudre est le goulot d'étranglement d'efficacité dans l'évaluation des projets de financement public de l'Union européenne. Avec la multiplication des demandes, les méthodes d'évaluation manuelle traditionnelles ne peuvent plus répondre aux besoins de traitement, entraînant des cycles d'évaluation prolongés, une diminution de la satisfaction des demandeurs et, finalement, une perte de confiance du public dans l'efficacité de ces initiatives.

Importance du Problème

Les projets de financement public sont des outils essentiels pour stimuler la croissance économique, le développement durable et l'innovation. L'inefficacité de l'évaluation affecte non seulement la rapidité de l'allocation des fonds, mais peut également entraîner la perte d'opportunités pour les projets de qualité, compromettant la réalisation des objectifs politiques globaux.

Limitations des Approches Existantes

L'examen traditionnel des documents repose sur le traitement du langage naturel basé sur des règles et la technologie de reconnaissance optique de caractères, qui fonctionnent bien dans des environnements contrôlés, mais sont hautement sensibles aux variations de structure et de contenu des documents, difficiles à maintenir et difficiles à étendre à des applications plus larges.

Motivation de la Recherche

L'émergence des grands modèles de langage (LLMs) offre une flexibilité et une adaptabilité sans précédent pour l'automatisation du traitement des documents. Cette recherche vise à explorer comment exploiter les LLMs pour améliorer l'efficacité et la cohérence de l'évaluation des demandes de financement public, tout en garantissant la supervision humaine.

Contributions Principales

  1. Rapport d'expérience de déploiement pratique : Premier rapport sur le déploiement réussi de deux systèmes d'évaluation de documents assistés par IA, démontrant comment l'automatisation peut accélérer l'analyse des demandes tout en assurant l'intégrité des décisions par la supervision humaine.
  2. Validation des effets pratiques : Réalisation d'une amélioration de 20,1 % de la productivité des examinateurs dans l'initiative ReClaim, avec une réduction du temps d'évaluation total de plus de deux mois.
  3. Synthèse des meilleures pratiques : Fourniture de meilleures pratiques et d'enseignements clés pour l'intégration des modèles d'IA dans des environnements similaires, basée sur l'expérience de déploiement réel.
  4. Validation sur scénarios doubles : Vérification de l'universalité de l'évaluation assistée par IA à travers deux types différents d'initiatives gouvernementales (demandes d'internationalisation d'entreprises et remboursements de rénovation énergétique pour citoyens).

Détail de la Méthodologie

Définition des Tâches

La recherche implique deux tâches différentes :

  1. Tâche IExp : Évaluation complète des demandes d'internationalisation d'entreprises, incluant la génération de résumés de documents, la détection d'incohérences internes et l'évaluation préliminaire
  2. Tâche ReClaim : Vérification de documents pour les demandes de remboursement de rénovation énergétique des citoyens, effectuant principalement des vérifications de cohérence entre les informations de demande et les documents justificatifs

Architecture du Système

Architecture du Système IExp

  • Entrée : Documents de demande d'entreprise d'une moyenne de 30 000 tokens (plus de 50 pages)
  • Modèle principal : GPT-4o
  • Flux de traitement :
    1. Segmentation et filtrage des documents pour éviter la surcharge du contexte du LLM
    2. Identification des champs clés pour chaque tâche basée sur l'expertise de l'équipe d'évaluation
    3. Automatisation de 6 tâches d'évaluation les plus chronophages
  • Sortie : Résumé de l'application, rapport de cohérence, évaluation préliminaire et justification

Architecture du Système ReClaim

  • Entrée : Environ 80 000 demandes, chacune avec une moyenne de 11 documents justificatifs
  • Pipeline de traitement hybride :
    1. Normalisation des documents : Support limité aux formats de fichiers largement utilisés (PDF, ZIP, PNG, etc.)
    2. Conversion XML : Transformation des champs de formulaire utilisateur en format XML structuré
    3. Extraction d'informations VLM : Utilisation de GPT-4o pour analyser les documents justificatifs non structurés
    4. Vérification automatique de cohérence : Comparaison des informations extraites avec les valeurs déclarées par le demandeur
  • Sortie : Liste de vérification pré-remplie, marquant les éléments nécessitant un examen manuel

Points d'Innovation Technique

  1. Conception de collaboration homme-machine : Les sorties du système servent uniquement de recommandations, garantissant que les examinateurs humains conservent toujours la supervision et la responsabilité
  2. Optimisation spécifique aux tâches : Adoption de solutions personnalisées pour différents types de tâches d'évaluation
  3. Équilibre coût-bénéfice : Réalisation du contrôle des coûts par le ciblage des entrées et la priorisation des tâches
  4. Conformité RGPD : Le traitement des données s'effectue entièrement dans les limites de l'UE, stocké sur des disques locaux chiffrés

Configuration Expérimentale

Ensembles de Données

  1. Ensemble de données IExp :
    • Preuve de concept : 50 demandes d'appels antérieurs
    • Évaluation actuelle : 11 demandes utilisant l'outil assisté par IA
    • Classification d'activités : 764 demandes antérieures
  2. Ensemble de données ReClaim :
    • Nombre total de demandes : environ 80 000
    • Ensemble de test : 200 échantillons, uniformément distribués entre les types
    • Nombre total de documents : environ 880 000 documents

Métriques d'Évaluation

  1. Métriques IExp :
    • Alignement des résumés : similarité cosinus, ROUGE-L, BLEU, METEOR
    • Cohérence de la classification d'activités : niveau de cohérence entre examinateurs et LLM
  2. Métriques ReClaim :
    • Amélioration de la productivité : pourcentage de réduction du temps de traitement
    • Taux de vérification automatique : proportion de champs ne nécessitant pas de vérification manuelle
    • Exactitude : proportions de corrects, erreurs mineures, faux positifs, faux négatifs, erreurs de lecture

Méthodes de Comparaison

  • Sélection de modèles : Comparaison en aveugle GPT-4o vs Gemini-1.5 Pro
  • Modes de traitement : Comparaison des effets du traitement assisté par IA vs traitement purement manuel

Résultats Expérimentaux

Résultats Principaux

Résultats du Système IExp

  1. Amélioration significative de l'alignement des résumés :
    • Similarité cosinus passée de 0,77 à 0,99
    • Les métriques ROUGE-L, BLEU et METEOR sont toutes passées de moins de 0,35 à plus de 0,9
  2. Cohérence de la classification d'activités :
    • Cohérence entre LLM et examinateurs d'environ 70 %
    • Cohérence plus élevée entre LLM et candidats

Résultats du Système ReClaim

  1. Amélioration de la productivité : Augmentation de la productivité des examinateurs d'environ 20 %
  2. Effet de vérification automatique :
    • Taux de vérification automatique global : 76 %
    • Taux de vérification par section : vérification de l'admissibilité 84 %, noyau public 76 %, vérification de type 67 %
  3. Analyse de l'exactitude :
    • Taux de correction : 88 %
    • Erreurs mineures : 5 %
    • Faux positifs : 0 %
    • Faux négatifs : 3 %
    • Erreurs de lecture : 4 %

Analyse de l'Impact du Système

Impacts positifs après le déploiement du système d'IA :

  • Demandes de clarification/demandes : réduction de 2,13 à 2,05
  • Taux d'appels des demandeurs : réduction de 25,8 % à 20,4 %

Retours des Utilisateurs

  1. Tâche IExp : Les évaluateurs estiment que l'assistance par IA pourrait accélérer le processus d'examen jusqu'à 30 %
  2. Tâche ReClaim : Les retours sont polarisés
    • Les examinateurs impliqués dans le développement expriment une forte appréciation
    • Les examinateurs expérimentés estiment les économies de temps jusqu'à 40 %
    • Certains examinateurs perdent confiance après avoir rencontré des erreurs

Travaux Connexes

Méthodes Traditionnelles de Traitement de Documents

L'automatisation traditionnelle de l'examen de documents repose sur le traitement du langage naturel basé sur des règles et la technologie OCR, qui fonctionnent bien dans les environnements contrôlés, mais sont sensibles aux variations de structure de documents et difficiles à maintenir.

Traitement de Documents Basé sur les LLMs

  • Domaine juridique : Les outils LLM peuvent rapidement examiner et extraire divers textes juridiques
  • Ressources humaines : Évolution de l'analyse basique par mots-clés vers l'appariement candidat-rôle complexe
  • Administration publique : Transition des solutions d'apprentissage automatique traditionnel vers l'intégration de l'IA générative et des LLMs

Tendances de la Collaboration Homme-Machine

En raison des cas d'échec causés par les biais, le manque de transparence ou la dépendance excessive à l'automatisation non supervisée, la plupart des organisations intègrent désormais explicitement l'examen de collaboration homme-machine aux points de décision critiques.

Conclusions et Discussion

Conclusions Principales

  1. Faisabilité technique : Les LLMs sont suffisamment matures pour soutenir significativement le processus d'examen des demandes
  2. Amélioration notable de l'efficacité : Dans un pipeline de collaboration homme-machine correctement intégré, les LLMs peuvent considérablement accélérer les flux de travail d'évaluation
  3. Amélioration de la cohérence : L'assistance par IA contribue à améliorer l'uniformité des résultats des examinateurs

Enseignements Clés

Obstacles Organisationnels et Réglementaires

  • La bureaucratie est souvent la principale cause de retards et de réduction de la qualité des solutions
  • La propriété des plateformes tierces limite la capacité à modifier les systèmes
  • Les exigences strictes du RGPD réduisent l'éventail des modèles viables
  • Les flux de travail d'autorisation multi-étapes complexes retardent l'accès aux données

Modèles d'Adoption Polarisés

  • Les examinateurs se divisent souvent en deux groupes : ceux disposés à utiliser l'outil et concentrés sur ses avantages, et ceux qui deviennent très prudents ou critiques lorsque le système commet une erreur
  • Une gestion du changement efficace est essentielle au succès de la mise en œuvre

Potentiel d'Application Pratique Élevé

  • Le déploiement à grande échelle est beaucoup plus rapide que l'évaluation manuelle
  • Le système ReClaim a traité environ 80 000 demandes en moins de trois semaines
  • Avec l'amélioration continue des modèles, l'évaluation entièrement automatisée devient de plus en plus réalisable

Limitations

  1. Système IExp : Limité par l'impossibilité d'accéder aux demandes antérieures ou aux bases de données externes
  2. Système ReClaim : Confronté aux défis de l'incohérence des formats de documents et de la soumission de fichiers de faible qualité
  3. Portée applicable : Environ 10 % des documents ont été exclus de l'analyse automatique en raison de formats non pris en charge

Évaluation Approfondie

Points Forts

  1. Valeur de déploiement pratique : C'est l'une des rares recherches rapportant l'expérience de déploiement réel des LLMs, avec une importante valeur de guidance pratique
  2. Système d'évaluation complet : Des métriques techniques aux retours des utilisateurs, des améliorations d'efficacité à l'impact du système, les dimensions d'évaluation sont complètes
  3. Validation sur scénarios doubles : Vérification de l'universalité de la méthode à travers deux scénarios d'application différents
  4. Partage d'expérience honnête : Rapport objectif des défis et des expériences d'échec rencontrés lors du déploiement

Insuffisances

  1. Innovation technique limitée : Principalement l'application de la technologie LLM existante, manquant d'innovation au niveau algorithmique
  2. Échelle d'évaluation limitée : L'ensemble de test est relativement petit, particulièrement les 11 échantillons pour la tâche IExp
  3. Effets à long terme inconnus : La durée du déploiement n'est que de 3 mois, les effets à long terme et la stabilité restent à vérifier
  4. Analyse coût-bénéfice insuffisante : Manque d'analyse détaillée du coût-bénéfice et du calcul du ROI

Impact

  1. Référence pour la formulation de politiques : Fournit une référence importante pour l'adoption de la technologie IA par les organismes gouvernementaux
  2. Valeur de guidance pratique : Fournit une expérience précieuse pour le déploiement d'IA dans des scénarios similaires
  3. Application inter-domaines : La méthode peut être étendue à d'autres domaines nécessitant le traitement de documents à grande échelle

Scénarios Applicables

  1. Organismes gouvernementaux : Divers processus d'approbation de demandes et d'examen de documents
  2. Institutions financières : Examen des demandes de prêt, audit de conformité
  3. Institutions éducatives : Examen des documents de candidature, évaluation académique
  4. Organisations d'entreprises : Examen de documents internes, évaluation des fournisseurs

Références

L'article cite plusieurs références importantes, notamment :

  • Fiche technique du système OpenAI GPT-4o (2024)
  • Documents relatifs à la loi sur l'IA de l'Union européenne
  • Recherches connexes sur l'application des LLMs dans divers domaines
  • Recherches sur les meilleures pratiques en matière de collaboration homme-machine et de déploiement responsable de l'IA

Évaluation Globale : Ceci est un article de recherche appliquée d'une valeur pratique importante. Bien que relativement limité en innovation technique, son expérience de déploiement réel et son évaluation complète des effets fournissent une référence précieuse pour l'application de l'IA dans le secteur public. L'honnêteté et l'utilité pratique de l'article en font une contribution importante dans ce domaine.