Every year, the European Union and its member states allocate millions of euros to fund various development initiatives. However, the increasing number of applications received for these programs often creates significant bottlenecks in evaluation processes, due to limited human capacity. In this work, we detail the real-world deployment of AI-assisted evaluation within the pipeline of two government initiatives: (i) corporate applications aimed at international business expansion, and (ii) citizen reimbursement claims for investments in energy-efficient home improvements. While these two cases involve distinct evaluation procedures, our findings confirm that AI effectively enhanced processing efficiency and reduced workload across both types of applications. Specifically, in the citizen reimbursement claims initiative, our solution increased reviewer productivity by 20.1%, while keeping a negligible false-positive rate based on our test set observations. These improvements resulted in an overall reduction of more than 2 months in the total evaluation time, illustrating the impact of AI-driven automation in large-scale evaluation workflows.
Exploiter les LLMs pour Rationaliser l'Examen des Demandes de Financement Public
- ID de l'article : 2510.09674
- Titre : Leveraging LLMs to Streamline the Review of Public Funding Applications
- Auteurs : João D.S. Marques, André V. Duarte, André Carvalho, Gil Rocha, Bruno Martins, Arlindo L. Oliveira
- Classification : cs.CY cs.AI
- Date de publication : 8 octobre 2025 (prépublication arXiv)
- Lien de l'article : https://arxiv.org/abs/2510.09674
Chaque année, l'Union européenne et ses États membres investissent des millions d'euros pour financer diverses initiatives de développement. Cependant, le nombre de demandes reçues pour ces projets augmente continuellement, et en raison des ressources humaines limitées, cela crée souvent des goulots d'étranglement importants dans le processus d'évaluation. Cette recherche détaille le déploiement pratique de l'évaluation assistée par IA dans deux pipelines d'initiatives gouvernementales : (i) les demandes d'entreprises pour l'expansion commerciale internationale, et (ii) les demandes de remboursement des citoyens pour les investissements en amélioration énergétique du logement. Bien que ces deux cas impliquent des procédures d'évaluation différentes, l'étude constate que l'IA améliore efficacement l'efficacité du traitement et réduit la charge de travail pour les deux types de demandes. Spécifiquement, dans l'initiative de remboursement des citoyens, la solution a augmenté la productivité des examinateurs de 20,1 %, tout en maintenant un taux de faux positifs négligeable selon les observations de l'ensemble de test. Ces améliorations ont réduit le temps d'évaluation total de plus de deux mois, démontrant l'impact de l'automatisation basée sur l'IA dans les flux de travail d'évaluation à grande échelle.
Le problème fondamental que cette recherche vise à résoudre est le goulot d'étranglement d'efficacité dans l'évaluation des projets de financement public de l'Union européenne. Avec la multiplication des demandes, les méthodes d'évaluation manuelle traditionnelles ne peuvent plus répondre aux besoins de traitement, entraînant des cycles d'évaluation prolongés, une diminution de la satisfaction des demandeurs et, finalement, une perte de confiance du public dans l'efficacité de ces initiatives.
Les projets de financement public sont des outils essentiels pour stimuler la croissance économique, le développement durable et l'innovation. L'inefficacité de l'évaluation affecte non seulement la rapidité de l'allocation des fonds, mais peut également entraîner la perte d'opportunités pour les projets de qualité, compromettant la réalisation des objectifs politiques globaux.
L'examen traditionnel des documents repose sur le traitement du langage naturel basé sur des règles et la technologie de reconnaissance optique de caractères, qui fonctionnent bien dans des environnements contrôlés, mais sont hautement sensibles aux variations de structure et de contenu des documents, difficiles à maintenir et difficiles à étendre à des applications plus larges.
L'émergence des grands modèles de langage (LLMs) offre une flexibilité et une adaptabilité sans précédent pour l'automatisation du traitement des documents. Cette recherche vise à explorer comment exploiter les LLMs pour améliorer l'efficacité et la cohérence de l'évaluation des demandes de financement public, tout en garantissant la supervision humaine.
- Rapport d'expérience de déploiement pratique : Premier rapport sur le déploiement réussi de deux systèmes d'évaluation de documents assistés par IA, démontrant comment l'automatisation peut accélérer l'analyse des demandes tout en assurant l'intégrité des décisions par la supervision humaine.
- Validation des effets pratiques : Réalisation d'une amélioration de 20,1 % de la productivité des examinateurs dans l'initiative ReClaim, avec une réduction du temps d'évaluation total de plus de deux mois.
- Synthèse des meilleures pratiques : Fourniture de meilleures pratiques et d'enseignements clés pour l'intégration des modèles d'IA dans des environnements similaires, basée sur l'expérience de déploiement réel.
- Validation sur scénarios doubles : Vérification de l'universalité de l'évaluation assistée par IA à travers deux types différents d'initiatives gouvernementales (demandes d'internationalisation d'entreprises et remboursements de rénovation énergétique pour citoyens).
La recherche implique deux tâches différentes :
- Tâche IExp : Évaluation complète des demandes d'internationalisation d'entreprises, incluant la génération de résumés de documents, la détection d'incohérences internes et l'évaluation préliminaire
- Tâche ReClaim : Vérification de documents pour les demandes de remboursement de rénovation énergétique des citoyens, effectuant principalement des vérifications de cohérence entre les informations de demande et les documents justificatifs
- Entrée : Documents de demande d'entreprise d'une moyenne de 30 000 tokens (plus de 50 pages)
- Modèle principal : GPT-4o
- Flux de traitement :
- Segmentation et filtrage des documents pour éviter la surcharge du contexte du LLM
- Identification des champs clés pour chaque tâche basée sur l'expertise de l'équipe d'évaluation
- Automatisation de 6 tâches d'évaluation les plus chronophages
- Sortie : Résumé de l'application, rapport de cohérence, évaluation préliminaire et justification
- Entrée : Environ 80 000 demandes, chacune avec une moyenne de 11 documents justificatifs
- Pipeline de traitement hybride :
- Normalisation des documents : Support limité aux formats de fichiers largement utilisés (PDF, ZIP, PNG, etc.)
- Conversion XML : Transformation des champs de formulaire utilisateur en format XML structuré
- Extraction d'informations VLM : Utilisation de GPT-4o pour analyser les documents justificatifs non structurés
- Vérification automatique de cohérence : Comparaison des informations extraites avec les valeurs déclarées par le demandeur
- Sortie : Liste de vérification pré-remplie, marquant les éléments nécessitant un examen manuel
- Conception de collaboration homme-machine : Les sorties du système servent uniquement de recommandations, garantissant que les examinateurs humains conservent toujours la supervision et la responsabilité
- Optimisation spécifique aux tâches : Adoption de solutions personnalisées pour différents types de tâches d'évaluation
- Équilibre coût-bénéfice : Réalisation du contrôle des coûts par le ciblage des entrées et la priorisation des tâches
- Conformité RGPD : Le traitement des données s'effectue entièrement dans les limites de l'UE, stocké sur des disques locaux chiffrés
- Ensemble de données IExp :
- Preuve de concept : 50 demandes d'appels antérieurs
- Évaluation actuelle : 11 demandes utilisant l'outil assisté par IA
- Classification d'activités : 764 demandes antérieures
- Ensemble de données ReClaim :
- Nombre total de demandes : environ 80 000
- Ensemble de test : 200 échantillons, uniformément distribués entre les types
- Nombre total de documents : environ 880 000 documents
- Métriques IExp :
- Alignement des résumés : similarité cosinus, ROUGE-L, BLEU, METEOR
- Cohérence de la classification d'activités : niveau de cohérence entre examinateurs et LLM
- Métriques ReClaim :
- Amélioration de la productivité : pourcentage de réduction du temps de traitement
- Taux de vérification automatique : proportion de champs ne nécessitant pas de vérification manuelle
- Exactitude : proportions de corrects, erreurs mineures, faux positifs, faux négatifs, erreurs de lecture
- Sélection de modèles : Comparaison en aveugle GPT-4o vs Gemini-1.5 Pro
- Modes de traitement : Comparaison des effets du traitement assisté par IA vs traitement purement manuel
- Amélioration significative de l'alignement des résumés :
- Similarité cosinus passée de 0,77 à 0,99
- Les métriques ROUGE-L, BLEU et METEOR sont toutes passées de moins de 0,35 à plus de 0,9
- Cohérence de la classification d'activités :
- Cohérence entre LLM et examinateurs d'environ 70 %
- Cohérence plus élevée entre LLM et candidats
- Amélioration de la productivité : Augmentation de la productivité des examinateurs d'environ 20 %
- Effet de vérification automatique :
- Taux de vérification automatique global : 76 %
- Taux de vérification par section : vérification de l'admissibilité 84 %, noyau public 76 %, vérification de type 67 %
- Analyse de l'exactitude :
- Taux de correction : 88 %
- Erreurs mineures : 5 %
- Faux positifs : 0 %
- Faux négatifs : 3 %
- Erreurs de lecture : 4 %
Impacts positifs après le déploiement du système d'IA :
- Demandes de clarification/demandes : réduction de 2,13 à 2,05
- Taux d'appels des demandeurs : réduction de 25,8 % à 20,4 %
- Tâche IExp : Les évaluateurs estiment que l'assistance par IA pourrait accélérer le processus d'examen jusqu'à 30 %
- Tâche ReClaim : Les retours sont polarisés
- Les examinateurs impliqués dans le développement expriment une forte appréciation
- Les examinateurs expérimentés estiment les économies de temps jusqu'à 40 %
- Certains examinateurs perdent confiance après avoir rencontré des erreurs
L'automatisation traditionnelle de l'examen de documents repose sur le traitement du langage naturel basé sur des règles et la technologie OCR, qui fonctionnent bien dans les environnements contrôlés, mais sont sensibles aux variations de structure de documents et difficiles à maintenir.
- Domaine juridique : Les outils LLM peuvent rapidement examiner et extraire divers textes juridiques
- Ressources humaines : Évolution de l'analyse basique par mots-clés vers l'appariement candidat-rôle complexe
- Administration publique : Transition des solutions d'apprentissage automatique traditionnel vers l'intégration de l'IA générative et des LLMs
En raison des cas d'échec causés par les biais, le manque de transparence ou la dépendance excessive à l'automatisation non supervisée, la plupart des organisations intègrent désormais explicitement l'examen de collaboration homme-machine aux points de décision critiques.
- Faisabilité technique : Les LLMs sont suffisamment matures pour soutenir significativement le processus d'examen des demandes
- Amélioration notable de l'efficacité : Dans un pipeline de collaboration homme-machine correctement intégré, les LLMs peuvent considérablement accélérer les flux de travail d'évaluation
- Amélioration de la cohérence : L'assistance par IA contribue à améliorer l'uniformité des résultats des examinateurs
- La bureaucratie est souvent la principale cause de retards et de réduction de la qualité des solutions
- La propriété des plateformes tierces limite la capacité à modifier les systèmes
- Les exigences strictes du RGPD réduisent l'éventail des modèles viables
- Les flux de travail d'autorisation multi-étapes complexes retardent l'accès aux données
- Les examinateurs se divisent souvent en deux groupes : ceux disposés à utiliser l'outil et concentrés sur ses avantages, et ceux qui deviennent très prudents ou critiques lorsque le système commet une erreur
- Une gestion du changement efficace est essentielle au succès de la mise en œuvre
- Le déploiement à grande échelle est beaucoup plus rapide que l'évaluation manuelle
- Le système ReClaim a traité environ 80 000 demandes en moins de trois semaines
- Avec l'amélioration continue des modèles, l'évaluation entièrement automatisée devient de plus en plus réalisable
- Système IExp : Limité par l'impossibilité d'accéder aux demandes antérieures ou aux bases de données externes
- Système ReClaim : Confronté aux défis de l'incohérence des formats de documents et de la soumission de fichiers de faible qualité
- Portée applicable : Environ 10 % des documents ont été exclus de l'analyse automatique en raison de formats non pris en charge
- Valeur de déploiement pratique : C'est l'une des rares recherches rapportant l'expérience de déploiement réel des LLMs, avec une importante valeur de guidance pratique
- Système d'évaluation complet : Des métriques techniques aux retours des utilisateurs, des améliorations d'efficacité à l'impact du système, les dimensions d'évaluation sont complètes
- Validation sur scénarios doubles : Vérification de l'universalité de la méthode à travers deux scénarios d'application différents
- Partage d'expérience honnête : Rapport objectif des défis et des expériences d'échec rencontrés lors du déploiement
- Innovation technique limitée : Principalement l'application de la technologie LLM existante, manquant d'innovation au niveau algorithmique
- Échelle d'évaluation limitée : L'ensemble de test est relativement petit, particulièrement les 11 échantillons pour la tâche IExp
- Effets à long terme inconnus : La durée du déploiement n'est que de 3 mois, les effets à long terme et la stabilité restent à vérifier
- Analyse coût-bénéfice insuffisante : Manque d'analyse détaillée du coût-bénéfice et du calcul du ROI
- Référence pour la formulation de politiques : Fournit une référence importante pour l'adoption de la technologie IA par les organismes gouvernementaux
- Valeur de guidance pratique : Fournit une expérience précieuse pour le déploiement d'IA dans des scénarios similaires
- Application inter-domaines : La méthode peut être étendue à d'autres domaines nécessitant le traitement de documents à grande échelle
- Organismes gouvernementaux : Divers processus d'approbation de demandes et d'examen de documents
- Institutions financières : Examen des demandes de prêt, audit de conformité
- Institutions éducatives : Examen des documents de candidature, évaluation académique
- Organisations d'entreprises : Examen de documents internes, évaluation des fournisseurs
L'article cite plusieurs références importantes, notamment :
- Fiche technique du système OpenAI GPT-4o (2024)
- Documents relatifs à la loi sur l'IA de l'Union européenne
- Recherches connexes sur l'application des LLMs dans divers domaines
- Recherches sur les meilleures pratiques en matière de collaboration homme-machine et de déploiement responsable de l'IA
Évaluation Globale : Ceci est un article de recherche appliquée d'une valeur pratique importante. Bien que relativement limité en innovation technique, son expérience de déploiement réel et son évaluation complète des effets fournissent une référence précieuse pour l'application de l'IA dans le secteur public. L'honnêteté et l'utilité pratique de l'article en font une contribution importante dans ce domaine.