2025-11-14T12:40:11.870251

Leveraging LLMs to Streamline the Review of Public Funding Applications

Marques, Duarte, Carvalho et al.

Every year, the European Union and its member states allocate millions of euros to fund various development initiatives. However, the increasing number of applications received for these programs often creates significant bottlenecks in evaluation processes, due to limited human capacity. In this work, we detail the real-world deployment of AI-assisted evaluation within the pipeline of two government initiatives: (i) corporate applications aimed at international business expansion, and (ii) citizen reimbursement claims for investments in energy-efficient home improvements. While these two cases involve distinct evaluation procedures, our findings confirm that AI effectively enhanced processing efficiency and reduced workload across both types of applications. Specifically, in the citizen reimbursement claims initiative, our solution increased reviewer productivity by 20.1%, while keeping a negligible false-positive rate based on our test set observations. These improvements resulted in an overall reduction of more than 2 months in the total evaluation time, illustrating the impact of AI-driven automation in large-scale evaluation workflows.

academic

Aprovechando LLMs para Optimizar la Revisión de Solicitudes de Financiamiento Público

Información Básica

ID del Artículo: 2510.09674
Título: Leveraging LLMs to Streamline the Review of Public Funding Applications
Autores: João D.S. Marques, André V. Duarte, André Carvalho, Gil Rocha, Bruno Martins, Arlindo L. Oliveira
Clasificación: cs.CY cs.AI
Fecha de Publicación: 8 de octubre de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.09674

Resumen

Anualmente, la Unión Europea y sus estados miembros invierten millones de euros en financiar diversas iniciativas de desarrollo. Sin embargo, el número de solicitudes recibidas por estos programas aumenta continuamente, y debido a recursos humanos limitados, frecuentemente genera cuellos de botella significativos en el proceso de evaluación. Este estudio detalla la implementación práctica de evaluación asistida por IA en dos canales de iniciativas gubernamentales: (i) solicitudes empresariales para expansión comercial internacional, y (ii) solicitudes de reembolso de ciudadanos para inversiones en mejoras de viviendas energéticamente eficientes. Aunque estos dos casos implican procedimientos de evaluación diferentes, el estudio encontró que la IA mejora efectivamente la eficiencia de procesamiento y reduce la carga de trabajo para ambos tipos de solicitudes. Específicamente, en la iniciativa de solicitudes de reembolso de ciudadanos, la solución aumentó la productividad de los revisores en un 20.1%, mientras mantenía una tasa de falsos positivos despreciable basada en observaciones del conjunto de prueba. Estas mejoras resultaron en una reducción del tiempo total de evaluación de más de dos meses, demostrando el impacto de la automatización impulsada por IA en flujos de trabajo de evaluación a gran escala.

Antecedentes y Motivación de la Investigación

Definición del Problema

El problema central que aborda este estudio es el cuello de botella de eficiencia en la evaluación de proyectos de financiamiento público de la Unión Europea. Con el aumento explosivo en el número de solicitudes, los métodos tradicionales de evaluación manual ya no pueden satisfacer las demandas de procesamiento, lo que resulta en ciclos de evaluación prolongados, disminución de la satisfacción de los solicitantes e, en última instancia, afecta la confianza pública en la eficiencia de estas iniciativas.

Importancia del Problema

Los proyectos de financiamiento público son herramientas cruciales para impulsar el crecimiento económico, el desarrollo sostenible y la innovación. La baja eficiencia en la evaluación no solo afecta la oportunidad de la asignación de fondos, sino que también puede resultar en que proyectos de calidad pierdan oportunidades, afectando la realización de objetivos políticos generales.

Limitaciones de Métodos Existentes

La revisión tradicional de documentos depende de procesamiento del lenguaje natural basado en reglas y tecnología de reconocimiento óptico de caracteres, que funcionan bien en entornos controlados pero son altamente sensibles a cambios en la estructura y contenido de documentos, siendo difíciles de mantener y expandir a aplicaciones más amplias.

Motivación de la Investigación

La aparición de modelos de lenguaje grandes (LLMs) proporciona una flexibilidad y adaptabilidad sin precedentes para la automatización del procesamiento de documentos. Este estudio tiene como objetivo explorar cómo aprovechar los LLMs para mejorar la eficiencia y consistencia de la evaluación de solicitudes de financiamiento público, garantizando simultáneamente la supervisión humana.

Contribuciones Principales

Informe de Experiencia de Implementación Práctica: Primer informe de implementación exitosa de dos sistemas de evaluación de documentos asistidos por IA, demostrando cómo la automatización puede acelerar el análisis de solicitudes bajo supervisión humana que garantiza la integridad de las decisiones.
Verificación de Efectos Prácticos: Logró un aumento del 20.1% en la productividad de revisores en la iniciativa ReClaim, con una reducción del tiempo total de evaluación superior a dos meses.
Resumen de Mejores Prácticas: Basado en experiencia de implementación en el mundo real, proporciona mejores prácticas y lecciones clave para integrar modelos de IA en entornos similares.
Validación de Escenario Dual: Verifica la universalidad de la evaluación asistida por IA a través de dos tipos diferentes de iniciativas gubernamentales (solicitudes de internacionalización empresarial y reembolsos de reforma de eficiencia energética de ciudadanos).

Explicación Detallada de la Metodología

Definición de Tareas

La investigación implica dos tareas diferentes:

Tarea IExp: Evaluación integral de solicitudes de internacionalización empresarial, incluyendo generación de resúmenes de documentos, detección de inconsistencias internas y puntuación preliminar
Tarea ReClaim: Validación de documentos para solicitudes de reembolso de reforma de eficiencia energética de ciudadanos, enfocándose principalmente en verificar la consistencia entre la información de la solicitud y los documentos de apoyo

Arquitectura del Sistema

Arquitectura del Sistema IExp

Entrada: Documentos de solicitud empresarial con un promedio de 30,000 tokens (más de 50 páginas)
Modelo Principal: GPT-4o
Flujo de Procesamiento:
1. Segmentación y filtrado de documentos para evitar sobrecarga de contexto del LLM
2. Identificación de campos clave para cada tarea basada en el conocimiento del equipo de evaluación
3. Automatización de 6 tareas de evaluación más consumidoras de tiempo
Salida: Resumen de aplicación, informe de consistencia, puntuación preliminar y justificación

Arquitectura del Sistema ReClaim

Entrada: Aproximadamente 80,000 solicitudes, con un promedio de 11 documentos de apoyo por solicitud
Tubería de Procesamiento Híbrida:
1. Normalización de Documentos: Soporte solo para formatos de archivo ampliamente utilizados como PDF, ZIP, PNG
2. Conversión XML: Conversión de campos de formulario de usuario a formato XML estructurado
3. Extracción de Información VLM: Uso de GPT-4o para analizar documentos de apoyo no estructurados
4. Verificación Automática de Consistencia: Comparación de información extraída con valores reportados por solicitantes
Salida: Lista de verificación prepoblada que marca elementos que requieren revisión manual

Puntos de Innovación Técnica

Diseño de Colaboración Humano-Máquina: La salida del sistema sirve solo como sugerencia, garantizando que los revisores humanos mantengan siempre supervisión y responsabilidad
Optimización Específica de Tareas: Adopción de soluciones personalizadas para diferentes tipos de tareas de evaluación
Equilibrio Costo-Beneficio: Logro de control de costos mediante entrada dirigida y priorización de tareas
Cumplimiento GDPR: El procesamiento de datos se realiza completamente dentro de los límites de la UE, almacenado en discos locales cifrados

Configuración Experimental

Conjunto de Datos

Conjunto de Datos IExp:
- Prueba de concepto: 50 solicitudes de llamadas anteriores
- Evaluación actual: 11 solicitudes utilizando herramientas de IA
- Clasificación de actividades: 764 solicitudes anteriores
Conjunto de Datos ReClaim:
- Número total de solicitudes: aproximadamente 80,000
- Conjunto de prueba: 200 muestras distribuidas uniformemente entre tipos
- Número total de documentos: aproximadamente 880,000 documentos

Métricas de Evaluación

Métricas IExp:
- Alineación de resumen: similitud de coseno, ROUGE-L, BLEU, METEOR
- Consistencia de clasificación de actividades: nivel de consistencia entre revisor y LLM
Métricas ReClaim:
- Aumento de productividad: porcentaje de reducción en tiempo de procesamiento
- Tasa de verificación automática: proporción de campos sin necesidad de verificación manual
- Precisión: proporción de correcto, errores menores, falsos positivos, falsos negativos, errores de lectura

Métodos de Comparación

Selección de Modelo: Prueba ciega GPT-4o vs Gemini-1.5 Pro
Método de Procesamiento: Comparación de efectos entre procesamiento asistido por IA vs procesamiento puramente manual

Resultados Experimentales

Resultados Principales

Resultados del Sistema IExp

Mejora Significativa en Alineación de Resumen:
- Similitud de coseno mejorada de 0.77 a 0.99
- Métricas ROUGE-L, BLEU y METEOR todas mejoradas de menos de 0.35 a más de 0.9
Consistencia de Clasificación de Actividades:
- Consistencia entre LLM y revisor aproximadamente 70%
- Consistencia entre LLM y candidato más alta

Resultados del Sistema ReClaim

Aumento de Productividad: Productividad de revisores aumentada aproximadamente 20%
Efectos de Verificación Automática:
- Tasa general de verificación automática: 76%
- Tasas de verificación por sección: revisión de elegibilidad 84%, núcleo público 76%, revisión de tipo 67%
Análisis de Precisión:
- Tasa de corrección: 88%
- Errores menores: 5%
- Falsos positivos: 0%
- Falsos negativos: 3%
- Errores de lectura: 4%

Análisis de Impacto del Sistema

Impactos positivos después del despliegue del sistema de IA:

Solicitudes de aclaración/solicitudes: de 2.13 a 2.05
Tasa de apelación de solicitantes: de 25.8% a 20.4%

Retroalimentación del Usuario

Tarea IExp: Los evaluadores estiman que la asistencia de IA podría acelerar el proceso de revisión hasta en un 30%
Tarea ReClaim: La retroalimentación es polarizada
- Revisores involucrados en el desarrollo expresan fuerte apreciación
- Revisores experimentados estiman ahorros de tiempo de hasta 40%
- Algunos revisores pierden confianza después de encontrar errores

Trabajo Relacionado

Métodos Tradicionales de Procesamiento de Documentos

La automatización tradicional de revisión de documentos depende de tecnología NLP basada en reglas y OCR, que funcionan bien en entornos controlados pero son sensibles a cambios en la estructura de documentos y difíciles de mantener.

Procesamiento de Documentos Impulsado por LLM

Dominio Legal: Las herramientas LLM pueden revisar rápidamente y extraer diversos textos legales
Recursos Humanos: Evolución de análisis básico de palabras clave a coincidencia compleja de candidato-rol
Administración Pública: Transición de soluciones tradicionales de aprendizaje automático hacia integración de IA generativa y LLM

Tendencias de Colaboración Humano-Máquina

Debido a casos de fracaso causados por sesgo, falta de transparencia o dependencia excesiva de automatización sin supervisión, la mayoría de las organizaciones ahora integran revisión de colaboración humano-máquina explícita en puntos de decisión críticos.

Conclusiones y Discusión

Conclusiones Principales

Viabilidad Técnica: Los LLMs han alcanzado suficiente madurez para apoyar significativamente el proceso de revisión de solicitudes
Mejora Significativa de Eficiencia: En una tubería de colaboración humano-máquina apropiadamente integrada, los LLMs pueden acelerar significativamente los flujos de trabajo de evaluación
Mejora de Consistencia: La asistencia de IA ayuda a mejorar la uniformidad de la salida de los revisores

Lecciones Clave Aprendidas

Barreras Organizativas y Regulatorias

La burocracia es frecuentemente la razón principal de retrasos y degradación de la calidad de la solución
La propiedad de plataformas de terceros limita la capacidad de modificar sistemas
Los requisitos estrictos de GDPR reducen el rango de modelos viables
Los flujos de trabajo complejos de autorización de múltiples pasos retrasan el acceso a datos

Patrón de Adopción Polarizado

Los revisores tienden a dividirse en dos grupos: aquellos dispuestos a usar la herramienta y enfocados en sus ventajas, y aquellos que se vuelven muy cautelosos o críticos cuando el sistema comete errores
La gestión efectiva del cambio es crítica para la implementación exitosa

Alto Potencial de Aplicación Práctica

La velocidad de despliegue a gran escala es mucho más rápida que la evaluación manual
El sistema ReClaim procesó aproximadamente 80,000 solicitudes en menos de tres semanas
Con la mejora continua de modelos, la evaluación completamente automatizada se vuelve cada vez más viable

Limitaciones

Sistema IExp: Limitado por la incapacidad de acceder a solicitudes anteriores o bases de datos externas
Sistema ReClaim: Enfrenta desafíos de inconsistencia de formato de documento y envío de archivos de baja calidad
Alcance Aplicable: Aproximadamente el 10% de documentos fueron excluidos del análisis automático debido a formatos no soportados

Evaluación Profunda

Fortalezas

Valor de Implementación Práctica: Este es uno de los pocos estudios que reportan experiencias de despliegue de LLM en el mundo real, con importante significado de orientación práctica
Sistema de Evaluación Integral: Desde métricas técnicas hasta retroalimentación del usuario, desde mejora de eficiencia hasta impacto del sistema, las dimensiones de evaluación son exhaustivas
Validación de Escenario Dual: Verifica la universalidad del método a través de dos escenarios de aplicación diferentes
Compartición Honesta de Experiencias: Reporta objetivamente los desafíos y experiencias de fracaso encontrados en el despliegue

Deficiencias

Innovación Técnica Limitada: Principalmente aplicación de tecnología LLM existente, carente de innovación a nivel de algoritmo
Escala de Evaluación Limitada: El tamaño del conjunto de prueba es relativamente pequeño, particularmente las 11 muestras de la tarea IExp
Efectos a Largo Plazo Desconocidos: El tiempo de despliegue es solo de 3 meses, con efectos a largo plazo y estabilidad por verificar
Análisis Insuficiente de Costo-Beneficio: Carece de análisis detallado de costo-beneficio y cálculo de ROI

Impacto

Referencia para Formulación de Políticas: Proporciona referencia importante para que departamentos gubernamentales adopten tecnología de IA
Valor de Orientación Práctica: Proporciona experiencia valiosa para despliegue de IA en escenarios similares
Aplicación Transversal: El método es generalizable a otros campos que requieren procesamiento de documentos a gran escala

Escenarios Aplicables

Instituciones Gubernamentales: Diversos procesos de aprobación de solicitudes y revisión de documentos
Instituciones Financieras: Solicitudes de préstamo, revisión de cumplimiento
Instituciones Educativas: Revisión de materiales de solicitud, evaluación académica
Organizaciones Empresariales: Revisión de documentos internos, evaluación de proveedores

Referencias

El artículo cita múltiples referencias importantes, incluyendo:

Tarjeta del Sistema OpenAI GPT-4o (2024)
Documentos relacionados con la Ley de IA de la Unión Europea
Investigación relacionada con aplicaciones de LLM en diversos campos
Investigación sobre mejores prácticas en colaboración humano-máquina e implementación responsable de IA

Evaluación General: Este es un artículo de investigación aplicada con importante valor práctico. Aunque es relativamente limitado en innovación técnica, su experiencia de despliegue en el mundo real y evaluación de efectos integral proporciona referencia valiosa para la aplicación de IA en el sector público. La honestidad y practicidad del artículo lo convierten en una contribución importante en este campo.