Every year, the European Union and its member states allocate millions of euros to fund various development initiatives. However, the increasing number of applications received for these programs often creates significant bottlenecks in evaluation processes, due to limited human capacity. In this work, we detail the real-world deployment of AI-assisted evaluation within the pipeline of two government initiatives: (i) corporate applications aimed at international business expansion, and (ii) citizen reimbursement claims for investments in energy-efficient home improvements. While these two cases involve distinct evaluation procedures, our findings confirm that AI effectively enhanced processing efficiency and reduced workload across both types of applications. Specifically, in the citizen reimbursement claims initiative, our solution increased reviewer productivity by 20.1%, while keeping a negligible false-positive rate based on our test set observations. These improvements resulted in an overall reduction of more than 2 months in the total evaluation time, illustrating the impact of AI-driven automation in large-scale evaluation workflows.
Aprovechando LLMs para Optimizar la Revisión de Solicitudes de Financiamiento Público
- ID del Artículo: 2510.09674
- Título: Leveraging LLMs to Streamline the Review of Public Funding Applications
- Autores: João D.S. Marques, André V. Duarte, André Carvalho, Gil Rocha, Bruno Martins, Arlindo L. Oliveira
- Clasificación: cs.CY cs.AI
- Fecha de Publicación: 8 de octubre de 2025 (preimpresión en arXiv)
- Enlace del Artículo: https://arxiv.org/abs/2510.09674
Anualmente, la Unión Europea y sus estados miembros invierten millones de euros en financiar diversas iniciativas de desarrollo. Sin embargo, el número de solicitudes recibidas por estos programas aumenta continuamente, y debido a recursos humanos limitados, frecuentemente genera cuellos de botella significativos en el proceso de evaluación. Este estudio detalla la implementación práctica de evaluación asistida por IA en dos canales de iniciativas gubernamentales: (i) solicitudes empresariales para expansión comercial internacional, y (ii) solicitudes de reembolso de ciudadanos para inversiones en mejoras de viviendas energéticamente eficientes. Aunque estos dos casos implican procedimientos de evaluación diferentes, el estudio encontró que la IA mejora efectivamente la eficiencia de procesamiento y reduce la carga de trabajo para ambos tipos de solicitudes. Específicamente, en la iniciativa de solicitudes de reembolso de ciudadanos, la solución aumentó la productividad de los revisores en un 20.1%, mientras mantenía una tasa de falsos positivos despreciable basada en observaciones del conjunto de prueba. Estas mejoras resultaron en una reducción del tiempo total de evaluación de más de dos meses, demostrando el impacto de la automatización impulsada por IA en flujos de trabajo de evaluación a gran escala.
El problema central que aborda este estudio es el cuello de botella de eficiencia en la evaluación de proyectos de financiamiento público de la Unión Europea. Con el aumento explosivo en el número de solicitudes, los métodos tradicionales de evaluación manual ya no pueden satisfacer las demandas de procesamiento, lo que resulta en ciclos de evaluación prolongados, disminución de la satisfacción de los solicitantes e, en última instancia, afecta la confianza pública en la eficiencia de estas iniciativas.
Los proyectos de financiamiento público son herramientas cruciales para impulsar el crecimiento económico, el desarrollo sostenible y la innovación. La baja eficiencia en la evaluación no solo afecta la oportunidad de la asignación de fondos, sino que también puede resultar en que proyectos de calidad pierdan oportunidades, afectando la realización de objetivos políticos generales.
La revisión tradicional de documentos depende de procesamiento del lenguaje natural basado en reglas y tecnología de reconocimiento óptico de caracteres, que funcionan bien en entornos controlados pero son altamente sensibles a cambios en la estructura y contenido de documentos, siendo difíciles de mantener y expandir a aplicaciones más amplias.
La aparición de modelos de lenguaje grandes (LLMs) proporciona una flexibilidad y adaptabilidad sin precedentes para la automatización del procesamiento de documentos. Este estudio tiene como objetivo explorar cómo aprovechar los LLMs para mejorar la eficiencia y consistencia de la evaluación de solicitudes de financiamiento público, garantizando simultáneamente la supervisión humana.
- Informe de Experiencia de Implementación Práctica: Primer informe de implementación exitosa de dos sistemas de evaluación de documentos asistidos por IA, demostrando cómo la automatización puede acelerar el análisis de solicitudes bajo supervisión humana que garantiza la integridad de las decisiones.
- Verificación de Efectos Prácticos: Logró un aumento del 20.1% en la productividad de revisores en la iniciativa ReClaim, con una reducción del tiempo total de evaluación superior a dos meses.
- Resumen de Mejores Prácticas: Basado en experiencia de implementación en el mundo real, proporciona mejores prácticas y lecciones clave para integrar modelos de IA en entornos similares.
- Validación de Escenario Dual: Verifica la universalidad de la evaluación asistida por IA a través de dos tipos diferentes de iniciativas gubernamentales (solicitudes de internacionalización empresarial y reembolsos de reforma de eficiencia energética de ciudadanos).
La investigación implica dos tareas diferentes:
- Tarea IExp: Evaluación integral de solicitudes de internacionalización empresarial, incluyendo generación de resúmenes de documentos, detección de inconsistencias internas y puntuación preliminar
- Tarea ReClaim: Validación de documentos para solicitudes de reembolso de reforma de eficiencia energética de ciudadanos, enfocándose principalmente en verificar la consistencia entre la información de la solicitud y los documentos de apoyo
- Entrada: Documentos de solicitud empresarial con un promedio de 30,000 tokens (más de 50 páginas)
- Modelo Principal: GPT-4o
- Flujo de Procesamiento:
- Segmentación y filtrado de documentos para evitar sobrecarga de contexto del LLM
- Identificación de campos clave para cada tarea basada en el conocimiento del equipo de evaluación
- Automatización de 6 tareas de evaluación más consumidoras de tiempo
- Salida: Resumen de aplicación, informe de consistencia, puntuación preliminar y justificación
- Entrada: Aproximadamente 80,000 solicitudes, con un promedio de 11 documentos de apoyo por solicitud
- Tubería de Procesamiento Híbrida:
- Normalización de Documentos: Soporte solo para formatos de archivo ampliamente utilizados como PDF, ZIP, PNG
- Conversión XML: Conversión de campos de formulario de usuario a formato XML estructurado
- Extracción de Información VLM: Uso de GPT-4o para analizar documentos de apoyo no estructurados
- Verificación Automática de Consistencia: Comparación de información extraída con valores reportados por solicitantes
- Salida: Lista de verificación prepoblada que marca elementos que requieren revisión manual
- Diseño de Colaboración Humano-Máquina: La salida del sistema sirve solo como sugerencia, garantizando que los revisores humanos mantengan siempre supervisión y responsabilidad
- Optimización Específica de Tareas: Adopción de soluciones personalizadas para diferentes tipos de tareas de evaluación
- Equilibrio Costo-Beneficio: Logro de control de costos mediante entrada dirigida y priorización de tareas
- Cumplimiento GDPR: El procesamiento de datos se realiza completamente dentro de los límites de la UE, almacenado en discos locales cifrados
- Conjunto de Datos IExp:
- Prueba de concepto: 50 solicitudes de llamadas anteriores
- Evaluación actual: 11 solicitudes utilizando herramientas de IA
- Clasificación de actividades: 764 solicitudes anteriores
- Conjunto de Datos ReClaim:
- Número total de solicitudes: aproximadamente 80,000
- Conjunto de prueba: 200 muestras distribuidas uniformemente entre tipos
- Número total de documentos: aproximadamente 880,000 documentos
- Métricas IExp:
- Alineación de resumen: similitud de coseno, ROUGE-L, BLEU, METEOR
- Consistencia de clasificación de actividades: nivel de consistencia entre revisor y LLM
- Métricas ReClaim:
- Aumento de productividad: porcentaje de reducción en tiempo de procesamiento
- Tasa de verificación automática: proporción de campos sin necesidad de verificación manual
- Precisión: proporción de correcto, errores menores, falsos positivos, falsos negativos, errores de lectura
- Selección de Modelo: Prueba ciega GPT-4o vs Gemini-1.5 Pro
- Método de Procesamiento: Comparación de efectos entre procesamiento asistido por IA vs procesamiento puramente manual
- Mejora Significativa en Alineación de Resumen:
- Similitud de coseno mejorada de 0.77 a 0.99
- Métricas ROUGE-L, BLEU y METEOR todas mejoradas de menos de 0.35 a más de 0.9
- Consistencia de Clasificación de Actividades:
- Consistencia entre LLM y revisor aproximadamente 70%
- Consistencia entre LLM y candidato más alta
- Aumento de Productividad: Productividad de revisores aumentada aproximadamente 20%
- Efectos de Verificación Automática:
- Tasa general de verificación automática: 76%
- Tasas de verificación por sección: revisión de elegibilidad 84%, núcleo público 76%, revisión de tipo 67%
- Análisis de Precisión:
- Tasa de corrección: 88%
- Errores menores: 5%
- Falsos positivos: 0%
- Falsos negativos: 3%
- Errores de lectura: 4%
Impactos positivos después del despliegue del sistema de IA:
- Solicitudes de aclaración/solicitudes: de 2.13 a 2.05
- Tasa de apelación de solicitantes: de 25.8% a 20.4%
- Tarea IExp: Los evaluadores estiman que la asistencia de IA podría acelerar el proceso de revisión hasta en un 30%
- Tarea ReClaim: La retroalimentación es polarizada
- Revisores involucrados en el desarrollo expresan fuerte apreciación
- Revisores experimentados estiman ahorros de tiempo de hasta 40%
- Algunos revisores pierden confianza después de encontrar errores
La automatización tradicional de revisión de documentos depende de tecnología NLP basada en reglas y OCR, que funcionan bien en entornos controlados pero son sensibles a cambios en la estructura de documentos y difíciles de mantener.
- Dominio Legal: Las herramientas LLM pueden revisar rápidamente y extraer diversos textos legales
- Recursos Humanos: Evolución de análisis básico de palabras clave a coincidencia compleja de candidato-rol
- Administración Pública: Transición de soluciones tradicionales de aprendizaje automático hacia integración de IA generativa y LLM
Debido a casos de fracaso causados por sesgo, falta de transparencia o dependencia excesiva de automatización sin supervisión, la mayoría de las organizaciones ahora integran revisión de colaboración humano-máquina explícita en puntos de decisión críticos.
- Viabilidad Técnica: Los LLMs han alcanzado suficiente madurez para apoyar significativamente el proceso de revisión de solicitudes
- Mejora Significativa de Eficiencia: En una tubería de colaboración humano-máquina apropiadamente integrada, los LLMs pueden acelerar significativamente los flujos de trabajo de evaluación
- Mejora de Consistencia: La asistencia de IA ayuda a mejorar la uniformidad de la salida de los revisores
- La burocracia es frecuentemente la razón principal de retrasos y degradación de la calidad de la solución
- La propiedad de plataformas de terceros limita la capacidad de modificar sistemas
- Los requisitos estrictos de GDPR reducen el rango de modelos viables
- Los flujos de trabajo complejos de autorización de múltiples pasos retrasan el acceso a datos
- Los revisores tienden a dividirse en dos grupos: aquellos dispuestos a usar la herramienta y enfocados en sus ventajas, y aquellos que se vuelven muy cautelosos o críticos cuando el sistema comete errores
- La gestión efectiva del cambio es crítica para la implementación exitosa
- La velocidad de despliegue a gran escala es mucho más rápida que la evaluación manual
- El sistema ReClaim procesó aproximadamente 80,000 solicitudes en menos de tres semanas
- Con la mejora continua de modelos, la evaluación completamente automatizada se vuelve cada vez más viable
- Sistema IExp: Limitado por la incapacidad de acceder a solicitudes anteriores o bases de datos externas
- Sistema ReClaim: Enfrenta desafíos de inconsistencia de formato de documento y envío de archivos de baja calidad
- Alcance Aplicable: Aproximadamente el 10% de documentos fueron excluidos del análisis automático debido a formatos no soportados
- Valor de Implementación Práctica: Este es uno de los pocos estudios que reportan experiencias de despliegue de LLM en el mundo real, con importante significado de orientación práctica
- Sistema de Evaluación Integral: Desde métricas técnicas hasta retroalimentación del usuario, desde mejora de eficiencia hasta impacto del sistema, las dimensiones de evaluación son exhaustivas
- Validación de Escenario Dual: Verifica la universalidad del método a través de dos escenarios de aplicación diferentes
- Compartición Honesta de Experiencias: Reporta objetivamente los desafíos y experiencias de fracaso encontrados en el despliegue
- Innovación Técnica Limitada: Principalmente aplicación de tecnología LLM existente, carente de innovación a nivel de algoritmo
- Escala de Evaluación Limitada: El tamaño del conjunto de prueba es relativamente pequeño, particularmente las 11 muestras de la tarea IExp
- Efectos a Largo Plazo Desconocidos: El tiempo de despliegue es solo de 3 meses, con efectos a largo plazo y estabilidad por verificar
- Análisis Insuficiente de Costo-Beneficio: Carece de análisis detallado de costo-beneficio y cálculo de ROI
- Referencia para Formulación de Políticas: Proporciona referencia importante para que departamentos gubernamentales adopten tecnología de IA
- Valor de Orientación Práctica: Proporciona experiencia valiosa para despliegue de IA en escenarios similares
- Aplicación Transversal: El método es generalizable a otros campos que requieren procesamiento de documentos a gran escala
- Instituciones Gubernamentales: Diversos procesos de aprobación de solicitudes y revisión de documentos
- Instituciones Financieras: Solicitudes de préstamo, revisión de cumplimiento
- Instituciones Educativas: Revisión de materiales de solicitud, evaluación académica
- Organizaciones Empresariales: Revisión de documentos internos, evaluación de proveedores
El artículo cita múltiples referencias importantes, incluyendo:
- Tarjeta del Sistema OpenAI GPT-4o (2024)
- Documentos relacionados con la Ley de IA de la Unión Europea
- Investigación relacionada con aplicaciones de LLM en diversos campos
- Investigación sobre mejores prácticas en colaboración humano-máquina e implementación responsable de IA
Evaluación General: Este es un artículo de investigación aplicada con importante valor práctico. Aunque es relativamente limitado en innovación técnica, su experiencia de despliegue en el mundo real y evaluación de efectos integral proporciona referencia valiosa para la aplicación de IA en el sector público. La honestidad y practicidad del artículo lo convierten en una contribución importante en este campo.