2025-11-14T12:40:11.870251

Leveraging LLMs to Streamline the Review of Public Funding Applications

Marques, Duarte, Carvalho et al.

Every year, the European Union and its member states allocate millions of euros to fund various development initiatives. However, the increasing number of applications received for these programs often creates significant bottlenecks in evaluation processes, due to limited human capacity. In this work, we detail the real-world deployment of AI-assisted evaluation within the pipeline of two government initiatives: (i) corporate applications aimed at international business expansion, and (ii) citizen reimbursement claims for investments in energy-efficient home improvements. While these two cases involve distinct evaluation procedures, our findings confirm that AI effectively enhanced processing efficiency and reduced workload across both types of applications. Specifically, in the citizen reimbursement claims initiative, our solution increased reviewer productivity by 20.1%, while keeping a negligible false-positive rate based on our test set observations. These improvements resulted in an overall reduction of more than 2 months in the total evaluation time, illustrating the impact of AI-driven automation in large-scale evaluation workflows.

academic

Sfruttare i LLM per Razionalizzare la Revisione delle Domande di Finanziamento Pubblico

Informazioni Fondamentali

ID Articolo: 2510.09674
Titolo: Leveraging LLMs to Streamline the Review of Public Funding Applications
Autori: João D.S. Marques, André V. Duarte, André Carvalho, Gil Rocha, Bruno Martins, Arlindo L. Oliveira
Classificazione: cs.CY cs.AI
Data di Pubblicazione: 8 ottobre 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2510.09674

Riassunto

Ogni anno, l'Unione Europea e i suoi Stati membri investono milioni di euro nel finanziamento di varie iniziative di sviluppo. Tuttavia, il numero di domande ricevute da questi programmi continua ad aumentare e, a causa delle risorse umane limitate, spesso crea gravi colli di bottiglia nel processo di valutazione. Questo studio descrive in dettaglio l'implementazione pratica della valutazione assistita da IA in due pipeline di iniziative governative: (i) domande di imprese per l'espansione commerciale internazionale, (ii) domande di rimborso da parte di cittadini per investimenti in miglioramenti energetici della casa. Sebbene questi due scenari comportino procedure di valutazione diverse, lo studio rileva che l'IA ha aumentato efficacemente l'efficienza di elaborazione e ridotto il carico di lavoro per entrambi i tipi di domanda. Nello specifico, nell'iniziativa di rimborso per i cittadini, la soluzione ha aumentato la produttività dei revisori del 20,1%, mantenendo al contempo un tasso di falsi positivi trascurabile sulla base delle osservazioni del set di test. Questi miglioramenti hanno ridotto il tempo totale di valutazione di oltre 2 mesi, dimostrando l'impatto dell'automazione guidata dall'IA nei flussi di lavoro di valutazione su larga scala.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il problema centrale affrontato da questo studio è il collo di bottiglia dell'efficienza nella valutazione dei progetti di finanziamento pubblico dell'UE. Con l'aumento esponenziale del numero di domande, i metodi tradizionali di valutazione manuale non riescono più a soddisfare le esigenze di elaborazione, causando cicli di valutazione prolungati, ridotta soddisfazione dei richiedenti e, in ultima analisi, impatto sulla fiducia pubblica nell'efficienza di queste iniziative.

Importanza del Problema

I progetti di finanziamento pubblico sono strumenti cruciali per promuovere la crescita economica, lo sviluppo sostenibile e l'innovazione. L'inefficienza nella valutazione non solo influisce sulla tempestività dell'allocazione dei fondi, ma può anche portare a progetti di qualità che perdono opportunità, compromettendo il raggiungimento degli obiettivi politici complessivi.

Limitazioni dei Metodi Esistenti

La revisione tradizionale dei documenti si basa su elaborazione del linguaggio naturale basata su regole e tecnologie di riconoscimento ottico dei caratteri, che funzionano bene in ambienti controllati ma sono altamente sensibili ai cambiamenti nella struttura e nel contenuto dei documenti, difficili da mantenere e difficili da estendere ad applicazioni più ampie.

Motivazione della Ricerca

L'emergere dei modelli linguistici di grandi dimensioni (LLM) offre una flessibilità e adattabilità senza precedenti per l'automazione dell'elaborazione dei documenti. Questo studio mira a esplorare come sfruttare gli LLM per migliorare l'efficienza e la coerenza della valutazione delle domande di finanziamento pubblico, garantendo al contempo la supervisione umana.

Contributi Principali

Rapporto sull'Esperienza di Implementazione Pratica: Prima relazione di successo di due sistemi di valutazione dei documenti assistiti da IA, dimostrando come l'automazione possa accelerare l'analisi delle domande garantendo l'integrità decisionale attraverso la supervisione umana.
Verifica degli Effetti Pratici: Realizzazione di un miglioramento della produttività dei revisori del 20,1% nell'iniziativa ReClaim, con riduzione del tempo totale di valutazione di oltre 2 mesi.
Sintesi delle Migliori Pratiche: Fornitura di migliori pratiche e insegnamenti chiave per l'integrazione dei modelli IA in ambienti simili, basati su esperienze di implementazione nel mondo reale.
Verifica Dual-Scenario: Validazione dell'universalità della valutazione assistita da IA attraverso due diversi tipi di iniziative governative (domande di internazionalizzazione aziendale e rimborsi per ristrutturazioni energetiche dei cittadini).

Descrizione Dettagliata della Metodologia

Definizione dei Compiti

Lo studio coinvolge due compiti distinti:

Compito IExp: Valutazione completa delle domande di internazionalizzazione aziendale, inclusa la generazione di riassunti dei documenti, il rilevamento della coerenza interna e la valutazione preliminare
Compito ReClaim: Verifica dei documenti per le domande di rimborso di ristrutturazioni energetiche dei cittadini, incentrata principalmente sul controllo della coerenza tra le informazioni della domanda e i documenti di supporto

Architettura del Sistema

Architettura del Sistema IExp

Input: Documenti di domanda aziendale con una media di 30.000 token (oltre 50 pagine)
Modello Principale: GPT-4o
Flusso di Elaborazione:
1. Segmentazione e filtraggio dei documenti per evitare il sovraccarico del contesto dell'LLM
2. Identificazione dei campi chiave per ogni compito basata sulla competenza del team di valutazione
3. Automazione di 6 compiti di valutazione più dispendiosi in termini di tempo
Output: Riassunto dell'applicazione, rapporto di coerenza, valutazione preliminare e motivazioni

Architettura del Sistema ReClaim

Input: Circa 80.000 domande, con una media di 11 documenti di supporto per domanda
Pipeline di Elaborazione Ibrida:
1. Standardizzazione dei Documenti: Supporto solo per formati di file ampiamente utilizzati come PDF, ZIP, PNG
2. Conversione XML: Trasformazione dei campi del modulo utente in formato XML strutturato
3. Estrazione di Informazioni VLM: Utilizzo di GPT-4o per analizzare documenti di supporto non strutturati
4. Controllo Automatico di Coerenza: Confronto tra le informazioni estratte e i valori riportati dal richiedente
Output: Elenco di verifica pre-compilato con contrassegno degli elementi che richiedono ispezione manuale

Punti di Innovazione Tecnica

Progettazione della Collaborazione Uomo-Macchina: L'output del sistema funge solo da suggerimento, garantendo che i revisori umani mantengano sempre la supervisione e la responsabilità
Ottimizzazione Specifica per Compito: Adozione di soluzioni personalizzate per diversi tipi di compiti di valutazione
Equilibrio Costi-Benefici: Controllo dei costi attraverso input mirati e prioritizzazione dei compiti
Conformità GDPR: L'elaborazione dei dati avviene completamente all'interno dei confini dell'UE, con archiviazione su disco locale crittografato

Configurazione Sperimentale

Dataset

Dataset IExp:
- Proof of Concept: 50 domande da precedenti bandi
- Valutazione Attuale: 11 domande supportate da strumenti IA
- Classificazione Attività: 764 domande precedenti
Dataset ReClaim:
- Numero Totale di Domande: circa 80.000
- Set di Test: 200 campioni, uniformemente distribuiti tra i vari tipi
- Numero Totale di Documenti: circa 880.000 documenti

Metriche di Valutazione

Metriche IExp:
- Allineamento del Riassunto: Somiglianza del Coseno, ROUGE-L, BLEU, METEOR
- Coerenza della Classificazione Attività: Livello di concordanza tra revisore e LLM
Metriche ReClaim:
- Miglioramento della Produttività: Percentuale di riduzione del tempo di elaborazione
- Tasso di Verifica Automatica: Proporzione di campi che non richiedono verifica manuale
- Accuratezza: Proporzione di corretto, errori minori, falsi positivi, falsi negativi, errori di lettura

Metodi di Confronto

Selezione del Modello: Confronto in cieco tra GPT-4o e Gemini-1.5 Pro
Modalità di Elaborazione: Confronto tra elaborazione assistita da IA e elaborazione puramente manuale

Risultati Sperimentali

Risultati Principali

Risultati del Sistema IExp

Miglioramento Significativo dell'Allineamento del Riassunto:
- Somiglianza del Coseno aumentata da 0,77 a 0,99
- Metriche ROUGE-L, BLEU e METEOR tutte aumentate da valori inferiori a 0,35 a oltre 0,9
Coerenza della Classificazione Attività:
- Concordanza tra LLM e revisore di circa il 70%
- Concordanza tra LLM e candidato ancora più elevata

Risultati del Sistema ReClaim

Miglioramento della Produttività: Aumento della produttività dei revisori di circa il 20%
Effetto della Verifica Automatica:
- Tasso di Verifica Automatica Complessivo: 76%
- Tassi di Verifica per Sezione: Verifica Qualifiche 84%, Nucleo Pubblico 76%, Verifica Tipo 67%
Analisi dell'Accuratezza:
- Tasso di Correttezza: 88%
- Errori Minori: 5%
- Falsi Positivi: 0%
- Falsi Negativi: 3%
- Errori di Lettura: 4%

Analisi dell'Impatto del Sistema

Effetti positivi dopo l'implementazione del sistema IA:

Richieste di Chiarimento/Domande: Ridotte da 2,13 a 2,05
Tasso di Ricorso dei Richiedenti: Ridotto da 25,8% a 20,4%

Feedback degli Utenti

Compito IExp: I valutatori stimano che l'assistenza IA potrebbe accelerare il processo di revisione fino al 30%
Compito ReClaim: Il feedback è polarizzato
- I revisori coinvolti nello sviluppo hanno espresso forte apprezzamento
- I revisori esperti stimano risparmi di tempo fino al 40%
- Alcuni revisori hanno perso fiducia dopo aver incontrato errori

Lavori Correlati

Metodi Tradizionali di Elaborazione dei Documenti

L'automazione tradizionale della revisione dei documenti si basa su NLP basato su regole e tecnologie OCR, che funzionano bene in ambienti controllati ma sono sensibili ai cambiamenti nella struttura dei documenti e difficili da mantenere.

Elaborazione dei Documenti Guidata da LLM

Settore Legale: Gli strumenti LLM sono in grado di rivedere e estrarre rapidamente vari testi legali
Risorse Umane: Evoluzione dall'analisi di base delle parole chiave all'abbinamento complesso candidato-ruolo
Amministrazione Pubblica: Transizione dalle soluzioni tradizionali di apprendimento automatico all'integrazione di IA generativa e LLM

Tendenze della Collaborazione Uomo-Macchina

A causa di casi di fallimento dovuti a pregiudizi, mancanza di trasparenza o eccessiva dipendenza dall'automazione non supervisionata, la maggior parte delle organizzazioni ora incorpora revisioni esplicite di collaborazione uomo-macchina nei punti decisionali critici.

Conclusioni e Discussione

Conclusioni Principali

Fattibilità Tecnica: Gli LLM hanno raggiunto una maturità sufficiente per supportare significativamente il processo di revisione delle domande
Miglioramento dell'Efficienza Significativo: In una pipeline di collaborazione uomo-macchina adeguatamente integrata, gli LLM possono accelerare notevolmente i flussi di lavoro di valutazione
Miglioramento della Coerenza: L'assistenza IA contribuisce a migliorare l'uniformità dell'output dei revisori

Insegnamenti Chiave

Ostacoli Organizzativi e Normativi

La burocrazia è spesso la causa principale dei ritardi e della riduzione della qualità della soluzione
Le restrizioni di proprietà delle piattaforme di terze parti limitano la capacità di modificare il sistema
I rigorosi requisiti GDPR restringono l'ambito dei modelli fattibili
I complessi flussi di lavoro di autorizzazione multi-step ritardano l'accesso ai dati

Modello di Adozione Polarizzato

I revisori tendono a dividersi in due gruppi: coloro che sono disposti a utilizzare lo strumento e si concentrano sui suoi vantaggi, e coloro che diventano molto cauti o critici quando il sistema commette errori
Una gestione del cambiamento efficace è essenziale per un'implementazione di successo

Alto Potenziale di Applicazione Pratica

La velocità di implementazione su larga scala è molto più veloce della valutazione manuale
Il sistema ReClaim ha elaborato circa 80.000 domande in meno di tre settimane
Con il continuo miglioramento dei modelli, la valutazione completamente automatizzata diventa sempre più fattibile

Limitazioni

Sistema IExp: Limitato dall'impossibilità di accedere a domande precedenti o database esterni
Sistema ReClaim: Affronta sfide dovute all'incoerenza dei formati dei documenti e alla presentazione di file di bassa qualità
Ambito di Applicabilità: Circa il 10% dei documenti è stato escluso dall'analisi automatica a causa di formati non supportati

Valutazione Approfondita

Punti di Forza

Valore di Implementazione Pratica: Uno dei pochi studi che riportano esperienze di implementazione reale di LLM, con importante significato di guida pratica
Sistema di Valutazione Completo: Dalle metriche tecniche al feedback degli utenti, dai miglioramenti dell'efficienza all'impatto del sistema, le dimensioni di valutazione sono complete
Verifica Dual-Scenario: Validazione dell'universalità del metodo attraverso due scenari di applicazione diversi
Condivisione Onesta dell'Esperienza: Rapporto obiettivo delle sfide e dei fallimenti incontrati durante l'implementazione

Insufficienze

Innovazione Tecnica Limitata: Principalmente applicazione della tecnologia LLM esistente, mancanza di innovazione a livello algoritmico
Scala di Valutazione Limitata: Dimensione del set di test relativamente piccola, in particolare i 11 campioni per il compito IExp
Effetti a Lungo Termine Sconosciuti: Tempo di implementazione di soli 3 mesi, gli effetti a lungo termine e la stabilità rimangono da verificare
Analisi Insufficiente dei Costi-Benefici: Mancanza di analisi dettagliata dei costi-benefici e calcolo del ROI

Impatto

Riferimento per la Formulazione delle Politiche: Fornisce un importante riferimento per l'adozione della tecnologia IA da parte dei dipartimenti governativi
Valore di Guida Pratica: Fornisce preziose esperienze per l'implementazione dell'IA in scenari simili
Applicazione Cross-Domain: Il metodo può essere esteso ad altri settori che richiedono l'elaborazione di documenti su larga scala

Scenari Applicabili

Istituzioni Governative: Vari processi di approvazione delle domande e revisione dei documenti
Istituzioni Finanziarie: Valutazione delle domande di prestito, revisione della conformità
Istituzioni Educative: Revisione dei materiali di candidatura, valutazione accademica
Organizzazioni Aziendali: Revisione interna dei documenti, valutazione dei fornitori

Bibliografia

L'articolo cita molteplici riferimenti importanti, inclusi:

Scheda di Sistema OpenAI GPT-4o (2024)
Documenti relativi alla Legge sull'Intelligenza Artificiale dell'UE
Ricerche correlate sull'applicazione degli LLM in vari settori
Ricerche sulle migliori pratiche di collaborazione uomo-macchina e implementazione responsabile dell'IA

Valutazione Complessiva: Questo è un articolo di ricerca applicata di importante valore pratico. Sebbene relativamente limitato in termini di innovazione tecnica, la sua esperienza di implementazione nel mondo reale e la valutazione completa degli effetti forniscono un riferimento prezioso per l'applicazione dell'IA nel settore pubblico. L'onestà e l'utilità pratica dell'articolo lo rendono un contributo importante in questo campo.