Every year, the European Union and its member states allocate millions of euros to fund various development initiatives. However, the increasing number of applications received for these programs often creates significant bottlenecks in evaluation processes, due to limited human capacity. In this work, we detail the real-world deployment of AI-assisted evaluation within the pipeline of two government initiatives: (i) corporate applications aimed at international business expansion, and (ii) citizen reimbursement claims for investments in energy-efficient home improvements. While these two cases involve distinct evaluation procedures, our findings confirm that AI effectively enhanced processing efficiency and reduced workload across both types of applications. Specifically, in the citizen reimbursement claims initiative, our solution increased reviewer productivity by 20.1%, while keeping a negligible false-positive rate based on our test set observations. These improvements resulted in an overall reduction of more than 2 months in the total evaluation time, illustrating the impact of AI-driven automation in large-scale evaluation workflows.
Sfruttare i LLM per Razionalizzare la Revisione delle Domande di Finanziamento Pubblico
- ID Articolo: 2510.09674
- Titolo: Leveraging LLMs to Streamline the Review of Public Funding Applications
- Autori: João D.S. Marques, André V. Duarte, André Carvalho, Gil Rocha, Bruno Martins, Arlindo L. Oliveira
- Classificazione: cs.CY cs.AI
- Data di Pubblicazione: 8 ottobre 2025 (preprint arXiv)
- Link Articolo: https://arxiv.org/abs/2510.09674
Ogni anno, l'Unione Europea e i suoi Stati membri investono milioni di euro nel finanziamento di varie iniziative di sviluppo. Tuttavia, il numero di domande ricevute da questi programmi continua ad aumentare e, a causa delle risorse umane limitate, spesso crea gravi colli di bottiglia nel processo di valutazione. Questo studio descrive in dettaglio l'implementazione pratica della valutazione assistita da IA in due pipeline di iniziative governative: (i) domande di imprese per l'espansione commerciale internazionale, (ii) domande di rimborso da parte di cittadini per investimenti in miglioramenti energetici della casa. Sebbene questi due scenari comportino procedure di valutazione diverse, lo studio rileva che l'IA ha aumentato efficacemente l'efficienza di elaborazione e ridotto il carico di lavoro per entrambi i tipi di domanda. Nello specifico, nell'iniziativa di rimborso per i cittadini, la soluzione ha aumentato la produttività dei revisori del 20,1%, mantenendo al contempo un tasso di falsi positivi trascurabile sulla base delle osservazioni del set di test. Questi miglioramenti hanno ridotto il tempo totale di valutazione di oltre 2 mesi, dimostrando l'impatto dell'automazione guidata dall'IA nei flussi di lavoro di valutazione su larga scala.
Il problema centrale affrontato da questo studio è il collo di bottiglia dell'efficienza nella valutazione dei progetti di finanziamento pubblico dell'UE. Con l'aumento esponenziale del numero di domande, i metodi tradizionali di valutazione manuale non riescono più a soddisfare le esigenze di elaborazione, causando cicli di valutazione prolungati, ridotta soddisfazione dei richiedenti e, in ultima analisi, impatto sulla fiducia pubblica nell'efficienza di queste iniziative.
I progetti di finanziamento pubblico sono strumenti cruciali per promuovere la crescita economica, lo sviluppo sostenibile e l'innovazione. L'inefficienza nella valutazione non solo influisce sulla tempestività dell'allocazione dei fondi, ma può anche portare a progetti di qualità che perdono opportunità, compromettendo il raggiungimento degli obiettivi politici complessivi.
La revisione tradizionale dei documenti si basa su elaborazione del linguaggio naturale basata su regole e tecnologie di riconoscimento ottico dei caratteri, che funzionano bene in ambienti controllati ma sono altamente sensibili ai cambiamenti nella struttura e nel contenuto dei documenti, difficili da mantenere e difficili da estendere ad applicazioni più ampie.
L'emergere dei modelli linguistici di grandi dimensioni (LLM) offre una flessibilità e adattabilità senza precedenti per l'automazione dell'elaborazione dei documenti. Questo studio mira a esplorare come sfruttare gli LLM per migliorare l'efficienza e la coerenza della valutazione delle domande di finanziamento pubblico, garantendo al contempo la supervisione umana.
- Rapporto sull'Esperienza di Implementazione Pratica: Prima relazione di successo di due sistemi di valutazione dei documenti assistiti da IA, dimostrando come l'automazione possa accelerare l'analisi delle domande garantendo l'integrità decisionale attraverso la supervisione umana.
- Verifica degli Effetti Pratici: Realizzazione di un miglioramento della produttività dei revisori del 20,1% nell'iniziativa ReClaim, con riduzione del tempo totale di valutazione di oltre 2 mesi.
- Sintesi delle Migliori Pratiche: Fornitura di migliori pratiche e insegnamenti chiave per l'integrazione dei modelli IA in ambienti simili, basati su esperienze di implementazione nel mondo reale.
- Verifica Dual-Scenario: Validazione dell'universalità della valutazione assistita da IA attraverso due diversi tipi di iniziative governative (domande di internazionalizzazione aziendale e rimborsi per ristrutturazioni energetiche dei cittadini).
Lo studio coinvolge due compiti distinti:
- Compito IExp: Valutazione completa delle domande di internazionalizzazione aziendale, inclusa la generazione di riassunti dei documenti, il rilevamento della coerenza interna e la valutazione preliminare
- Compito ReClaim: Verifica dei documenti per le domande di rimborso di ristrutturazioni energetiche dei cittadini, incentrata principalmente sul controllo della coerenza tra le informazioni della domanda e i documenti di supporto
- Input: Documenti di domanda aziendale con una media di 30.000 token (oltre 50 pagine)
- Modello Principale: GPT-4o
- Flusso di Elaborazione:
- Segmentazione e filtraggio dei documenti per evitare il sovraccarico del contesto dell'LLM
- Identificazione dei campi chiave per ogni compito basata sulla competenza del team di valutazione
- Automazione di 6 compiti di valutazione più dispendiosi in termini di tempo
- Output: Riassunto dell'applicazione, rapporto di coerenza, valutazione preliminare e motivazioni
- Input: Circa 80.000 domande, con una media di 11 documenti di supporto per domanda
- Pipeline di Elaborazione Ibrida:
- Standardizzazione dei Documenti: Supporto solo per formati di file ampiamente utilizzati come PDF, ZIP, PNG
- Conversione XML: Trasformazione dei campi del modulo utente in formato XML strutturato
- Estrazione di Informazioni VLM: Utilizzo di GPT-4o per analizzare documenti di supporto non strutturati
- Controllo Automatico di Coerenza: Confronto tra le informazioni estratte e i valori riportati dal richiedente
- Output: Elenco di verifica pre-compilato con contrassegno degli elementi che richiedono ispezione manuale
- Progettazione della Collaborazione Uomo-Macchina: L'output del sistema funge solo da suggerimento, garantendo che i revisori umani mantengano sempre la supervisione e la responsabilità
- Ottimizzazione Specifica per Compito: Adozione di soluzioni personalizzate per diversi tipi di compiti di valutazione
- Equilibrio Costi-Benefici: Controllo dei costi attraverso input mirati e prioritizzazione dei compiti
- Conformità GDPR: L'elaborazione dei dati avviene completamente all'interno dei confini dell'UE, con archiviazione su disco locale crittografato
- Dataset IExp:
- Proof of Concept: 50 domande da precedenti bandi
- Valutazione Attuale: 11 domande supportate da strumenti IA
- Classificazione Attività: 764 domande precedenti
- Dataset ReClaim:
- Numero Totale di Domande: circa 80.000
- Set di Test: 200 campioni, uniformemente distribuiti tra i vari tipi
- Numero Totale di Documenti: circa 880.000 documenti
- Metriche IExp:
- Allineamento del Riassunto: Somiglianza del Coseno, ROUGE-L, BLEU, METEOR
- Coerenza della Classificazione Attività: Livello di concordanza tra revisore e LLM
- Metriche ReClaim:
- Miglioramento della Produttività: Percentuale di riduzione del tempo di elaborazione
- Tasso di Verifica Automatica: Proporzione di campi che non richiedono verifica manuale
- Accuratezza: Proporzione di corretto, errori minori, falsi positivi, falsi negativi, errori di lettura
- Selezione del Modello: Confronto in cieco tra GPT-4o e Gemini-1.5 Pro
- Modalità di Elaborazione: Confronto tra elaborazione assistita da IA e elaborazione puramente manuale
- Miglioramento Significativo dell'Allineamento del Riassunto:
- Somiglianza del Coseno aumentata da 0,77 a 0,99
- Metriche ROUGE-L, BLEU e METEOR tutte aumentate da valori inferiori a 0,35 a oltre 0,9
- Coerenza della Classificazione Attività:
- Concordanza tra LLM e revisore di circa il 70%
- Concordanza tra LLM e candidato ancora più elevata
- Miglioramento della Produttività: Aumento della produttività dei revisori di circa il 20%
- Effetto della Verifica Automatica:
- Tasso di Verifica Automatica Complessivo: 76%
- Tassi di Verifica per Sezione: Verifica Qualifiche 84%, Nucleo Pubblico 76%, Verifica Tipo 67%
- Analisi dell'Accuratezza:
- Tasso di Correttezza: 88%
- Errori Minori: 5%
- Falsi Positivi: 0%
- Falsi Negativi: 3%
- Errori di Lettura: 4%
Effetti positivi dopo l'implementazione del sistema IA:
- Richieste di Chiarimento/Domande: Ridotte da 2,13 a 2,05
- Tasso di Ricorso dei Richiedenti: Ridotto da 25,8% a 20,4%
- Compito IExp: I valutatori stimano che l'assistenza IA potrebbe accelerare il processo di revisione fino al 30%
- Compito ReClaim: Il feedback è polarizzato
- I revisori coinvolti nello sviluppo hanno espresso forte apprezzamento
- I revisori esperti stimano risparmi di tempo fino al 40%
- Alcuni revisori hanno perso fiducia dopo aver incontrato errori
L'automazione tradizionale della revisione dei documenti si basa su NLP basato su regole e tecnologie OCR, che funzionano bene in ambienti controllati ma sono sensibili ai cambiamenti nella struttura dei documenti e difficili da mantenere.
- Settore Legale: Gli strumenti LLM sono in grado di rivedere e estrarre rapidamente vari testi legali
- Risorse Umane: Evoluzione dall'analisi di base delle parole chiave all'abbinamento complesso candidato-ruolo
- Amministrazione Pubblica: Transizione dalle soluzioni tradizionali di apprendimento automatico all'integrazione di IA generativa e LLM
A causa di casi di fallimento dovuti a pregiudizi, mancanza di trasparenza o eccessiva dipendenza dall'automazione non supervisionata, la maggior parte delle organizzazioni ora incorpora revisioni esplicite di collaborazione uomo-macchina nei punti decisionali critici.
- Fattibilità Tecnica: Gli LLM hanno raggiunto una maturità sufficiente per supportare significativamente il processo di revisione delle domande
- Miglioramento dell'Efficienza Significativo: In una pipeline di collaborazione uomo-macchina adeguatamente integrata, gli LLM possono accelerare notevolmente i flussi di lavoro di valutazione
- Miglioramento della Coerenza: L'assistenza IA contribuisce a migliorare l'uniformità dell'output dei revisori
- La burocrazia è spesso la causa principale dei ritardi e della riduzione della qualità della soluzione
- Le restrizioni di proprietà delle piattaforme di terze parti limitano la capacità di modificare il sistema
- I rigorosi requisiti GDPR restringono l'ambito dei modelli fattibili
- I complessi flussi di lavoro di autorizzazione multi-step ritardano l'accesso ai dati
- I revisori tendono a dividersi in due gruppi: coloro che sono disposti a utilizzare lo strumento e si concentrano sui suoi vantaggi, e coloro che diventano molto cauti o critici quando il sistema commette errori
- Una gestione del cambiamento efficace è essenziale per un'implementazione di successo
- La velocità di implementazione su larga scala è molto più veloce della valutazione manuale
- Il sistema ReClaim ha elaborato circa 80.000 domande in meno di tre settimane
- Con il continuo miglioramento dei modelli, la valutazione completamente automatizzata diventa sempre più fattibile
- Sistema IExp: Limitato dall'impossibilità di accedere a domande precedenti o database esterni
- Sistema ReClaim: Affronta sfide dovute all'incoerenza dei formati dei documenti e alla presentazione di file di bassa qualità
- Ambito di Applicabilità: Circa il 10% dei documenti è stato escluso dall'analisi automatica a causa di formati non supportati
- Valore di Implementazione Pratica: Uno dei pochi studi che riportano esperienze di implementazione reale di LLM, con importante significato di guida pratica
- Sistema di Valutazione Completo: Dalle metriche tecniche al feedback degli utenti, dai miglioramenti dell'efficienza all'impatto del sistema, le dimensioni di valutazione sono complete
- Verifica Dual-Scenario: Validazione dell'universalità del metodo attraverso due scenari di applicazione diversi
- Condivisione Onesta dell'Esperienza: Rapporto obiettivo delle sfide e dei fallimenti incontrati durante l'implementazione
- Innovazione Tecnica Limitata: Principalmente applicazione della tecnologia LLM esistente, mancanza di innovazione a livello algoritmico
- Scala di Valutazione Limitata: Dimensione del set di test relativamente piccola, in particolare i 11 campioni per il compito IExp
- Effetti a Lungo Termine Sconosciuti: Tempo di implementazione di soli 3 mesi, gli effetti a lungo termine e la stabilità rimangono da verificare
- Analisi Insufficiente dei Costi-Benefici: Mancanza di analisi dettagliata dei costi-benefici e calcolo del ROI
- Riferimento per la Formulazione delle Politiche: Fornisce un importante riferimento per l'adozione della tecnologia IA da parte dei dipartimenti governativi
- Valore di Guida Pratica: Fornisce preziose esperienze per l'implementazione dell'IA in scenari simili
- Applicazione Cross-Domain: Il metodo può essere esteso ad altri settori che richiedono l'elaborazione di documenti su larga scala
- Istituzioni Governative: Vari processi di approvazione delle domande e revisione dei documenti
- Istituzioni Finanziarie: Valutazione delle domande di prestito, revisione della conformità
- Istituzioni Educative: Revisione dei materiali di candidatura, valutazione accademica
- Organizzazioni Aziendali: Revisione interna dei documenti, valutazione dei fornitori
L'articolo cita molteplici riferimenti importanti, inclusi:
- Scheda di Sistema OpenAI GPT-4o (2024)
- Documenti relativi alla Legge sull'Intelligenza Artificiale dell'UE
- Ricerche correlate sull'applicazione degli LLM in vari settori
- Ricerche sulle migliori pratiche di collaborazione uomo-macchina e implementazione responsabile dell'IA
Valutazione Complessiva: Questo è un articolo di ricerca applicata di importante valore pratico. Sebbene relativamente limitato in termini di innovazione tecnica, la sua esperienza di implementazione nel mondo reale e la valutazione completa degli effetti forniscono un riferimento prezioso per l'applicazione dell'IA nel settore pubblico. L'onestà e l'utilità pratica dell'articolo lo rendono un contributo importante in questo campo.