2025-11-14T12:40:11.870251

Leveraging LLMs to Streamline the Review of Public Funding Applications

Marques, Duarte, Carvalho et al.
Every year, the European Union and its member states allocate millions of euros to fund various development initiatives. However, the increasing number of applications received for these programs often creates significant bottlenecks in evaluation processes, due to limited human capacity. In this work, we detail the real-world deployment of AI-assisted evaluation within the pipeline of two government initiatives: (i) corporate applications aimed at international business expansion, and (ii) citizen reimbursement claims for investments in energy-efficient home improvements. While these two cases involve distinct evaluation procedures, our findings confirm that AI effectively enhanced processing efficiency and reduced workload across both types of applications. Specifically, in the citizen reimbursement claims initiative, our solution increased reviewer productivity by 20.1%, while keeping a negligible false-positive rate based on our test set observations. These improvements resulted in an overall reduction of more than 2 months in the total evaluation time, illustrating the impact of AI-driven automation in large-scale evaluation workflows.
academic

Nutzung von LLMs zur Rationalisierung der Überprüfung von Anträgen auf öffentliche Förderung

Grundlegende Informationen

  • Papier-ID: 2510.09674
  • Titel: Leveraging LLMs to Streamline the Review of Public Funding Applications
  • Autoren: João D.S. Marques, André V. Duarte, André Carvalho, Gil Rocha, Bruno Martins, Arlindo L. Oliveira
  • Klassifizierung: cs.CY cs.AI
  • Veröffentlichungsdatum: 8. Oktober 2025 (arXiv-Preprint)
  • Papier-Link: https://arxiv.org/abs/2510.09674

Zusammenfassung

Jährlich investiert die Europäische Union und ihre Mitgliedstaaten Millionen Euro in die Finanzierung verschiedener Entwicklungsinitiativen. Die Anzahl der eingegangenen Anträge nimmt jedoch ständig zu, und aufgrund begrenzter Personalressourcen entstehen häufig erhebliche Engpässe im Bewertungsprozess. Diese Forschung dokumentiert die praktische Implementierung von KI-gestützter Bewertung in zwei Regierungsinitiativen: (i) Unternehmensanträge zur internationalen Geschäftsexpansion und (ii) Erstattungsanträge von Bürgern für Investitionen in energieeffiziente Hausmodernisierung. Obwohl diese beiden Szenarien unterschiedliche Bewertungsverfahren beinhalten, zeigt die Forschung, dass KI die Verarbeitungseffizienz wirksam verbessert und die Arbeitsbelastung für beide Antragstypen reduziert. Konkret erhöhte die Lösung in der Bürgerererstattungsinitiative die Produktivität der Prüfer um 20,1%, während basierend auf Testbeobachtungen eine vernachlässigbare Falsch-Positiv-Rate beibehalten wurde. Diese Verbesserungen führten zu einer Verkürzung der Gesamtbewertungszeit um mehr als 2 Monate und demonstrieren die Auswirkungen von KI-gestützter Automatisierung in großflächigen Bewertungsabläufen.

Forschungshintergrund und Motivation

Problemdefinition

Das Kernproblem dieser Forschung ist der Effizienzengpass bei der Bewertung von Anträgen auf öffentliche EU-Förderung. Mit der Zunahme der Antragszahlen können traditionelle manuelle Bewertungsmethoden die Verarbeitungsanforderungen nicht mehr erfüllen, was zu längeren Bewertungszyklen, sinkender Antragstellerzufriedenheit und letztendlich zu vermindertem öffentlichem Vertrauen in die Effizienz dieser Initiativen führt.

Bedeutung des Problems

Öffentliche Förderungsprogramme sind wichtige Instrumente zur Förderung von Wirtschaftswachstum, nachhaltiger Entwicklung und Innovation. Unzureichende Bewertungseffizienz beeinträchtigt nicht nur die Aktualität der Mittelvergabe, sondern kann auch dazu führen, dass hochwertige Projekte Chancen verpassen und die Verwirklichung übergeordneter politischer Ziele beeinträchtigt wird.

Einschränkungen bestehender Methoden

Die traditionelle Dokumentenüberprüfung stützt sich auf regelbasierte Verarbeitung natürlicher Sprache und optische Zeichenerkennung, die in kontrollierten Umgebungen gut funktionieren, aber äußerst empfindlich gegenüber Änderungen der Dokumentstruktur und des Inhalts sind, schwer zu warten und schwer auf breitere Anwendungen zu skalieren sind.

Forschungsmotivation

Das Aufkommen großer Sprachmodelle (LLMs) bietet beispiellose Flexibilität und Anpassungsfähigkeit für die Automatisierung der Dokumentenverarbeitung. Diese Forschung zielt darauf ab zu untersuchen, wie LLMs unter Gewährleistung menschlicher Aufsicht die Effizienz und Konsistenz der Bewertung von Anträgen auf öffentliche Förderung verbessern können.

Kernbeiträge

  1. Bericht über praktische Implementierung: Erstmaliger Bericht über die erfolgreiche Implementierung zweier KI-gestützter Dokumentenbewertungssysteme, der zeigt, wie Automatisierung die Antraganalyse unter menschlicher Aufsicht zur Gewährleistung der Entscheidungsintegrität beschleunigt.
  2. Validierung praktischer Auswirkungen: Erreichung einer Produktivitätssteigerung der Prüfer um 20,1% in der ReClaim-Initiative mit einer Verkürzung der Gesamtbewertungszeit um mehr als 2 Monate.
  3. Zusammenfassung bewährter Praktiken: Bereitstellung bewährter Praktiken und wichtiger Erkenntnisse aus realen Implementierungserfahrungen zur Integration von KI-Modellen in ähnliche Umgebungen.
  4. Validierung in doppelten Szenarien: Validierung der Universalität der KI-gestützten Bewertung durch zwei verschiedene Arten von Regierungsinitiativen (Unternehmens-Internationalisierungsanträge und Bürgerererstattungen für Energieeffizienzmodernisierung).

Methodische Details

Aufgabendefinition

Die Forschung umfasst zwei unterschiedliche Aufgaben:

  1. IExp-Aufgabe: Umfassende Bewertung von Unternehmens-Internationalisierungsanträgen, einschließlich Dokumentzusammenfassung, Konsistenzprüfung und vorläufiger Bewertung
  2. ReClaim-Aufgabe: Dokumentenvalidierung für Bürgerererstattungsanträge, hauptsächlich Konsistenzprüfung zwischen Antragsinformationen und unterstützenden Dokumenten

Systemarchitektur

IExp-Systemarchitektur

  • Eingabe: Unternehmensanträge mit durchschnittlich 30.000 Token (über 50 Seiten)
  • Kernmodell: GPT-4o
  • Verarbeitungsprozess:
    1. Dokumentensegmentierung und Filterung zur Vermeidung von LLM-Kontextüberlastung
    2. Identifizierung von Schlüsselfeldern für jede Aufgabe basierend auf Fachwissen des Bewertungsteams
    3. Automatisierung von 6 der zeitaufwändigsten Bewertungsaufgaben
  • Ausgabe: Antragszusammenfassung, Konsistenzberichte, vorläufige Bewertung und Begründung

ReClaim-Systemarchitektur

  • Eingabe: Etwa 80.000 Anträge mit durchschnittlich 11 unterstützenden Dokumenten pro Antrag
  • Hybride Verarbeitungs-Pipeline:
    1. Dokumentenstandardisierung: Unterstützung nur weit verbreiteter Dateiformate wie PDF, ZIP, PNG
    2. XML-Konvertierung: Umwandlung von Benutzerformularfeldern in strukturiertes XML-Format
    3. VLM-Informationsextraktion: Verwendung von GPT-4o zur Analyse unstrukturierter unterstützender Dokumente
    4. Automatische Konsistenzprüfung: Vergleich extrahierter Informationen mit von Antragstellern gemeldeten Werten
  • Ausgabe: Vorausgefüllte Validierungschecklisten mit Markierung von Elementen, die manueller Überprüfung bedürfen

Technische Innovationspunkte

  1. Mensch-Maschine-Kooperationsdesign: Systemausgaben dienen nur als Empfehlungen, um sicherzustellen, dass menschliche Prüfer stets Aufsicht und Verantwortung behalten
  2. Aufgabenspezifische Optimierung: Maßgeschneiderte Lösungen für verschiedene Arten von Bewertungsaufgaben
  3. Kosten-Nutzen-Ausgleich: Kostenkontrolle durch zielgerichtete Eingaben und Aufgabenpriorisierung
  4. GDPR-Compliance: Datenverarbeitung vollständig innerhalb der EU-Grenzen, Speicherung auf verschlüsselten lokalen Festplatten

Experimentelle Einrichtung

Datensätze

  1. IExp-Datensatz:
    • Machbarkeitsstudie: 50 Anträge aus früheren Aufrufen
    • Aktuelle Bewertung: 11 Anträge mit KI-Werkzeugunterstützung
    • Aktivitätsklassifizierung: 764 frühere Anträge
  2. ReClaim-Datensatz:
    • Gesamtantragszahl: Etwa 80.000
    • Testmenge: 200 Stichproben, gleichmäßig über Typen verteilt
    • Gesamtdokumentenzahl: Etwa 880.000 Dokumente

Evaluierungsmetriken

  1. IExp-Metriken:
    • Zusammenfassungsausrichtung: Kosinus-Ähnlichkeit, ROUGE-L, BLEU, METEOR
    • Aktivitätsklassifizierungskonsistenz: Konsistenzgrad zwischen Prüfern und LLM
  2. ReClaim-Metriken:
    • Produktivitätssteigerung: Prozentsatz der Zeitverkürzung
    • Automatische Validierungsrate: Anteil der Felder ohne manuelle Validierung
    • Genauigkeit: Prozentsätze für korrekt, leichte Fehler, Falsch-Positive, Falsch-Negative, Lesefehler

Vergleichsmethoden

  • Modellauswahl: Verblindeter Vergleich GPT-4o vs. Gemini-1.5 Pro
  • Verarbeitungsweise: Vergleich KI-gestützt vs. rein manuelle Verarbeitung

Experimentelle Ergebnisse

Hauptergebnisse

IExp-Systembergebnisse

  1. Signifikante Verbesserung der Zusammenfassungsausrichtung:
    • Kosinus-Ähnlichkeit von 0,77 auf 0,99 verbessert
    • ROUGE-L-, BLEU- und METEOR-Metriken alle von unter 0,35 auf über 0,9 verbessert
  2. Aktivitätsklassifizierungskonsistenz:
    • Konsistenz zwischen LLM und Prüfern etwa 70%
    • Konsistenz zwischen LLM und Kandidaten höher

ReClaim-Systembergebnisse

  1. Produktivitätssteigerung: Prüferproduktivität um etwa 20% erhöht
  2. Automatische Validierungseffektivität:
    • Gesamtautomatische Validierungsrate: 76%
    • Validierungsraten nach Bereich: Berechtigungsprüfung 84%, öffentlicher Kern 76%, Typprüfung 67%
  3. Genauigkeitsanalyse:
    • Korrektheit: 88%
    • Leichte Fehler: 5%
    • Falsch-Positive: 0%
    • Falsch-Negative: 3%
    • Lesefehler: 4%

Systemauswirkungsanalyse

Positive Auswirkungen nach KI-Systemimplementierung:

  • Klarstellungsanfragen/Anträge: Von 2,13 auf 2,05 gesunken
  • Antragstellerberufungsquote: Von 25,8% auf 20,4% gesunken

Benutzer-Feedback

  1. IExp-Aufgabe: Bewerter schätzen, dass KI-Unterstützung den Überprüfungsprozess um bis zu 30% beschleunigen könnte
  2. ReClaim-Aufgabe: Feedback ist polarisiert
    • An der Entwicklung beteiligte Prüfer äußern starke Wertschätzung
    • Erfahrene Prüfer schätzen Zeiteinsparungen von bis zu 40%
    • Einige Prüfer verlieren nach Systemfehlern das Vertrauen

Verwandte Arbeiten

Traditionelle Dokumentenverarbeitungsmethoden

Die traditionelle automatisierte Dokumentenüberprüfung stützt sich auf regelbasierte NLP und OCR-Techniken, die in kontrollierten Umgebungen gut funktionieren, aber empfindlich gegenüber Dokumentstrukturänderungen sind und schwer zu warten sind.

LLM-gesteuerte Dokumentenverarbeitung

  • Rechtsbereich: LLM-Werkzeuge können schnell verschiedene Rechtstexte überprüfen und extrahieren
  • Personalwesen: Evolution von grundlegender Schlüsselwortanalyse zu komplexem Kandidaten-Rollen-Matching
  • Öffentliche Verwaltung: Übergang von traditionellen Machine-Learning-Lösungen zu generativer KI und LLM-Integration

Mensch-Maschine-Kooperationstrends

Aufgrund von Fehlern durch Verzerrungen, mangelnde Transparenz oder übermäßiges Vertrauen in unüberwachte Automatisierung integrieren die meisten Organisationen nun explizite Mensch-Maschine-Kooperationsprüfungen an kritischen Entscheidungspunkten.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Technische Machbarkeit: LLMs sind ausreichend reif, um Antragsprüfungsprozesse erheblich zu unterstützen
  2. Signifikante Effizienzsteigerung: In angemessen integrierten Mensch-Maschine-Kooperations-Pipelines können LLMs Bewertungsabläufe erheblich beschleunigen
  3. Verbesserung der Konsistenz: KI-Unterstützung trägt zur Verbesserung der Einheitlichkeit der Prüferausgaben bei

Wichtige Erkenntnisse

Organisatorische und regulatorische Hindernisse

  • Bürokratie ist häufig die Hauptursache für Verzögerungen und Qualitätsminderung von Lösungen
  • Eigentumsbeschränkungen von Drittanbieter-Plattformen begrenzen die Systemänderungsfähigkeit
  • Strenge GDPR-Anforderungen verringern die Palette realisierbarer Modelle
  • Komplexe mehrstufige Autorisierungs-Workflows verzögern den Datenzugriff

Polarisierte Adoptionsmuster

  • Prüfer teilen sich häufig in zwei Gruppen: diejenigen, die bereit sind, Werkzeuge zu nutzen und sich auf ihre Vorteile konzentrieren, und diejenigen, die sehr vorsichtig oder kritisch werden, wenn das System Fehler macht
  • Effektives Änderungsmanagement ist für erfolgreiche Implementierung entscheidend

Hohes praktisches Anwendungspotenzial

  • Großflächige Bereitstellung ist deutlich schneller als manuelle Bewertung
  • Das ReClaim-System verarbeitete etwa 80.000 Anträge in weniger als drei Wochen
  • Mit fortlaufenden Modellverbesserungen wird vollständig automatisierte Bewertung zunehmend machbar

Einschränkungen

  1. IExp-System: Eingeschränkt durch fehlenden Zugriff auf frühere Anträge oder externe Datenbanken
  2. ReClaim-System: Herausforderungen durch Dokumentformatinkonsistenz und minderwertige Dateieinreichungen
  3. Anwendungsbereich: Etwa 10% der Dokumente wurden aufgrund nicht unterstützter Formate von der automatischen Analyse ausgeschlossen

Tiefgreifende Bewertung

Stärken

  1. Praktischer Implementierungswert: Dies ist eine der wenigen Arbeiten, die echte Implementierungserfahrungen mit LLMs berichten, mit wichtiger praktischer Orientierungsbedeutung
  2. Umfassendes Evaluierungssystem: Vollständige Bewertungsdimensionen von technischen Metriken bis Benutzer-Feedback, von Effizienzsteigerung bis Systemauswirkungen
  3. Validierung in doppelten Szenarien: Validierung der Universalität der Methode durch zwei verschiedene Anwendungsszenarien
  4. Ehrliche Erfahrungsberichte: Objektive Berichterstattung über Herausforderungen und Fehlschläge bei der Implementierung

Schwächen

  1. Begrenzte technische Innovation: Hauptsächlich Anwendung bestehender LLM-Technologie, fehlende algorithmische Innovation
  2. Begrenzte Evaluierungsskala: Relativ kleine Testmengen, besonders die 11 Stichproben für die IExp-Aufgabe
  3. Langzeiteffekte unbekannt: Implementierungsdauer nur 3 Monate, Langzeiteffekte und Stabilität erfordern weitere Verifikation
  4. Unzureichende Kosteneffizienzanalyse: Fehlende detaillierte Kosteneffizienzanalyse und ROI-Berechnung

Auswirkungen

  1. Referenz für Politikgestaltung: Wichtige Referenz für die Übernahme von KI-Technologie durch Regierungsbehörden
  2. Praktischer Orientierungswert: Wertvolle Erfahrungen für KI-Implementierung in ähnlichen Szenarien
  3. Bereichsübergreifende Anwendung: Methoden können auf andere Bereiche mit großflächiger Dokumentenverarbeitung übertragen werden

Anwendbare Szenarien

  1. Regierungsbehörden: Verschiedene Antragsgenehmigungen, Dokumentenüberprüfungsprozesse
  2. Finanzinstitute: Kreditantragsüberprüfung, Compliance-Überprüfung
  3. Bildungsinstitute: Antragsmaterialüberprüfung, akademische Bewertung
  4. Unternehmensorganisationen: Interne Dokumentenüberprüfung, Lieferantenbewertung

Referenzen

Das Papier zitiert mehrere wichtige Referenzen, einschließlich:

  • OpenAI GPT-4o Systemkarte (2024)
  • EU-Gesetzgebung zu künstlicher Intelligenz
  • Verwandte Forschung zur LLM-Anwendung in verschiedenen Bereichen
  • Forschung zu bewährten Praktiken in Mensch-Maschine-Kooperation und verantwortungsvoller KI-Implementierung

Gesamtbewertung: Dies ist ein anwendungsorientiertes Forschungspapier mit wichtigem praktischem Wert. Obwohl die technische Innovation relativ begrenzt ist, bieten die Implementierungserfahrungen in der realen Welt und die umfassende Effektivitätsbewertung wertvolle Referenzen für die Anwendung von KI im öffentlichen Sektor. Die Ehrlichkeit und Praktikabilität des Papiers machen es zu einem wichtigen Beitrag auf diesem Gebiet.