2025-11-14T12:40:11.870251

Leveraging LLMs to Streamline the Review of Public Funding Applications

Marques, Duarte, Carvalho et al.
Every year, the European Union and its member states allocate millions of euros to fund various development initiatives. However, the increasing number of applications received for these programs often creates significant bottlenecks in evaluation processes, due to limited human capacity. In this work, we detail the real-world deployment of AI-assisted evaluation within the pipeline of two government initiatives: (i) corporate applications aimed at international business expansion, and (ii) citizen reimbursement claims for investments in energy-efficient home improvements. While these two cases involve distinct evaluation procedures, our findings confirm that AI effectively enhanced processing efficiency and reduced workload across both types of applications. Specifically, in the citizen reimbursement claims initiative, our solution increased reviewer productivity by 20.1%, while keeping a negligible false-positive rate based on our test set observations. These improvements resulted in an overall reduction of more than 2 months in the total evaluation time, illustrating the impact of AI-driven automation in large-scale evaluation workflows.
academic

Использование LLM для оптимизации проверки заявок на государственное финансирование

Основная информация

  • ID статьи: 2510.09674
  • Название: Leveraging LLMs to Streamline the Review of Public Funding Applications
  • Авторы: João D.S. Marques, André V. Duarte, André Carvalho, Gil Rocha, Bruno Martins, Arlindo L. Oliveira
  • Классификация: cs.CY cs.AI
  • Дата публикации: 8 октября 2025 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2510.09674

Аннотация

Ежегодно Европейский союз и его государства-члены инвестируют миллионы евро в финансирование различных инициатив развития. Однако количество поступающих заявок постоянно растёт, и при ограниченных человеческих ресурсах это часто создаёт серьёзные узкие места в процессе оценки. В данном исследовании подробно описывается практический опыт развёртывания AI-ассистированной оценки в двух государственных инициативах: (i) заявки предприятий на международное расширение бизнеса, (ii) заявки граждан на возмещение расходов на инвестиции в энергоэффективное улучшение жилья. Хотя эти два сценария предполагают различные процедуры оценки, исследование показывает, что AI эффективно повышает производительность обработки и снижает объём работ для обоих типов заявок. В частности, в инициативе возмещения расходов граждан решение повысило производительность рецензентов на 20,1%, одновременно сохраняя пренебрежимо малый уровень ложных срабатываний на основе наблюдений тестового набора. Эти улучшения сократили общее время оценки более чем на два месяца, демонстрируя влияние AI-ориентированной автоматизации на крупномасштабные рабочие процессы оценки.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема, которую решает данное исследование, — это узкие места в эффективности при оценке проектов государственного финансирования ЕС. С увеличением количества заявок традиционные методы ручной оценки больше не могут удовлетворить потребности в обработке, что приводит к удлинению цикла оценки, снижению удовлетворённости заявителей и, в конечном итоге, подрывает доверие общественности к эффективности этих инициатив.

Значимость проблемы

Проекты государственного финансирования являются важным инструментом для стимулирования экономического роста, устойчивого развития и инноваций. Низкая эффективность оценки не только влияет на своевременность распределения средств, но и может привести к упущению возможностей для качественных проектов, что влияет на достижение общих целей политики.

Ограничения существующих подходов

Традиционный анализ документов полагается на методы обработки естественного языка на основе правил и оптическое распознавание символов. Эти методы хорошо работают в контролируемых условиях, но крайне чувствительны к изменениям структуры и содержания документов, сложны в обслуживании и трудно масштабируются на более широкие приложения.

Исследовательская мотивация

Появление больших языковых моделей (LLM) обеспечило беспрецедентную гибкость и адаптивность для автоматизации обработки документов. Данное исследование направлено на изучение того, как использовать LLM для повышения эффективности и согласованности оценки заявок на государственное финансирование при обеспечении надлежшего человеческого надзора.

Основные вклады

  1. Отчёт о практическом развёртывании: Первый отчёт об успешном развёртывании двух систем AI-ассистированной оценки документов, демонстрирующий, как автоматизация может ускорить анализ заявок при обеспечении целостности решений посредством человеческого надзора.
  2. Верификация практических результатов: Достигнуто повышение производительности рецензентов на 20,1% в инициативе ReClaim с сокращением общего времени оценки более чем на два месяца.
  3. Обобщение лучших практик: На основе опыта реального развёртывания предоставлены лучшие практики и ключевые уроки для интеграции AI-моделей в аналогичные среды.
  4. Верификация в двойном сценарии: Подтверждена универсальность AI-ассистированной оценки через две различные типы государственных инициатив (заявки на международное расширение бизнеса и возмещение расходов граждан на энергоэффективность).

Подробное описание методологии

Определение задач

Исследование охватывает две различные задачи:

  1. Задача IExp: Комплексная оценка заявок на международное расширение бизнеса, включая генерацию резюме документов, обнаружение внутренней согласованности и предварительное оценивание
  2. Задача ReClaim: Проверка документов заявок граждан на возмещение расходов на энергоэффективность, в основном проверка согласованности информации заявки с вспомогательными документами

Архитектура системы

Архитектура системы IExp

  • Входные данные: Документы заявок предприятий в среднем объёмом 30 000 токенов (более 50 страниц)
  • Основная модель: GPT-4o
  • Процесс обработки:
    1. Сегментация и фильтрация документов во избежание перегрузки контекста LLM
    2. Определение ключевых полей для каждой задачи на основе профессиональных знаний команды оценки
    3. Автоматизация 6 наиболее трудозатратных задач оценки
  • Выходные данные: Резюме приложения, отчёты о согласованности, предварительное оценивание и обоснование

Архитектура системы ReClaim

  • Входные данные: Примерно 80 000 заявок, каждая со средним числом 11 вспомогательных документов
  • Гибридный конвейер обработки:
    1. Стандартизация документов: Поддержка только широко используемых форматов файлов (PDF, ZIP, PNG и т.д.)
    2. Преобразование в XML: Преобразование полей пользовательских форм в структурированный формат XML
    3. Извлечение информации VLM: Использование GPT-4o для анализа неструктурированных вспомогательных документов
    4. Автоматическая проверка согласованности: Сравнение извлечённой информации с указанными заявителем значениями
  • Выходные данные: Предварительно заполненный контрольный список проверки с отметками элементов, требующих ручной проверки

Технические инновации

  1. Дизайн человеко-машинного сотрудничества: Выходные данные системы служат только рекомендациями, обеспечивая, что человеческие рецензенты всегда сохраняют надзор и ответственность
  2. Оптимизация для конкретных задач: Применение специализированных решений для различных типов задач оценки
  3. Баланс затрат и выгод: Контроль затрат посредством целевых входных данных и приоритизации задач
  4. Соответствие GDPR: Обработка данных полностью осуществляется в границах ЕС с хранением на зашифрованных локальных дисках

Экспериментальная установка

Наборы данных

  1. Набор данных IExp:
    • Доказательство концепции: 50 заявок из предыдущих вызовов
    • Текущая оценка: 11 заявок с поддержкой AI-инструмента
    • Классификация деятельности: 764 предыдущих заявок
  2. Набор данных ReClaim:
    • Общее количество заявок: примерно 80 000
    • Тестовый набор: 200 образцов, равномерно распределённые по типам
    • Общее количество документов: примерно 880 000 документов

Метрики оценки

  1. Метрики IExp:
    • Выравнивание резюме: косинусное сходство, ROUGE-L, BLEU, METEOR
    • Согласованность классификации деятельности: уровень согласованности между рецензентом и LLM
  2. Метрики ReClaim:
    • Повышение производительности: процент сокращения времени обработки
    • Коэффициент автоматической проверки: доля полей, не требующих ручной проверки
    • Точность: процентное соотношение правильных результатов, незначительных ошибок, ложных срабатываний, пропусков и ошибок чтения

Методы сравнения

  • Выбор модели: Слепое сравнение GPT-4o и Gemini-1.5 Pro
  • Способ обработки: Сравнение эффективности AI-ассистированной обработки и чистой ручной обработки

Результаты экспериментов

Основные результаты

Результаты системы IExp

  1. Значительное улучшение выравнивания резюме:
    • Косинусное сходство повысилось с 0,77 до 0,99
    • Метрики ROUGE-L, BLEU и METEOR повысились с менее 0,35 до более 0,9
  2. Согласованность классификации деятельности:
    • Согласованность между LLM и рецензентом составляет примерно 70%
    • Согласованность между LLM и кандидатом выше

Результаты системы ReClaim

  1. Повышение производительности: Производительность рецензентов повысилась примерно на 20%
  2. Эффективность автоматической проверки:
    • Общий коэффициент автоматической проверки: 76%
    • Коэффициенты проверки по разделам: проверка квалификации 84%, основной публичный раздел 76%, проверка типа 67%
  3. Анализ точности:
    • Коэффициент правильности: 88%
    • Незначительные ошибки: 5%
    • Ложные срабатывания: 0%
    • Пропуски: 3%
    • Ошибки чтения: 4%

Анализ влияния системы

Положительные эффекты после развёртывания AI-системы:

  • Запросы уточнения/заявки: снизились с 2,13 до 2,05
  • Коэффициент апелляций заявителей: снизился с 25,8% до 20,4%

Отзывы пользователей

  1. Задача IExp: Оценщики оценили, что AI-ассистирование может ускорить процесс проверки до 30%
  2. Задача ReClaim: Отзывы поляризованы
    • Рецензенты, участвовавшие в разработке, выразили сильную признательность
    • Опытные рецензенты оценили экономию времени до 40%
    • Некоторые рецензенты потеряли доверие после столкновения с ошибками

Связанные работы

Традиционные методы обработки документов

Традиционная автоматизация анализа документов полагается на методы обработки естественного языка на основе правил и технологию OCR, которые хорошо работают в контролируемых условиях, но чувствительны к изменениям структуры документов и сложны в обслуживании.

Обработка документов на основе LLM

  • Юридическая область: Инструменты LLM способны быстро анализировать и извлекать информацию из различных юридических текстов
  • Управление человеческими ресурсами: Эволюция от базового анализа ключевых слов к сложному сопоставлению кандидатов и должностей
  • Государственное управление: Переход от традиционных решений машинного обучения к интеграции генеративного AI и LLM

Тренды человеко-машинного сотрудничества

Из-за случаев отказа, вызванных предвзятостью, недостаточной прозрачностью или чрезмерной зависимостью от неконтролируемой автоматизации, большинство организаций теперь встраивают явное человеко-машинное сотрудничество в критические точки принятия решений.

Выводы и обсуждение

Основные выводы

  1. Технологическая осуществимость: LLM достаточно зрелы, чтобы значительно поддерживать процесс проверки заявок
  2. Значительное повышение эффективности: В надлежащим образом интегрированном конвейере человеко-машинного сотрудничества LLM могут значительно ускорить рабочие процессы оценки
  3. Улучшение согласованности: AI-ассистирование помогает повысить единообразие выходных данных рецензентов

Ключевые уроки

Организационные и нормативные препятствия

  • Бюрократия часто является основной причиной задержек и снижения качества решений
  • Ограничения прав собственности третьих сторон на платформы ограничивают возможность модификации системы
  • Строгие требования GDPR сужают диапазон жизнеспособных моделей
  • Сложные многоэтапные рабочие процессы авторизации задерживают доступ к данным

Поляризованные модели внедрения

  • Рецензенты часто разделяются на две группы: готовые использовать инструменты и сосредоточенные на их преимуществах, и те, кто становится очень осторожным или критичным при ошибках системы
  • Эффективное управление изменениями критически важно для успешной реализации

Высокий потенциал практического применения

  • Скорость крупномасштабного развёртывания значительно превышает ручную оценку
  • Система ReClaim обработала примерно 80 000 заявок менее чем за три недели
  • По мере постоянного совершенствования моделей полная автоматизация оценки становится всё более осуществимой

Ограничения

  1. Система IExp: Ограничена отсутствием доступа к предыдущим заявкам или внешним базам данных
  2. Система ReClaim: Сталкивается с проблемами несогласованности форматов документов и низкокачественных файлов
  3. Область применения: Примерно 10% документов исключены из автоматического анализа из-за неподдерживаемых форматов

Углубленная оценка

Преимущества

  1. Практическая ценность развёртывания: Это одно из немногих исследований, сообщающих об опыте реального развёртывания LLM, имеющее важное практическое руководящее значение
  2. Комплексная система оценки: От технических метрик до отзывов пользователей, от повышения эффективности до влияния на систему — оценка охватывает все аспекты
  3. Верификация в двойном сценарии: Подтверждение универсальности метода через два различных типа сценариев применения
  4. Честное обмен опытом: Объективный отчёт о проблемах и неудачах, встреченных при развёртывании

Недостатки

  1. Ограниченные технологические инновации: В основном применение существующих технологий LLM, отсутствие инноваций на уровне алгоритмов
  2. Ограниченный масштаб оценки: Относительно небольшой размер тестового набора, особенно 11 образцов для задачи IExp
  3. Неизвестные долгосрочные эффекты: Время развёртывания составило только 3 месяца, долгосрочные эффекты и стабильность требуют дальнейшей проверки
  4. Недостаточный анализ затрат и выгод: Отсутствует детальный анализ затрат и выгод и расчёт ROI

Влияние

  1. Справочная информация для разработки политики: Предоставляет важные справочные материалы для государственных учреждений по внедрению технологии AI
  2. Практическая ценность руководства: Предоставляет ценный опыт для развёртывания AI в аналогичных сценариях
  3. Трансдисциплинарное применение: Метод может быть распространён на другие области, требующие крупномасштабной обработки документов

Применимые сценарии

  1. Государственные учреждения: Различные процессы одобрения заявок и анализа документов
  2. Финансовые учреждения: Анализ кредитных заявок и проверка соответствия требованиям
  3. Образовательные учреждения: Проверка материалов заявок и академическая оценка
  4. Корпоративные организации: Внутренний анализ документов и оценка поставщиков

Библиография

Статья ссылается на несколько важных источников, включая:

  • Карточку системы OpenAI GPT-4o (2024)
  • Документы, относящиеся к Закону об искусственном интеллекте ЕС
  • Исследования применения LLM в различных областях
  • Исследования лучших практик человеко-машинного сотрудничества и ответственного развёртывания AI

Общая оценка: Это прикладная исследовательская статья с важной практической ценностью. Хотя она относительно ограничена в технологических инновациях, её опыт реального развёртывания и комплексная оценка эффективности предоставляют ценные справочные материалы для применения AI в государственном секторе. Честность и практичность статьи делают её важным вкладом в данную область.