Every year, the European Union and its member states allocate millions of euros to fund various development initiatives. However, the increasing number of applications received for these programs often creates significant bottlenecks in evaluation processes, due to limited human capacity. In this work, we detail the real-world deployment of AI-assisted evaluation within the pipeline of two government initiatives: (i) corporate applications aimed at international business expansion, and (ii) citizen reimbursement claims for investments in energy-efficient home improvements. While these two cases involve distinct evaluation procedures, our findings confirm that AI effectively enhanced processing efficiency and reduced workload across both types of applications. Specifically, in the citizen reimbursement claims initiative, our solution increased reviewer productivity by 20.1%, while keeping a negligible false-positive rate based on our test set observations. These improvements resulted in an overall reduction of more than 2 months in the total evaluation time, illustrating the impact of AI-driven automation in large-scale evaluation workflows.
- ID статьи: 2510.09674
- Название: Leveraging LLMs to Streamline the Review of Public Funding Applications
- Авторы: João D.S. Marques, André V. Duarte, André Carvalho, Gil Rocha, Bruno Martins, Arlindo L. Oliveira
- Классификация: cs.CY cs.AI
- Дата публикации: 8 октября 2025 г. (препринт arXiv)
- Ссылка на статью: https://arxiv.org/abs/2510.09674
Ежегодно Европейский союз и его государства-члены инвестируют миллионы евро в финансирование различных инициатив развития. Однако количество поступающих заявок постоянно растёт, и при ограниченных человеческих ресурсах это часто создаёт серьёзные узкие места в процессе оценки. В данном исследовании подробно описывается практический опыт развёртывания AI-ассистированной оценки в двух государственных инициативах: (i) заявки предприятий на международное расширение бизнеса, (ii) заявки граждан на возмещение расходов на инвестиции в энергоэффективное улучшение жилья. Хотя эти два сценария предполагают различные процедуры оценки, исследование показывает, что AI эффективно повышает производительность обработки и снижает объём работ для обоих типов заявок. В частности, в инициативе возмещения расходов граждан решение повысило производительность рецензентов на 20,1%, одновременно сохраняя пренебрежимо малый уровень ложных срабатываний на основе наблюдений тестового набора. Эти улучшения сократили общее время оценки более чем на два месяца, демонстрируя влияние AI-ориентированной автоматизации на крупномасштабные рабочие процессы оценки.
Основная проблема, которую решает данное исследование, — это узкие места в эффективности при оценке проектов государственного финансирования ЕС. С увеличением количества заявок традиционные методы ручной оценки больше не могут удовлетворить потребности в обработке, что приводит к удлинению цикла оценки, снижению удовлетворённости заявителей и, в конечном итоге, подрывает доверие общественности к эффективности этих инициатив.
Проекты государственного финансирования являются важным инструментом для стимулирования экономического роста, устойчивого развития и инноваций. Низкая эффективность оценки не только влияет на своевременность распределения средств, но и может привести к упущению возможностей для качественных проектов, что влияет на достижение общих целей политики.
Традиционный анализ документов полагается на методы обработки естественного языка на основе правил и оптическое распознавание символов. Эти методы хорошо работают в контролируемых условиях, но крайне чувствительны к изменениям структуры и содержания документов, сложны в обслуживании и трудно масштабируются на более широкие приложения.
Появление больших языковых моделей (LLM) обеспечило беспрецедентную гибкость и адаптивность для автоматизации обработки документов. Данное исследование направлено на изучение того, как использовать LLM для повышения эффективности и согласованности оценки заявок на государственное финансирование при обеспечении надлежшего человеческого надзора.
- Отчёт о практическом развёртывании: Первый отчёт об успешном развёртывании двух систем AI-ассистированной оценки документов, демонстрирующий, как автоматизация может ускорить анализ заявок при обеспечении целостности решений посредством человеческого надзора.
- Верификация практических результатов: Достигнуто повышение производительности рецензентов на 20,1% в инициативе ReClaim с сокращением общего времени оценки более чем на два месяца.
- Обобщение лучших практик: На основе опыта реального развёртывания предоставлены лучшие практики и ключевые уроки для интеграции AI-моделей в аналогичные среды.
- Верификация в двойном сценарии: Подтверждена универсальность AI-ассистированной оценки через две различные типы государственных инициатив (заявки на международное расширение бизнеса и возмещение расходов граждан на энергоэффективность).
Исследование охватывает две различные задачи:
- Задача IExp: Комплексная оценка заявок на международное расширение бизнеса, включая генерацию резюме документов, обнаружение внутренней согласованности и предварительное оценивание
- Задача ReClaim: Проверка документов заявок граждан на возмещение расходов на энергоэффективность, в основном проверка согласованности информации заявки с вспомогательными документами
- Входные данные: Документы заявок предприятий в среднем объёмом 30 000 токенов (более 50 страниц)
- Основная модель: GPT-4o
- Процесс обработки:
- Сегментация и фильтрация документов во избежание перегрузки контекста LLM
- Определение ключевых полей для каждой задачи на основе профессиональных знаний команды оценки
- Автоматизация 6 наиболее трудозатратных задач оценки
- Выходные данные: Резюме приложения, отчёты о согласованности, предварительное оценивание и обоснование
- Входные данные: Примерно 80 000 заявок, каждая со средним числом 11 вспомогательных документов
- Гибридный конвейер обработки:
- Стандартизация документов: Поддержка только широко используемых форматов файлов (PDF, ZIP, PNG и т.д.)
- Преобразование в XML: Преобразование полей пользовательских форм в структурированный формат XML
- Извлечение информации VLM: Использование GPT-4o для анализа неструктурированных вспомогательных документов
- Автоматическая проверка согласованности: Сравнение извлечённой информации с указанными заявителем значениями
- Выходные данные: Предварительно заполненный контрольный список проверки с отметками элементов, требующих ручной проверки
- Дизайн человеко-машинного сотрудничества: Выходные данные системы служат только рекомендациями, обеспечивая, что человеческие рецензенты всегда сохраняют надзор и ответственность
- Оптимизация для конкретных задач: Применение специализированных решений для различных типов задач оценки
- Баланс затрат и выгод: Контроль затрат посредством целевых входных данных и приоритизации задач
- Соответствие GDPR: Обработка данных полностью осуществляется в границах ЕС с хранением на зашифрованных локальных дисках
- Набор данных IExp:
- Доказательство концепции: 50 заявок из предыдущих вызовов
- Текущая оценка: 11 заявок с поддержкой AI-инструмента
- Классификация деятельности: 764 предыдущих заявок
- Набор данных ReClaim:
- Общее количество заявок: примерно 80 000
- Тестовый набор: 200 образцов, равномерно распределённые по типам
- Общее количество документов: примерно 880 000 документов
- Метрики IExp:
- Выравнивание резюме: косинусное сходство, ROUGE-L, BLEU, METEOR
- Согласованность классификации деятельности: уровень согласованности между рецензентом и LLM
- Метрики ReClaim:
- Повышение производительности: процент сокращения времени обработки
- Коэффициент автоматической проверки: доля полей, не требующих ручной проверки
- Точность: процентное соотношение правильных результатов, незначительных ошибок, ложных срабатываний, пропусков и ошибок чтения
- Выбор модели: Слепое сравнение GPT-4o и Gemini-1.5 Pro
- Способ обработки: Сравнение эффективности AI-ассистированной обработки и чистой ручной обработки
- Значительное улучшение выравнивания резюме:
- Косинусное сходство повысилось с 0,77 до 0,99
- Метрики ROUGE-L, BLEU и METEOR повысились с менее 0,35 до более 0,9
- Согласованность классификации деятельности:
- Согласованность между LLM и рецензентом составляет примерно 70%
- Согласованность между LLM и кандидатом выше
- Повышение производительности: Производительность рецензентов повысилась примерно на 20%
- Эффективность автоматической проверки:
- Общий коэффициент автоматической проверки: 76%
- Коэффициенты проверки по разделам: проверка квалификации 84%, основной публичный раздел 76%, проверка типа 67%
- Анализ точности:
- Коэффициент правильности: 88%
- Незначительные ошибки: 5%
- Ложные срабатывания: 0%
- Пропуски: 3%
- Ошибки чтения: 4%
Положительные эффекты после развёртывания AI-системы:
- Запросы уточнения/заявки: снизились с 2,13 до 2,05
- Коэффициент апелляций заявителей: снизился с 25,8% до 20,4%
- Задача IExp: Оценщики оценили, что AI-ассистирование может ускорить процесс проверки до 30%
- Задача ReClaim: Отзывы поляризованы
- Рецензенты, участвовавшие в разработке, выразили сильную признательность
- Опытные рецензенты оценили экономию времени до 40%
- Некоторые рецензенты потеряли доверие после столкновения с ошибками
Традиционная автоматизация анализа документов полагается на методы обработки естественного языка на основе правил и технологию OCR, которые хорошо работают в контролируемых условиях, но чувствительны к изменениям структуры документов и сложны в обслуживании.
- Юридическая область: Инструменты LLM способны быстро анализировать и извлекать информацию из различных юридических текстов
- Управление человеческими ресурсами: Эволюция от базового анализа ключевых слов к сложному сопоставлению кандидатов и должностей
- Государственное управление: Переход от традиционных решений машинного обучения к интеграции генеративного AI и LLM
Из-за случаев отказа, вызванных предвзятостью, недостаточной прозрачностью или чрезмерной зависимостью от неконтролируемой автоматизации, большинство организаций теперь встраивают явное человеко-машинное сотрудничество в критические точки принятия решений.
- Технологическая осуществимость: LLM достаточно зрелы, чтобы значительно поддерживать процесс проверки заявок
- Значительное повышение эффективности: В надлежащим образом интегрированном конвейере человеко-машинного сотрудничества LLM могут значительно ускорить рабочие процессы оценки
- Улучшение согласованности: AI-ассистирование помогает повысить единообразие выходных данных рецензентов
- Бюрократия часто является основной причиной задержек и снижения качества решений
- Ограничения прав собственности третьих сторон на платформы ограничивают возможность модификации системы
- Строгие требования GDPR сужают диапазон жизнеспособных моделей
- Сложные многоэтапные рабочие процессы авторизации задерживают доступ к данным
- Рецензенты часто разделяются на две группы: готовые использовать инструменты и сосредоточенные на их преимуществах, и те, кто становится очень осторожным или критичным при ошибках системы
- Эффективное управление изменениями критически важно для успешной реализации
- Скорость крупномасштабного развёртывания значительно превышает ручную оценку
- Система ReClaim обработала примерно 80 000 заявок менее чем за три недели
- По мере постоянного совершенствования моделей полная автоматизация оценки становится всё более осуществимой
- Система IExp: Ограничена отсутствием доступа к предыдущим заявкам или внешним базам данных
- Система ReClaim: Сталкивается с проблемами несогласованности форматов документов и низкокачественных файлов
- Область применения: Примерно 10% документов исключены из автоматического анализа из-за неподдерживаемых форматов
- Практическая ценность развёртывания: Это одно из немногих исследований, сообщающих об опыте реального развёртывания LLM, имеющее важное практическое руководящее значение
- Комплексная система оценки: От технических метрик до отзывов пользователей, от повышения эффективности до влияния на систему — оценка охватывает все аспекты
- Верификация в двойном сценарии: Подтверждение универсальности метода через два различных типа сценариев применения
- Честное обмен опытом: Объективный отчёт о проблемах и неудачах, встреченных при развёртывании
- Ограниченные технологические инновации: В основном применение существующих технологий LLM, отсутствие инноваций на уровне алгоритмов
- Ограниченный масштаб оценки: Относительно небольшой размер тестового набора, особенно 11 образцов для задачи IExp
- Неизвестные долгосрочные эффекты: Время развёртывания составило только 3 месяца, долгосрочные эффекты и стабильность требуют дальнейшей проверки
- Недостаточный анализ затрат и выгод: Отсутствует детальный анализ затрат и выгод и расчёт ROI
- Справочная информация для разработки политики: Предоставляет важные справочные материалы для государственных учреждений по внедрению технологии AI
- Практическая ценность руководства: Предоставляет ценный опыт для развёртывания AI в аналогичных сценариях
- Трансдисциплинарное применение: Метод может быть распространён на другие области, требующие крупномасштабной обработки документов
- Государственные учреждения: Различные процессы одобрения заявок и анализа документов
- Финансовые учреждения: Анализ кредитных заявок и проверка соответствия требованиям
- Образовательные учреждения: Проверка материалов заявок и академическая оценка
- Корпоративные организации: Внутренний анализ документов и оценка поставщиков
Статья ссылается на несколько важных источников, включая:
- Карточку системы OpenAI GPT-4o (2024)
- Документы, относящиеся к Закону об искусственном интеллекте ЕС
- Исследования применения LLM в различных областях
- Исследования лучших практик человеко-машинного сотрудничества и ответственного развёртывания AI
Общая оценка: Это прикладная исследовательская статья с важной практической ценностью. Хотя она относительно ограничена в технологических инновациях, её опыт реального развёртывания и комплексная оценка эффективности предоставляют ценные справочные материалы для применения AI в государственном секторе. Честность и практичность статьи делают её важным вкладом в данную область.