2025-11-18T12:46:13.450586

A Methodology for Assessing the Risk of Metric Failure in LLMs Within the Financial Domain

Flanagan, Das, Ramanyake et al.
As Generative Artificial Intelligence is adopted across the financial services industry, a significant barrier to adoption and usage is measuring model performance. Historical machine learning metrics can oftentimes fail to generalize to GenAI workloads and are often supplemented using Subject Matter Expert (SME) Evaluation. Even in this combination, many projects fail to account for various unique risks present in choosing specific metrics. Additionally, many widespread benchmarks created by foundational research labs and educational institutions fail to generalize to industrial use. This paper explains these challenges and provides a Risk Assessment Framework to allow for better application of SME and machine learning Metrics
academic

Методология оценки риска отказа метрик в LLM в финансовой сфере

Основная информация

  • ID статьи: 2510.13524
  • Название: A Methodology for Assessing the Risk of Metric Failure in LLMs Within the Financial Domain
  • Авторы: William Flanagan, Mukunda Das, Rajitha Ramanyake, Swanuja Maslekar, Meghana Mangipudi, Jeel Shah, Joong Ho Choi, Shruti Nair, Shambhavi Bhusan, Sanjana Dulam, Mouni Pendharkar, Nidhi Singh, Vashisth Doshi, Sachi Shah Paresh
  • Учреждения: BNY Responsible AI Office, BNY AI Hub, Carnegie Mellon University
  • Классификация: cs.AI
  • Конференция: 39th Conference on Neural Information Processing Systems (NeurIPS 2025)
  • Ссылка на статью: https://arxiv.org/abs/2510.13524

Аннотация

С широким внедрением генеративного искусственного интеллекта в финансовый сектор оценка производительности моделей становится критическим препятствием для внедрения и использования. Традиционные метрики машинного обучения часто не обобщаются на рабочие нагрузки GenAI и обычно требуют дополнения оценками экспертов предметной области (SME). Даже при использовании такого комбинированного подхода многие проекты не учитывают в полной мере различные уникальные риски, связанные с выбором конкретных метрик. Кроме того, многие широко используемые эталонные тесты, созданные фундаментальными исследовательскими лабораториями и образовательными учреждениями, не обобщаются на промышленные приложения. В данной статье объясняются эти проблемы и предлагается структура оценки риска для более эффективного применения метрик SME и машинного обучения.

Исследовательский контекст и мотивация

1. Выявление основных проблем

Данное исследование сосредоточено на ключевых проблемах оценки при развертывании генеративного ИИ в финансовой сфере:

  • Отказ обобщения метрик: традиционные метрики ML неэффективны при оценке производительности GenAI в финансовых сценариях
  • Несоответствие эталонных тестов: значительный разрыв между эталонными тестами, разработанными в академической среде, и реальными потребностями промышленности
  • Игнорирование рисков оценки: существующие методы оценки недостаточно учитывают риски, связанные с самим выбором метрик

2. Важность проблемы

Специфика финансовой отрасли делает эту проблему особенно актуальной:

  • Высокорисковая среда: ошибки в финансовых решениях могут привести к огромным экономическим потерям и нарушениям нормативных требований
  • Строгие нормативные требования: необходимость соответствия требованиям прозрачности, интерпретируемости и соответствия
  • Высокие требования к доверию: доверие сотрудников и клиентов к системам ИИ критически важно для успешного развертывания

3. Практические примеры

Статья иллюстрирует серьезные последствия отказа оценки на конкретных примерах:

  • Скандал с дискриминацией по кредитам Apple Card: предвзятость алгоритма привела к гендерной дискриминации, которая, хотя и не нарушала закон, серьезно подорвала доверие клиентов
  • Споры о страховых претензиях UnitedHealth и Cigna: системы ИИ автоматически отклоняли медицинские претензии без надлежащей проверки человеком

Основные вклады

  1. Выявление ключевых проблем оценки GenAI: систематический анализ ограничений традиционных метрик при применении финансового GenAI
  2. Предложение пятимерной структуры классификации рисков: создание комплексной системы классификации, охватывающей риски данных, модели, процесса, управления и этики
  3. Разработка практической методологии оценки риска: предоставление финансовым учреждениям действенных стратегий выявления и снижения рисков отказа метрик
  4. Мост между академическими исследованиями и промышленной практикой: четкое определение разрыва между академическими эталонными тестами и реальными потребностями предприятий

Подробное описание методологии

Определение задачи

Данное исследование направлено на создание систематической структуры для:

  • Выявления: обнаружения различных моделей риска, при которых метрики оценки GenAI могут отказать
  • Оценки: количественной оценки вероятности и степени влияния этих рисков
  • Снижения: предоставления целевых мер управления рисками

Структура классификации рисков

Статья предлагает пять основных категорий рисков, каждая из которых содержит конкретные модели отказа:

1. Риск данных (Data Risk)

  • Сдвиг распределения (Distribution Shift)
    • Определение: входные данные отклоняются от временного среза данных, используемого для калибровки метрик
    • Вероятность: высокая | Влияние: высокое
    • Меры по снижению: установка автоматизированных детекторов сдвига данных и периодическая переоценка метрик
  • Сдвиг меток (Label Drift)
    • Определение: эволюция критериев суждения SME (например, новые руководящие принципы изменяют определение "фактичности")
    • Вероятность: средняя | Влияние: среднее
    • Меры по снижению: ведение версионированных руководств по аннотации и отслеживание согласованности между аннотаторами

2. Риск модели (Model Risk)

  • Сдвиг калибровки (Calibration Drift)
    • Определение: изменение распределения оценок между версиями модели, скрывающее истинное ухудшение производительности
    • Вероятность: средняя | Влияние: высокое
    • Меры по снижению: развертывание контрольных диаграмм; автоматическая переквалификация при превышении распределением пороговых значений
  • Уязвимость к противодействию (Adversarial Vulnerability)
    • Определение: небольшие возмущения входных данных приводят к значительным отклонениям выходных метрик
    • Вероятность: низкая | Влияние: высокое
    • Меры по снижению: укрепление предварительной обработки; нечеткое тестирование с использованием противодействующих образцов

3. Риск процесса и аннотации (Process & Annotation Risk)

  • Несогласованность аннотации (Annotation Inconsistency)
  • Смещение действия (Action Bias)
  • Несоответствие области (Scope Misalignment)
  • Ограничения масштабируемости (Scalability Constraints)

4. Риск управления и соответствия (Governance & Compliance Risk)

  • Пробелы в документации (Documentation Gaps)
  • Риск непрерывности знаний (Knowledge Continuity Risk)
  • Метрики, требующие знания предметной области (Domain-Intensive Metrics)
  • Несоответствие нормативным требованиям (Regulatory Misalignment)

5. Этический и репутационный риск (Ethical & Reputational Risk)

  • Отказы в отношении предвзятости и справедливости (Bias & Fairness Failures)
  • Ускользание галлюцинаций (Hallucination Escape)

Технические инновации

  1. Систематическая классификация рисков: первая комплексная система классификации рисков для оценки финансового GenAI
  2. Матрица вероятности-влияния: количественная оценка вероятности и влияния для каждой модели риска
  3. Действенные стратегии снижения: каждый риск сопровождается конкретными техническими и управленческими мерами по снижению
  4. Гибридный метод оценки: объединение преимуществ автоматизированных метрик и оценки SME с предложением инновационных методов, таких как "LLM-as-Judge"

Экспериментальная установка

Методология оценки

Статья использует методологию оценки, основанную на реальном промышленном опыте:

  • Экспертное суждение: определение вероятности и влияния рисков на основе реального опыта SME в BNY
  • Тематические исследования: проверка эффективности классификации рисков на реальных примерах, таких как Apple Card и UnitedHealth
  • Сравнительный анализ: систематическое сравнение академических эталонных тестов с реальными потребностями промышленности

Источники данных

  • Данные внутренней практики: реальный опыт проектов из BNY Responsible AI Office и AI Hub
  • Нормативные требования: EU AI Act, руководства OCC и другие нормативные документы
  • Примеры из отрасли: опубликованные случаи отказа ИИ и судебные материалы

Результаты экспериментов

Основные выводы

  1. Значительный разрыв между академией и промышленностью:
    • Академические эталонные тесты, такие как MMLU и SWE-bench, не отражают сложность реальных корпоративных рабочих нагрузок
    • Лабораторная оценка сосредоточена на вопросе "может ли модель решить эту задачу?", в то время как предприятиям нужно "может ли система обеспечить надежный, проверяемый и экономически эффективный результат в реальных условиях?"
  2. Доверие является ключевым препятствием:
    • Неправильные ответы LLM немедленно подрывают доверие сотрудников к системе
    • В высокорисковой нормативной среде даже одна ошибка может полностью разрушить доверие
  3. Проблемы нормативного соответствия:
    • Закрытые LLM ограничивают видимость банков в отношении данных обучения и весов
    • Регулирующие органы ожидают, что банки разработают новые метрики, специфичные для использования, такие как коэффициент галлюцинаций и согласованность фактов

Приоритизация рисков

На основе анализа вероятности-влияния следующие риски требуют приоритетного внимания:

  • Высокая вероятность - высокое влияние: сдвиг распределения, пробелы в документации, риск непрерывности знаний, ускользание галлюцинаций
  • Средняя вероятность - высокое влияние: сдвиг калибровки, несогласованность аннотации, смещение действия

Связанные работы

Традиционные методы оценки ML

  • Классические метрики: точность, полнота, F1-оценка, ROUGE, BLEU и другие
  • Ограничения: неспособность охватить креативность, фактичность и контекстную релевантность выходных данных GenAI

Исследования оценки GenAI

  • Академические эталоны: MMLU, SWE-bench и другие тесты общих способностей
  • Промышленные потребности: коэффициент успеха задачи, точность соответствия, серьезность ошибок, операционная целесообразность

Управление рисками ИИ в финансах

  • Нормативные рамки: EU AI Act, руководства OCC и другие
  • Промышленная практика: интерпретируемый ИИ, процессы проверки человеком, требования четкой документации

Заключение и обсуждение

Основные выводы

  1. Необходимо переосмыслить структуру оценки: традиционных метрик ML недостаточно для оценки финансовых приложений GenAI; необходимо объединить бизнес-KPI и нормативные требования
  2. Управление рисками критически важно: выбор метрик сам по себе несет многомерные риски, требующие систематического выявления и снижения
  3. Необходимо сотрудничество между академией и промышленностью: разработка методов оценки, специфичных для предметной области

Ограничения

  1. Ограничение области: исследование ограничено приложениями генеративного ИИ в финансовом секторе
  2. Субъективность: оценки уровня риска и вероятности основаны на опыте SME конкретной организации
  3. Обобщаемость: серьезность рисков может различаться в зависимости от финансового учреждения и варианта использования

Будущие направления

  1. Системы автоматизированного мониторинга: разработка систем для обнаружения концептуального и данных дрейфа в реальном времени
  2. Противодействующее тестирование: создание более совершенных методов стресс-тестирования и противодействующей оценки
  3. Расширение на другие области: распространение структуры оценки рисков на другие высокорисковые отрасли

Глубокая оценка

Преимущества

  1. Ориентация на практику: основана на реальном промышленном опыте с высокой практической ценностью
  2. Сильная систематичность: предоставляет комплексную классификацию рисков и стратегии снижения
  3. Высокая актуальность: своевременно реагирует на срочные потребности применения GenAI в финансовой сфере
  4. Сильная операционализируемость: каждый риск сопровождается конкретными мерами по снижению

Недостатки

  1. Недостаточный количественный анализ: отсутствие подробных экспериментальных данных и количественной проверки
  2. Ограниченная теоретическая глубина: скорее эмпирическое резюме, чем теоретическая инновация
  3. Недостаточная проверка методов: отсутствие достаточных контрольных экспериментов или проверки эффективности

Влияние

  1. Академический вклад: предоставляет новую перспективу и структуру для исследований оценки GenAI
  2. Промышленная ценность: предоставляет практическое руководство для развертывания GenAI в финансовых учреждениях
  3. Нормативный справочник: может служить справочником для нормативных органов при разработке соответствующей политики

Применимые сценарии

  • Отделы управления рисками ИИ финансовых учреждений
  • Команды оценки и проверки продуктов GenAI
  • Разработка политики управления ИИ нормативными органами
  • Оценка приложений ИИ в других высокорисковых отраслях

Библиография

Статья ссылается на множество важных нормативных документов, отраслевых отчетов и академических исследований, включая:

  • Документы, связанные с EU AI Act
  • Руководства Управления валютного контролера США (OCC)
  • Отчеты об расследовании Apple Card
  • Исследования McKinsey о доверии к ИИ
  • Соответствующие судебные дела

Эти ссылки обеспечивают мощную поддержку выводов статьи, демонстрируя строгость и авторитетность исследования.