As Generative Artificial Intelligence is adopted across the financial services industry, a significant barrier to adoption and usage is measuring model performance. Historical machine learning metrics can oftentimes fail to generalize to GenAI workloads and are often supplemented using Subject Matter Expert (SME) Evaluation. Even in this combination, many projects fail to account for various unique risks present in choosing specific metrics. Additionally, many widespread benchmarks created by foundational research labs and educational institutions fail to generalize to industrial use. This paper explains these challenges and provides a Risk Assessment Framework to allow for better application of SME and machine learning Metrics
- ID del Artículo: 2510.13524
- Título: A Methodology for Assessing the Risk of Metric Failure in LLMs Within the Financial Domain
- Autores: William Flanagan, Mukunda Das, Rajitha Ramanyake, Swanuja Maslekar, Meghana Mangipudi, Jeel Shah, Joong Ho Choi, Shruti Nair, Shambhavi Bhusan, Sanjana Dulam, Mouni Pendharkar, Nidhi Singh, Vashisth Doshi, Sachi Shah Paresh
- Instituciones: BNY Responsible AI Office, BNY AI Hub, Carnegie Mellon University
- Clasificación: cs.AI
- Conferencia de Publicación: 39ª Conferencia sobre Sistemas de Procesamiento de Información Neural (NeurIPS 2025)
- Enlace del Artículo: https://arxiv.org/abs/2510.13524
Con la aplicación generalizada de la inteligencia artificial generativa en la industria de servicios financieros, la evaluación del desempeño del modelo se ha convertido en un obstáculo importante para la adopción y uso. Las métricas tradicionales de aprendizaje automático a menudo no se generalizan a cargas de trabajo de GenAI, requiriendo típicamente suplementación mediante evaluación de expertos en la materia (SME). Incluso con este enfoque combinado, muchos proyectos no han considerado adecuadamente los diversos riesgos únicos inherentes a la selección de métricas específicas. Además, muchas pruebas comparativas ampliamente utilizadas creadas por laboratorios de investigación fundamental e instituciones educativas no se generalizan a aplicaciones industriales. Este artículo explica estos desafíos y proporciona un marco de evaluación de riesgos para aplicar mejor los SME y las métricas de aprendizaje automático.
Esta investigación se enfoca en los desafíos clave de evaluación enfrentados durante el despliegue de IA generativa en el dominio financiero:
- Fallo de Generalización de Métricas: Las métricas tradicionales de ML no pueden evaluar efectivamente el desempeño de GenAI en escenarios financieros
- Desconexión de Pruebas Comparativas: Existe una brecha significativa entre las pruebas comparativas desarrolladas por la academia y las necesidades reales de la industria
- Riesgos de Evaluación Ignorados: Los métodos de evaluación existentes no consideran suficientemente los riesgos inherentes a la selección de métricas
Las características especiales de la industria financiera hacen que este problema sea particularmente importante:
- Entorno de Alto Riesgo: Los errores en decisiones financieras pueden resultar en pérdidas económicas masivas y sanciones regulatorias
- Requisitos Regulatorios Estrictos: Necesidad de cumplir con requisitos de transparencia, interpretabilidad y conformidad
- Requisitos Altos de Confianza: La confianza de empleados y clientes en los sistemas de IA es crítica para el despliegue exitoso
El artículo ilustra las graves consecuencias de fallos de evaluación mediante casos concretos:
- Incidente de Discriminación de Crédito de Apple Card: El sesgo algorítmico resultó en discriminación de género, dañando severamente la confianza del cliente aunque no fuera ilegal
- Controversias de Reclamaciones de Seguros de UnitedHealth y Cigna: Los sistemas de IA rechazaron automáticamente reclamaciones médicas sin revisión humana adecuada
- Identificación de Desafíos Clave en Evaluación de GenAI: Análisis sistemático de las limitaciones de métricas tradicionales en aplicaciones de GenAI financiero
- Propuesta de Marco de Clasificación de Riesgos de Cinco Dimensiones: Establecimiento de un sistema de clasificación integral que abarca riesgos de datos, modelos, procesos, gobernanza y ética
- Construcción de Metodología Práctica de Evaluación de Riesgos: Provisión de estrategias identificables y mitigables de riesgo de fallo de métricas para instituciones financieras
- Puente entre Investigación Académica y Práctica Industrial: Clarificación de la brecha entre pruebas comparativas académicas y necesidades empresariales reales con soluciones
Esta investigación tiene como objetivo establecer un marco sistemático para:
- Identificar: Descubrir varios patrones de riesgo donde las métricas de evaluación de GenAI pueden fallar
- Evaluar: Cuantificar la probabilidad e impacto de estos riesgos
- Mitigar: Proporcionar medidas de control de riesgos específicas
El artículo propone cinco categorías principales de riesgo, cada una conteniendo modos de fallo específicos:
- Cambio de Distribución (Distribution Shift)
- Definición: Los datos de entrada se desvían con el tiempo del segmento de datos utilizado para calibrar métricas
- Probabilidad: Alta | Impacto: Alto
- Medidas de Mitigación: Establecer detectores automatizados de cambio de datos y revalidación periódica de métricas
- Cambio de Etiquetas (Label Drift)
- Definición: Evolución de estándares de juicio de SME (como nuevas directrices que cambian la definición de "factualidad")
- Probabilidad: Media | Impacto: Medio
- Medidas de Mitigación: Mantener directrices de anotación versionadas y rastrear consistencia entre anotadores
- Cambio de Calibración (Calibration Drift)
- Definición: Cambios en la distribución de puntuación entre versiones de modelo que enmascaran degradación real del desempeño
- Probabilidad: Media | Impacto: Alto
- Medidas de Mitigación: Desplegar gráficos de control; activar recalibración automática cuando la distribución excede umbrales
- Vulnerabilidad Adversarial (Adversarial Vulnerability)
- Definición: Pequeñas perturbaciones de entrada resultan en desviaciones significativas en salida de métricas
- Probabilidad: Baja | Impacto: Alto
- Medidas de Mitigación: Endurecimiento de preprocesamiento; pruebas de fuzzing con muestras adversariales
- Inconsistencia de Anotación (Annotation Inconsistency)
- Sesgo de Acción (Action Bias)
- Desalineación de Alcance (Scope Misalignment)
- Restricciones de Escalabilidad (Scalability Constraints)
- Brechas de Documentación (Documentation Gaps)
- Riesgo de Continuidad de Conocimiento (Knowledge Continuity Risk)
- Métricas Intensivas en Dominio (Domain-Intensive Metrics)
- Desalineación Regulatoria (Regulatory Misalignment)
- Fallos de Sesgo y Equidad (Bias & Fairness Failures)
- Escape de Alucinación (Hallucination Escape)
- Clasificación Sistemática de Riesgos: Primera clasificación integral de riesgos de evaluación de GenAI específica del dominio financiero
- Matriz Probabilidad-Impacto: Proporciona evaluación cuantitativa de probabilidad e impacto para cada patrón de riesgo
- Estrategias de Mitigación Operacionalizables: Cada riesgo incluye medidas técnicas y de gestión específicas
- Método de Evaluación Híbrida: Combina fortalezas de métricas automatizadas y evaluación de SME, proponiendo métodos innovadores como "LLM-as-Judge"
El artículo adopta una metodología de evaluación basada en experiencia industrial real:
- Juicio de Expertos: Determinación de probabilidad e impacto de riesgos basada en experiencia real de SME internos de BNY
- Estudios de Caso: Validación de la efectividad de la clasificación de riesgos mediante casos reales como Apple Card y UnitedHealth
- Análisis Comparativo: Comparación sistemática de pruebas comparativas académicas con necesidades reales de la industria
- Datos de Práctica Interna: Experiencia de proyectos reales de BNY Responsible AI Office y AI Hub
- Requisitos Regulatorios: EU AI Act, manuales de OCC y otros documentos regulatorios
- Casos de Industria: Casos públicos de fallo de IA y registros de litigio
- Brecha Academia-Industria Significativa:
- Pruebas comparativas académicas como MMLU y SWE-bench no reflejan la complejidad de cargas de trabajo empresariales reales
- La evaluación de laboratorio se enfoca en "¿puede el modelo resolver esta prueba?", mientras que las empresas necesitan "¿puede el sistema proporcionar salida confiable, auditable y rentable en condiciones reales?"
- Confianza como Obstáculo Clave:
- Las respuestas incorrectas de LLM erosionan inmediatamente la confianza de empleados en el sistema
- En entornos regulatorios de alto riesgo, incluso una respuesta incorrecta puede destruir completamente la confianza
- Desafíos de Conformidad Regulatoria:
- Los LLM de código cerrado limitan la visibilidad de los bancos sobre datos de entrenamiento y pesos
- Los reguladores esperan que los bancos desarrollen nuevas métricas específicas del caso de uso, como tasa de alucinación y consistencia factual
Basado en análisis probabilidad-impacto, los siguientes riesgos requieren atención prioritaria:
- Probabilidad Alta-Impacto Alto: Cambio de distribución, brechas de documentación, riesgo de continuidad de conocimiento, escape de alucinación
- Probabilidad Media-Impacto Alto: Cambio de calibración, inconsistencia de anotación, sesgo de acción
- Métricas Clásicas: Precisión, exactitud, puntuación F1, ROUGE, BLEU, etc.
- Limitaciones: No pueden capturar creatividad, factualidad y relevancia contextual de salidas de GenAI
- Pruebas Comparativas Académicas: MMLU, SWE-bench y otras pruebas de capacidad general
- Necesidades Industriales: Tasa de éxito de tareas, fidelidad de conformidad, severidad de errores, viabilidad operacional
- Marco Regulatorio: EU AI Act, directrices de OCC, etc.
- Práctica Industrial: IA explicable, procesos de revisión humana, requisitos de documentación clara
- Necesidad de Rediseño de Marco de Evaluación: Las métricas tradicionales de ML son insuficientes para evaluar aplicaciones de GenAI financiero, requiriendo combinación con KPI empresariales y requisitos regulatorios
- Importancia Crítica de Gestión de Riesgos: La selección de métricas en sí contiene riesgos multidimensionales que requieren identificación y mitigación sistemática
- Necesidad de Colaboración Academia-Industria: Cooperación entre academia e industria es necesaria para desarrollar métodos de evaluación específicos del dominio
- Restricción de Alcance: La investigación se limita a aplicaciones de IA generativa en el dominio financiero
- Subjetividad: Los niveles de riesgo y juicios de probabilidad se basan en experiencia de SME dentro de organizaciones específicas
- Generalización: La severidad de riesgos puede variar entre diferentes instituciones financieras y casos de uso
- Sistemas de Monitoreo Automatizado: Desarrollo de sistemas capaces de detectar cambio de concepto y cambio de datos en tiempo real
- Pruebas Adversariales: Establecimiento de métodos mejorados de pruebas de estrés y evaluación adversarial
- Expansión Transversal: Extensión del marco de evaluación de riesgos a otras industrias de alto riesgo
- Orientación Práctica: Basado en experiencia industrial real con fuerte valor práctico
- Solidez Sistemática: Proporciona clasificación de riesgos integral y estrategias de mitigación
- Alta Relevancia Temporal: Responde oportunamente a necesidades urgentes de aplicación de GenAI en finanzas
- Operacionalidad Fuerte: Cada riesgo proporciona medidas de mitigación específicas
- Análisis Cuantitativo Limitado: Carencia de datos experimentales detallados y validación cuantitativa
- Profundidad Teórica Limitada: Más síntesis de experiencia que innovación teórica
- Validación de Método Insuficiente: Falta de experimentos de control adecuados o verificación de efectividad
- Contribución Académica: Proporciona nueva perspectiva y marco para investigación de evaluación de GenAI
- Valor Industrial: Proporciona orientación práctica para despliegue de GenAI en instituciones financieras
- Referencia Regulatoria: Puede servir como referencia para formulación de políticas de gobernanza de IA por reguladores
- Departamentos de gestión de riesgos de IA de instituciones financieras
- Equipos de evaluación y verificación de productos GenAI
- Formulación de políticas de gobernanza de IA por organismos reguladores
- Evaluación de aplicaciones de IA en otras industrias de alto riesgo
El artículo cita múltiples documentos regulatorios importantes, reportes industriales e investigación académica, incluyendo:
- Documentos relacionados con EU AI Act
- Manual de la Oficina del Contralor de la Moneda (OCC) de Estados Unidos
- Reportes de investigación de Apple Card
- Investigación de McKinsey sobre confianza en IA
- Casos de litigio relevantes
Estas referencias proporcionan apoyo sólido para los puntos de vista del artículo, reflejando rigor y autoridad de la investigación.