As Generative Artificial Intelligence is adopted across the financial services industry, a significant barrier to adoption and usage is measuring model performance. Historical machine learning metrics can oftentimes fail to generalize to GenAI workloads and are often supplemented using Subject Matter Expert (SME) Evaluation. Even in this combination, many projects fail to account for various unique risks present in choosing specific metrics. Additionally, many widespread benchmarks created by foundational research labs and educational institutions fail to generalize to industrial use. This paper explains these challenges and provides a Risk Assessment Framework to allow for better application of SME and machine learning Metrics
Une Méthodologie pour Évaluer le Risque d'Échec des Métriques dans les LLMs dans le Domaine Financier
- ID de l'article : 2510.13524
- Titre : A Methodology for Assessing the Risk of Metric Failure in LLMs Within the Financial Domain
- Auteurs : William Flanagan, Mukunda Das, Rajitha Ramanyake, Swanuja Maslekar, Meghana Mangipudi, Jeel Shah, Joong Ho Choi, Shruti Nair, Shambhavi Bhusan, Sanjana Dulam, Mouni Pendharkar, Nidhi Singh, Vashisth Doshi, Sachi Shah Paresh
- Institutions : BNY Responsible AI Office, BNY AI Hub, Carnegie Mellon University
- Classification : cs.AI
- Conférence de Publication : 39e Conférence sur les Systèmes de Traitement de l'Information Neuronale (NeurIPS 2025)
- Lien de l'article : https://arxiv.org/abs/2510.13524
Avec l'adoption généralisée de l'intelligence artificielle générative dans le secteur des services financiers, l'évaluation de la performance des modèles est devenue un obstacle majeur à l'adoption et à l'utilisation. Les métriques traditionnelles d'apprentissage automatique ne se généralisent souvent pas aux charges de travail GenAI et nécessitent généralement d'être complétées par des évaluations d'experts en la matière (SME). Même avec cette approche combinée, de nombreux projets ne tiennent pas suffisamment compte des divers risques uniques inhérents au choix de métriques spécifiques. De plus, de nombreux tests de référence largement utilisés, créés par des laboratoires de recherche fondamentale et des établissements d'enseignement, ne se généralisent pas aux applications industrielles. Cet article explique ces défis et propose un cadre d'évaluation des risques pour mieux appliquer les métriques SME et d'apprentissage automatique.
Cette recherche se concentre sur les défis d'évaluation critiques rencontrés lors du déploiement de l'IA générative dans le domaine financier :
- Défaillance de la généralisation des métriques : Les métriques ML traditionnelles ne peuvent pas évaluer efficacement la performance de GenAI dans les scénarios financiers
- Déconnexion des tests de référence : Les tests de référence développés par le milieu universitaire présentent des écarts significatifs avec les besoins réels de l'industrie
- Risques d'évaluation négligés : Les méthodes d'évaluation existantes ne tiennent pas suffisamment compte des risques inhérents au choix des métriques elles-mêmes
La nature particulière du secteur financier rend cette question particulièrement importante :
- Environnement à haut risque : Les erreurs de décision financière peuvent entraîner des pertes économiques massives et des sanctions réglementaires
- Exigences réglementaires strictes : Nécessité de satisfaire aux exigences de transparence, d'explicabilité et de conformité
- Exigences élevées en matière de confiance : La confiance des employés et des clients dans les systèmes d'IA est essentielle au succès du déploiement
L'article illustre par des cas concrets les conséquences graves des défaillances d'évaluation :
- Incident de discrimination au crédit Apple Card : Les biais algorithmiques ont entraîné une discrimination fondée sur le sexe, endommageant gravement la confiance des clients bien que légalement acceptable
- Controverses de réclamations d'assurance UnitedHealth et Cigna : Les systèmes d'IA ont automatiquement rejeté les réclamations d'assurance maladie sans examen humain suffisant
- Identification des défis critiques de l'évaluation GenAI : Analyse systématique des limitations des métriques traditionnelles dans les applications GenAI financières
- Proposition d'un cadre de classification des risques à cinq dimensions : Établissement d'un système de classification complet couvrant les risques de données, de modèles, de processus, de gouvernance et éthiques
- Construction d'une méthodologie d'évaluation des risques pratique : Fourniture aux institutions financières de stratégies opérationnelles d'identification et d'atténuation des risques d'échec des métriques
- Rapprochement de la recherche académique et de la pratique industrielle : Clarification des écarts entre les tests de référence académiques et les besoins réels des entreprises, ainsi que des solutions
Cette recherche vise à établir un cadre systématique pour :
- Identifier : Découvrir les divers modèles de risque d'échec potentiel des métriques d'évaluation GenAI
- Évaluer : Quantifier la probabilité et l'ampleur de l'impact de ces risques
- Atténuer : Fournir des mesures de gestion des risques ciblées
L'article propose cinq catégories de risques principales, chacune contenant des modes de défaillance spécifiques :
- Dérive de Distribution (Distribution Shift)
- Définition : Les données d'entrée s'écartent au fil du temps de la tranche de données utilisée pour calibrer les métriques
- Probabilité : Élevée | Impact : Élevé
- Mesures d'atténuation : Établir des détecteurs automatisés de dérive de données et une revalidation périodique des métriques
- Dérive d'Étiquetage (Label Drift)
- Définition : L'évolution des critères de jugement des SME (par exemple, les nouvelles directives modifient la définition de la « factualité »)
- Probabilité : Moyenne | Impact : Moyen
- Mesures d'atténuation : Maintenir des guides d'annotation versionnés et suivre la cohérence entre annotateurs
- Dérive d'Étalonnage (Calibration Drift)
- Définition : Variation de la distribution des scores entre les versions de modèles, masquant la dégradation réelle des performances
- Probabilité : Moyenne | Impact : Élevé
- Mesures d'atténuation : Déployer des cartes de contrôle ; déclencher un réétalonnage automatique lorsque la distribution dépasse les seuils
- Vulnérabilité Adversariale (Adversarial Vulnerability)
- Définition : De légères perturbations d'entrée entraînent des écarts importants dans les résultats des métriques
- Probabilité : Faible | Impact : Élevé
- Mesures d'atténuation : Renforcer le prétraitement ; utiliser des échantillons adversariaux pour les tests de robustesse
- Incohérence d'Annotation (Annotation Inconsistency)
- Biais d'Action (Action Bias)
- Désalignement de Portée (Scope Misalignment)
- Contraintes d'Évolutivité (Scalability Constraints)
- Lacunes de Documentation (Documentation Gaps)
- Risque de Continuité des Connaissances (Knowledge Continuity Risk)
- Métriques Intensives en Domaine (Domain-Intensive Metrics)
- Désalignement Réglementaire (Regulatory Misalignment)
- Défaillances de Biais et d'Équité (Bias & Fairness Failures)
- Échappée d'Hallucination (Hallucination Escape)
- Classification systématique des risques : Premier cadre complet de classification des risques pour l'évaluation GenAI dans le domaine financier
- Matrice Probabilité-Impact : Évaluation quantitative de la probabilité et de l'impact pour chaque mode de risque
- Stratégies d'atténuation opérationnelles : Chaque risque est accompagné de mesures techniques et de gestion spécifiques
- Approche d'évaluation hybride : Combinaison des avantages des métriques automatisées et de l'évaluation SME, proposant des méthodes innovantes telles que « LLM-as-Judge »
L'article adopte une méthodologie d'évaluation basée sur l'expérience industrielle réelle :
- Jugement d'experts : Détermination de la probabilité et de l'impact des risques basée sur l'expérience réelle des SME internes de BNY
- Études de cas : Validation de l'efficacité de la classification des risques par des cas réels tels que Apple Card et UnitedHealth
- Analyse comparative : Comparaison systématique des tests de référence académiques avec les besoins réels de l'industrie
- Données de pratique interne : Expérience réelle des projets du BNY Responsible AI Office et AI Hub
- Exigences réglementaires : Loi sur l'IA de l'UE, manuels de l'OCC et autres documents réglementaires
- Cas industriels : Cas d'échec d'IA publics et documents de litige
- Écart académique-industrie significatif :
- Les tests de référence académiques tels que MMLU et SWE-bench ne reflètent pas la complexité des charges de travail réelles des entreprises
- L'évaluation en laboratoire se concentre sur « le modèle peut-il résoudre ce test », tandis que les entreprises ont besoin de « le système peut-il fournir des résultats fiables, auditables et rentables dans des conditions réelles »
- La confiance est un obstacle clé :
- Les réponses incorrectes des LLM réduisent immédiatement la confiance des employés dans le système
- Dans un environnement réglementaire à haut risque, même une seule réponse incorrecte peut complètement détruire la confiance
- Défis de conformité réglementaire :
- Les LLM à source fermée limitent la visibilité des banques sur les données d'entraînement et les poids
- Les régulateurs s'attendent à ce que les banques développent de nouvelles métriques spécifiques aux cas d'usage, telles que le taux d'hallucination et la cohérence factuelle
Selon l'analyse Probabilité-Impact, les risques suivants nécessitent une attention prioritaire :
- Probabilité élevée-Impact élevé : Dérive de distribution, lacunes de documentation, risque de continuité des connaissances, échappée d'hallucination
- Probabilité moyenne-Impact élevé : Dérive d'étalonnage, incohérence d'annotation, biais d'action
- Métriques classiques : Précision, rappel, score F1, ROUGE, BLEU, etc.
- Limitations : Incapacité à capturer la créativité, la factualité et la pertinence contextuelle des résultats GenAI
- Tests de référence académiques : MMLU, SWE-bench et autres tests de capacités générales
- Besoins industriels : Taux de succès des tâches, fidélité de conformité, sévérité des erreurs, viabilité opérationnelle
- Cadres réglementaires : Loi sur l'IA de l'UE, directives de l'OCC, etc.
- Pratiques industrielles : IA explicable, processus d'examen humain, exigences de documentation claire
- Besoin de repenser le cadre d'évaluation : Les métriques ML traditionnelles sont insuffisantes pour évaluer les applications GenAI financières ; une combinaison avec les KPI métier et les exigences réglementaires est nécessaire
- Importance critique de la gestion des risques : Le choix des métriques lui-même comporte des risques multidimensionnels qui nécessitent une identification et une atténuation systématiques
- Nécessité de la collaboration académique-industrie : Collaboration entre le milieu universitaire et l'industrie pour développer des méthodes d'évaluation spécifiques au domaine
- Limitation de portée : La recherche se limite aux applications d'IA générative dans le secteur financier
- Subjectivité : Les niveaux de risque et les jugements de probabilité sont basés sur l'expérience des SME au sein d'une organisation spécifique
- Généralisation : La gravité des risques peut varier selon les institutions financières et les cas d'usage
- Systèmes de surveillance automatisés : Développement de systèmes capables de détecter en temps réel la dérive conceptuelle et la dérive de données
- Tests adversariaux : Établissement de méthodes de test de stress et d'évaluation adversariale plus complètes
- Extension interdomaines : Extension du cadre d'évaluation des risques à d'autres secteurs à haut risque
- Orientation pratique : Basée sur l'expérience industrielle réelle, avec une forte valeur pratique
- Force systématique : Fournit une classification complète des risques et des stratégies d'atténuation
- Actualité élevée : Répond en temps opportun aux besoins urgents des applications GenAI dans le secteur financier
- Forte opérationnalité : Chaque risque est accompagné de mesures d'atténuation spécifiques
- Analyse quantitative insuffisante : Manque de données expérimentales détaillées et de validation quantitative
- Profondeur théorique limitée : Plus une synthèse d'expériences qu'une innovation théorique
- Validation méthodologique insuffisante : Absence d'expériences de contrôle suffisantes ou de vérification d'efficacité
- Contribution académique : Fournit une nouvelle perspective et un cadre pour la recherche sur l'évaluation GenAI
- Valeur industrielle : Fournit des conseils pratiques aux institutions financières pour le déploiement de GenAI
- Référence réglementaire : Peut servir de référence aux régulateurs pour l'élaboration de politiques connexes
- Départements de gestion des risques IA des institutions financières
- Équipes d'évaluation et de vérification des produits GenAI
- Élaboration des politiques de gouvernance IA par les régulateurs
- Évaluation des applications d'IA dans d'autres secteurs à haut risque
L'article cite plusieurs documents réglementaires importants, rapports industriels et recherches académiques, notamment :
- Documents relatifs à la Loi sur l'IA de l'UE
- Manuel de l'Office du Contrôleur de la Monnaie (OCC) des États-Unis
- Rapport d'enquête Apple Card
- Recherche McKinsey sur la confiance dans l'IA
- Cas de litige connexes
Ces références bibliographiques fournissent un soutien solide aux points de vue de l'article, reflétant la rigueur et l'autorité de la recherche.