2025-11-18T12:46:13.450586

A Methodology for Assessing the Risk of Metric Failure in LLMs Within the Financial Domain

Flanagan, Das, Ramanyake et al.

As Generative Artificial Intelligence is adopted across the financial services industry, a significant barrier to adoption and usage is measuring model performance. Historical machine learning metrics can oftentimes fail to generalize to GenAI workloads and are often supplemented using Subject Matter Expert (SME) Evaluation. Even in this combination, many projects fail to account for various unique risks present in choosing specific metrics. Additionally, many widespread benchmarks created by foundational research labs and educational institutions fail to generalize to industrial use. This paper explains these challenges and provides a Risk Assessment Framework to allow for better application of SME and machine learning Metrics

academic

منهجية لتقييم مخاطر فشل المقاييس في نماذج اللغة الكبيرة ضمن المجال المالي

المعلومات الأساسية

معرّف الورقة البحثية: 2510.13524
العنوان: منهجية لتقييم مخاطر فشل المقاييس في نماذج اللغة الكبيرة ضمن المجال المالي
المؤلفون: William Flanagan, Mukunda Das, Rajitha Ramanyake, Swanuja Maslekar, Meghana Mangipudi, Jeel Shah, Joong Ho Choi, Shruti Nair, Shambhavi Bhusan, Sanjana Dulam, Mouni Pendharkar, Nidhi Singh, Vashisth Doshi, Sachi Shah Paresh
المؤسسات: مكتب الذكاء الاصطناعي المسؤول في BNY، مركز BNY لتكنولوجيا الذكاء الاصطناعي، جامعة كارنيجي ميلون
التصنيف: cs.AI
المؤتمر المنشور: المؤتمر الـ 39 حول أنظمة معالجة المعلومات العصبية (NeurIPS 2025)
رابط الورقة البحثية: https://arxiv.org/abs/2510.13524

الملخص

مع الانتشار الواسع للذكاء الاصطناعي التوليدي في قطاع الخدمات المالية، أصبح تقييم أداء النموذج عائقاً مهماً أمام التبني والاستخدام. غالباً ما تفشل مقاييس التعلم الآلي التقليدية في التعميم على أعباء عمل الذكاء الاصطناعي التوليدي، وعادة ما تتطلب تكملة من خلال تقييمات الخبراء الموضوعيين (SME). حتى مع اعتماد هذا النهج المدمج، فشلت العديد من المشاريع في الأخذ في الاعتبار بشكل كافٍ المخاطر المختلفة والفريدة الموجودة عند اختيار مقاييس محددة. علاوة على ذلك، فشلت العديد من الاختبارات المعيارية الموسعة التي أنشأتها مختبرات البحث الأساسي والمؤسسات التعليمية في التعميم على التطبيقات الصناعية. تشرح هذه الورقة هذه التحديات وتوفر إطار عمل لتقييم المخاطر لتطبيق أفضل لمقاييس الخبراء الموضوعيين والتعلم الآلي.

خلفية البحث والدافع

1. تحديد المشاكل الأساسية

يركز هذا البحث على التحديات الرئيسية في التقييم عند نشر الذكاء الاصطناعي التوليدي في المجال المالي:

فشل تعميم المقاييس: عدم قدرة مقاييس التعلم الآلي التقليدية على تقييم أداء الذكاء الاصطناعي التوليدي بفعالية في السيناريوهات المالية
انقطاع الاختبارات المعيارية: وجود فجوة كبيرة بين الاختبارات المعيارية التي طورتها الأوساط الأكاديمية والاحتياجات الفعلية للصناعة
تجاهل مخاطر التقييم: عدم أخذ الأساليب الحالية في الاعتبار بشكل كافٍ للمخاطر الناشئة عن اختيار المقاييس نفسها

2. أهمية المشكلة

تجعل الخصائص الفريدة للقطاع المالي هذه المشكلة ذات أهمية استثنائية:

بيئة عالية المخاطر: قد تؤدي الأخطاء في القرارات المالية إلى خسائر اقتصادية ضخمة وعقوبات تنظيمية
متطلبات تنظيمية صارمة: الحاجة إلى تلبية متطلبات الشفافية والقابلية للتفسير والامتثال
متطلبات ثقة عالية: يعتمد النجاح في النشر على ثقة الموظفين والعملاء بأنظمة الذكاء الاصطناعي

3. القيادة بالحالات الواقعية

توضح الورقة من خلال حالات محددة العواقب الوخيمة لفشل التقييم:

حادثة التمييز الائتماني في Apple Card: أدى التحيز الخوارزمي إلى تمييز جنساني، مما ألحق أضراراً جسيمة بثقة العملاء رغم عدم انتهاك القانون
نزاعات مطالبات التأمين في UnitedHealth و Cigna: رفضت أنظمة الذكاء الاصطناعي المطالبات الطبية تلقائياً دون مراجعة بشرية كافية

المساهمات الأساسية

تحديد التحديات الرئيسية في تقييم الذكاء الاصطناعي التوليدي: تحليل منهجي للقيود التي تواجهها المقاييس التقليدية في تطبيقات الذكاء الاصطناعي التوليدي المالية
اقتراح إطار عمل لتصنيف المخاطر بخمسة أبعاد: إنشاء نظام تصنيف شامل يغطي مخاطر البيانات والنموذج والعملية والحوكمة والأخلاقيات
بناء منهجية عملية لتقييم المخاطر: توفير إرشادات قابلة للتنفيذ للمؤسسات المالية لتحديد واستراتيجيات تخفيف مخاطر فشل المقاييس
سد الفجوة بين البحث الأكاديمي والممارسة الصناعية: توضيح الفجوة بين الاختبارات المعيارية الأكاديمية والاحتياجات الفعلية للمؤسسات وتقديم الحلول

شرح تفصيلي للمنهجية

تعريف المهمة

يهدف هذا البحث إلى إنشاء إطار عمل منهجي من أجل:

التحديد: اكتشاف أنماط المخاطر المختلفة التي قد تؤدي إلى فشل مقاييس تقييم الذكاء الاصطناعي التوليدي
التقييم: قياس احتمالية هذه المخاطر ودرجة تأثيرها
التخفيف: توفير تدابير إدارة مخاطر موجهة

إطار عمل تصنيف المخاطر

تقترح الورقة خمس فئات مخاطر رئيسية، تحتوي كل فئة على أنماط فشل محددة:

1. مخاطر البيانات (Data Risk)

الانجراف التوزيعي (Distribution Shift)
- التعريف: انحراف بيانات الإدخال بمرور الوقت عن شريحة البيانات المستخدمة لمعايرة المقاييس
- الاحتمالية: عالية | التأثير: عالي
- تدابير التخفيف: إنشاء كاشفات انجراف بيانات آلية وإعادة التحقق الدوري من المقاييس
انجراف التسميات (Label Drift)
- التعريف: تطور معايير حكم الخبراء الموضوعيين (مثل المبادئ التوجيهية الجديدة التي تغير تعريف "الواقعية")
- الاحتمالية: متوسطة | التأثير: متوسط
- تدابير التخفيف: الحفاظ على إرشادات التسميات ذات الإصدارات وتتبع اتساق المسمين

2. مخاطر النموذج (Model Risk)

انجراف المعايرة (Calibration Drift)
- التعريف: تغيير توزيع الدرجات بين إصدارات النموذج، مما يخفي تدهور الأداء الحقيقي
- الاحتمالية: متوسطة | التأثير: عالي
- تدابير التخفيف: نشر مخططات التحكم؛ تشغيل إعادة معايرة تلقائية عند تجاوز التوزيع للحدود
الضعف تجاه الهجمات (Adversarial Vulnerability)
- التعريف: اضطرابات صغيرة في الإدخال تؤدي إلى انحرافات كبيرة في مخرجات المقاييس
- الاحتمالية: منخفضة | التأثير: عالي
- تدابير التخفيف: تعزيز المعالجة المسبقة؛ استخدام العينات المعادية لاختبار الضغط

3. مخاطر العملية والتسميات (Process & Annotation Risk)

عدم اتساق التسميات (Annotation Inconsistency)
التحيز الإجرائي (Action Bias)
عدم توافق النطاق (Scope Misalignment)
قيود قابلية التوسع (Scalability Constraints)

4. مخاطر الحوكمة والامتثال (Governance & Compliance Risk)

فجوات التوثيق (Documentation Gaps)
مخاطر استمرارية المعرفة (Knowledge Continuity Risk)
المقاييس الكثيفة المجال (Domain-Intensive Metrics)
عدم التوافق التنظيمي (Regulatory Misalignment)

5. مخاطر الأخلاقيات والسمعة (Ethical & Reputational Risk)

فشل التحيز والعدالة (Bias & Fairness Failures)
هروب الهلوسة (Hallucination Escape)

نقاط الابتكار التقني

تصنيف المخاطر المنهجي: أول إطار عمل شامل لتصنيف المخاطر في تقييم الذكاء الاصطناعي التوليدي للمجال المالي
مصفوفة الاحتمالية والتأثير: توفير تقييم كمي للاحتمالية والتأثير لكل نمط مخاطر
استراتيجيات تخفيف قابلة للتنفيذ: كل مخاطر مزودة بتدابير تقنية وإدارية محددة للتخفيف
نهج تقييم هجين: الجمع بين مزايا المقاييس الآلية وتقييمات الخبراء الموضوعيين، مع اقتراح طرق مبتكرة مثل "LLM-as-Judge"

إعداد التجارب

منهجية التقييم

تعتمد الورقة على منهجية تقييم قائمة على الخبرة الصناعية الفعلية:

الحكم الخبير: تحديد احتمالية المخاطر وتأثيرها بناءً على الخبرة الفعلية لخبراء الموضوع في BNY
دراسات الحالة: التحقق من صحة تصنيف المخاطر من خلال حالات واقعية مثل Apple Card و UnitedHealth
التحليل المقارن: مقارنة منهجية بين الاختبارات المعيارية الأكاديمية والاحتياجات الفعلية للصناعة

مصادر البيانات

بيانات الممارسة الداخلية: من الخبرة الفعلية للمشاريع في مكتب الذكاء الاصطناعي المسؤول ومركز الذكاء الاصطناعي في BNY
المتطلبات التنظيمية: قانون الذكاء الاصطناعي الأوروبي، أدلة مكتب المراقب المالي (OCC) وغيرها
حالات الصناعة: حالات فشل الذكاء الاصطناعي العامة والدعاوى القضائية

نتائج التجارب

الاكتشافات الرئيسية

الفجوة الأكاديمية-الصناعية كبيرة:
- لا تستطيع الاختبارات المعيارية الأكاديمية مثل MMLU و SWE-bench عكس تعقيد أعباء العمل الفعلية للمؤسسات
- يركز التقييم في المختبرات على "هل يمكن للنموذج حل هذا الاختبار"، بينما تحتاج المؤسسات إلى "هل يمكن للنظام توفير مخرجات موثوقة وقابلة للتدقيق وفعالة من حيث التكلفة في ظروف حقيقية"
الثقة هي العائق الرئيسي:
- الإجابات الخاطئة من نماذج اللغة الكبيرة تضعف فوراً ثقة الموظفين في النظام
- في بيئة تنظيمية عالية المخاطر، حتى إجابة واحدة خاطئة قد تدمر الثقة بالكامل
تحديات الامتثال التنظيمي:
- تحد نماذج اللغة الكبيرة المغلقة المصدر من رؤية البنوك لبيانات التدريب والأوزان
- تتوقع السلطات التنظيمية من البنوك تطوير مقاييس جديدة خاصة بحالات الاستخدام، مثل معدل الهلوسة والاتساق الواقعي

ترتيب أولويات المخاطر

بناءً على تحليل الاحتمالية والتأثير، تتطلب المخاطر التالية اهتماماً أولوياً:

احتمالية عالية - تأثير عالي: الانجراف التوزيعي، فجوات التوثيق، مخاطر استمرارية المعرفة، هروب الهلوسة
احتمالية متوسطة - تأثير عالي: انجراف المعايرة، عدم اتساق التسميات، التحيز الإجرائي

الأعمال ذات الصلة

أساليب تقييم التعلم الآلي التقليدي

المقاييس الكلاسيكية: الدقة، الدقة، درجة F1، ROUGE، BLEU وغيرها
القيود: عدم القدرة على التقاط الإبداعية والواقعية والملاءمة السياقية لمخرجات الذكاء الاصطناعي التوليدي

أبحاث تقييم الذكاء الاصطناعي التوليدي

الاختبارات المعيارية الأكاديمية: MMLU و SWE-bench واختبارات القدرات العامة الأخرى
الاحتياجات الصناعية: معدل نجاح المهام، دقة الامتثال، شدة الأخطاء، الجدوى التشغيلية

إدارة مخاطر الذكاء الاصطناعي المالي

الأطر التنظيمية: قانون الذكاء الاصطناعي الأوروبي، إرشادات مكتب المراقب المالي وغيرها
الممارسات الصناعية: الذكاء الاصطناعي القابل للتفسير، عمليات المراجعة اليدوية، متطلبات التوثيق الواضحة

الخلاصة والمناقشة

الاستنتاجات الرئيسية

الحاجة إلى إعادة تصميم إطار التقييم: مقاييس التعلم الآلي التقليدية غير كافية لتقييم تطبيقات الذكاء الاصطناعي التوليدي المالية، وتتطلب الجمع بين مؤشرات الأداء الرئيسية للأعمال والمتطلبات التنظيمية
إدارة المخاطر حتمية: اختيار المقاييس نفسه ينطوي على مخاطر متعددة الأبعاد تتطلب تحديداً منهجياً وتخفيفاً
التعاون الأكاديمي-الصناعي ضروري: الحاجة إلى تعاون بين الأوساط الأكاديمية والصناعة لتطوير أساليب تقييم خاصة بالمجال

القيود

قيود النطاق: يقتصر البحث على تطبيقات الذكاء الاصطناعي التوليدي في المجال المالي
الذاتية: تستند أحكام مستويات المخاطر والاحتمالات إلى خبرة خبراء الموضوع في منظمة محددة
قابلية التعميم: قد تختلف شدة المخاطر بين المؤسسات المالية المختلفة وحالات الاستخدام

الاتجاهات المستقبلية

أنظمة المراقبة الآلية: تطوير أنظمة قادرة على كشف الانجراف المفاهيمي والانجراف البيانات في الوقت الفعلي
الاختبار الخصومي: إنشاء أساليب اختبار ضغط وتقييم خصومي أكثر شمولاً
التوسع عبر المجالات: توسيع إطار عمل تقييم المخاطر ليشمل الصناعات الأخرى عالية المخاطر

التقييم المتعمق

المزايا

التوجه العملي: يستند إلى خبرة صناعية حقيقية، ذو قيمة عملية قوية جداً
قوة منهجية: يوفر تصنيفاً شاملاً للمخاطر واستراتيجيات تخفيف
الملاءمة الزمنية: يستجيب في الوقت المناسب للاحتياجات الملحة لتطبيقات الذكاء الاصطناعي التوليدي في المجال المالي
قابلية التنفيذ القوية: يوفر كل مخاطر تدابير تخفيف محددة

أوجه القصور

نقص التحليل الكمي: غياب بيانات تجريبية مفصلة والتحقق الكمي
عمق نظري محدود: أكثر من كونها ملخصاً للخبرة بدلاً من الابتكار النظري
التحقق من الطريقة غير كافٍ: عدم توفير تجارب تحكم كافية أو التحقق من الفعالية

التأثير

المساهمة الأكاديمية: توفير منظور وإطار عمل جديد لأبحاث تقييم الذكاء الاصطناعي التوليدي
القيمة الصناعية: توفير إرشادات عملية لنشر الذكاء الاصطناعي التوليدي في المؤسسات المالية
المرجعية التنظيمية: يمكن أن تكون بمثابة مرجع لسلطات التنظيم في صياغة السياسات ذات الصلة

السيناريوهات المعمول بها

أقسام إدارة مخاطر الذكاء الاصطناعي في المؤسسات المالية
فرق تقييم والتحقق من منتجات الذكاء الاصطناعي التوليدي
صياغة سياسات حوكمة الذكاء الاصطناعي من قبل السلطات التنظيمية
تقييم تطبيقات الذكاء الاصطناعي في الصناعات الأخرى عالية المخاطر

المراجع

تستشهد الورقة بعدة وثائق تنظيمية مهمة وتقارير صناعية وأبحاث أكاديمية، بما في ذلك:

وثائق قانون الذكاء الاصطناعي الأوروبي
أدلة مكتب المراقب المالي الأمريكي (OCC)
تقرير التحقيق في Apple Card
أبحاث McKinsey حول ثقة الذكاء الاصطناعي
قضايا قانونية ذات صلة

توفر هذه المراجع دعماً قوياً لوجهات نظر الورقة، مما يعكس صرامة وسلطة البحث.