As Generative Artificial Intelligence is adopted across the financial services industry, a significant barrier to adoption and usage is measuring model performance. Historical machine learning metrics can oftentimes fail to generalize to GenAI workloads and are often supplemented using Subject Matter Expert (SME) Evaluation. Even in this combination, many projects fail to account for various unique risks present in choosing specific metrics. Additionally, many widespread benchmarks created by foundational research labs and educational institutions fail to generalize to industrial use. This paper explains these challenges and provides a Risk Assessment Framework to allow for better application of SME and machine learning Metrics
- معرّف الورقة البحثية: 2510.13524
- العنوان: منهجية لتقييم مخاطر فشل المقاييس في نماذج اللغة الكبيرة ضمن المجال المالي
- المؤلفون: William Flanagan, Mukunda Das, Rajitha Ramanyake, Swanuja Maslekar, Meghana Mangipudi, Jeel Shah, Joong Ho Choi, Shruti Nair, Shambhavi Bhusan, Sanjana Dulam, Mouni Pendharkar, Nidhi Singh, Vashisth Doshi, Sachi Shah Paresh
- المؤسسات: مكتب الذكاء الاصطناعي المسؤول في BNY، مركز BNY لتكنولوجيا الذكاء الاصطناعي، جامعة كارنيجي ميلون
- التصنيف: cs.AI
- المؤتمر المنشور: المؤتمر الـ 39 حول أنظمة معالجة المعلومات العصبية (NeurIPS 2025)
- رابط الورقة البحثية: https://arxiv.org/abs/2510.13524
مع الانتشار الواسع للذكاء الاصطناعي التوليدي في قطاع الخدمات المالية، أصبح تقييم أداء النموذج عائقاً مهماً أمام التبني والاستخدام. غالباً ما تفشل مقاييس التعلم الآلي التقليدية في التعميم على أعباء عمل الذكاء الاصطناعي التوليدي، وعادة ما تتطلب تكملة من خلال تقييمات الخبراء الموضوعيين (SME). حتى مع اعتماد هذا النهج المدمج، فشلت العديد من المشاريع في الأخذ في الاعتبار بشكل كافٍ المخاطر المختلفة والفريدة الموجودة عند اختيار مقاييس محددة. علاوة على ذلك، فشلت العديد من الاختبارات المعيارية الموسعة التي أنشأتها مختبرات البحث الأساسي والمؤسسات التعليمية في التعميم على التطبيقات الصناعية. تشرح هذه الورقة هذه التحديات وتوفر إطار عمل لتقييم المخاطر لتطبيق أفضل لمقاييس الخبراء الموضوعيين والتعلم الآلي.
يركز هذا البحث على التحديات الرئيسية في التقييم عند نشر الذكاء الاصطناعي التوليدي في المجال المالي:
- فشل تعميم المقاييس: عدم قدرة مقاييس التعلم الآلي التقليدية على تقييم أداء الذكاء الاصطناعي التوليدي بفعالية في السيناريوهات المالية
- انقطاع الاختبارات المعيارية: وجود فجوة كبيرة بين الاختبارات المعيارية التي طورتها الأوساط الأكاديمية والاحتياجات الفعلية للصناعة
- تجاهل مخاطر التقييم: عدم أخذ الأساليب الحالية في الاعتبار بشكل كافٍ للمخاطر الناشئة عن اختيار المقاييس نفسها
تجعل الخصائص الفريدة للقطاع المالي هذه المشكلة ذات أهمية استثنائية:
- بيئة عالية المخاطر: قد تؤدي الأخطاء في القرارات المالية إلى خسائر اقتصادية ضخمة وعقوبات تنظيمية
- متطلبات تنظيمية صارمة: الحاجة إلى تلبية متطلبات الشفافية والقابلية للتفسير والامتثال
- متطلبات ثقة عالية: يعتمد النجاح في النشر على ثقة الموظفين والعملاء بأنظمة الذكاء الاصطناعي
توضح الورقة من خلال حالات محددة العواقب الوخيمة لفشل التقييم:
- حادثة التمييز الائتماني في Apple Card: أدى التحيز الخوارزمي إلى تمييز جنساني، مما ألحق أضراراً جسيمة بثقة العملاء رغم عدم انتهاك القانون
- نزاعات مطالبات التأمين في UnitedHealth و Cigna: رفضت أنظمة الذكاء الاصطناعي المطالبات الطبية تلقائياً دون مراجعة بشرية كافية
- تحديد التحديات الرئيسية في تقييم الذكاء الاصطناعي التوليدي: تحليل منهجي للقيود التي تواجهها المقاييس التقليدية في تطبيقات الذكاء الاصطناعي التوليدي المالية
- اقتراح إطار عمل لتصنيف المخاطر بخمسة أبعاد: إنشاء نظام تصنيف شامل يغطي مخاطر البيانات والنموذج والعملية والحوكمة والأخلاقيات
- بناء منهجية عملية لتقييم المخاطر: توفير إرشادات قابلة للتنفيذ للمؤسسات المالية لتحديد واستراتيجيات تخفيف مخاطر فشل المقاييس
- سد الفجوة بين البحث الأكاديمي والممارسة الصناعية: توضيح الفجوة بين الاختبارات المعيارية الأكاديمية والاحتياجات الفعلية للمؤسسات وتقديم الحلول
يهدف هذا البحث إلى إنشاء إطار عمل منهجي من أجل:
- التحديد: اكتشاف أنماط المخاطر المختلفة التي قد تؤدي إلى فشل مقاييس تقييم الذكاء الاصطناعي التوليدي
- التقييم: قياس احتمالية هذه المخاطر ودرجة تأثيرها
- التخفيف: توفير تدابير إدارة مخاطر موجهة
تقترح الورقة خمس فئات مخاطر رئيسية، تحتوي كل فئة على أنماط فشل محددة:
- الانجراف التوزيعي (Distribution Shift)
- التعريف: انحراف بيانات الإدخال بمرور الوقت عن شريحة البيانات المستخدمة لمعايرة المقاييس
- الاحتمالية: عالية | التأثير: عالي
- تدابير التخفيف: إنشاء كاشفات انجراف بيانات آلية وإعادة التحقق الدوري من المقاييس
- انجراف التسميات (Label Drift)
- التعريف: تطور معايير حكم الخبراء الموضوعيين (مثل المبادئ التوجيهية الجديدة التي تغير تعريف "الواقعية")
- الاحتمالية: متوسطة | التأثير: متوسط
- تدابير التخفيف: الحفاظ على إرشادات التسميات ذات الإصدارات وتتبع اتساق المسمين
- انجراف المعايرة (Calibration Drift)
- التعريف: تغيير توزيع الدرجات بين إصدارات النموذج، مما يخفي تدهور الأداء الحقيقي
- الاحتمالية: متوسطة | التأثير: عالي
- تدابير التخفيف: نشر مخططات التحكم؛ تشغيل إعادة معايرة تلقائية عند تجاوز التوزيع للحدود
- الضعف تجاه الهجمات (Adversarial Vulnerability)
- التعريف: اضطرابات صغيرة في الإدخال تؤدي إلى انحرافات كبيرة في مخرجات المقاييس
- الاحتمالية: منخفضة | التأثير: عالي
- تدابير التخفيف: تعزيز المعالجة المسبقة؛ استخدام العينات المعادية لاختبار الضغط
- عدم اتساق التسميات (Annotation Inconsistency)
- التحيز الإجرائي (Action Bias)
- عدم توافق النطاق (Scope Misalignment)
- قيود قابلية التوسع (Scalability Constraints)
- فجوات التوثيق (Documentation Gaps)
- مخاطر استمرارية المعرفة (Knowledge Continuity Risk)
- المقاييس الكثيفة المجال (Domain-Intensive Metrics)
- عدم التوافق التنظيمي (Regulatory Misalignment)
- فشل التحيز والعدالة (Bias & Fairness Failures)
- هروب الهلوسة (Hallucination Escape)
- تصنيف المخاطر المنهجي: أول إطار عمل شامل لتصنيف المخاطر في تقييم الذكاء الاصطناعي التوليدي للمجال المالي
- مصفوفة الاحتمالية والتأثير: توفير تقييم كمي للاحتمالية والتأثير لكل نمط مخاطر
- استراتيجيات تخفيف قابلة للتنفيذ: كل مخاطر مزودة بتدابير تقنية وإدارية محددة للتخفيف
- نهج تقييم هجين: الجمع بين مزايا المقاييس الآلية وتقييمات الخبراء الموضوعيين، مع اقتراح طرق مبتكرة مثل "LLM-as-Judge"
تعتمد الورقة على منهجية تقييم قائمة على الخبرة الصناعية الفعلية:
- الحكم الخبير: تحديد احتمالية المخاطر وتأثيرها بناءً على الخبرة الفعلية لخبراء الموضوع في BNY
- دراسات الحالة: التحقق من صحة تصنيف المخاطر من خلال حالات واقعية مثل Apple Card و UnitedHealth
- التحليل المقارن: مقارنة منهجية بين الاختبارات المعيارية الأكاديمية والاحتياجات الفعلية للصناعة
- بيانات الممارسة الداخلية: من الخبرة الفعلية للمشاريع في مكتب الذكاء الاصطناعي المسؤول ومركز الذكاء الاصطناعي في BNY
- المتطلبات التنظيمية: قانون الذكاء الاصطناعي الأوروبي، أدلة مكتب المراقب المالي (OCC) وغيرها
- حالات الصناعة: حالات فشل الذكاء الاصطناعي العامة والدعاوى القضائية
- الفجوة الأكاديمية-الصناعية كبيرة:
- لا تستطيع الاختبارات المعيارية الأكاديمية مثل MMLU و SWE-bench عكس تعقيد أعباء العمل الفعلية للمؤسسات
- يركز التقييم في المختبرات على "هل يمكن للنموذج حل هذا الاختبار"، بينما تحتاج المؤسسات إلى "هل يمكن للنظام توفير مخرجات موثوقة وقابلة للتدقيق وفعالة من حيث التكلفة في ظروف حقيقية"
- الثقة هي العائق الرئيسي:
- الإجابات الخاطئة من نماذج اللغة الكبيرة تضعف فوراً ثقة الموظفين في النظام
- في بيئة تنظيمية عالية المخاطر، حتى إجابة واحدة خاطئة قد تدمر الثقة بالكامل
- تحديات الامتثال التنظيمي:
- تحد نماذج اللغة الكبيرة المغلقة المصدر من رؤية البنوك لبيانات التدريب والأوزان
- تتوقع السلطات التنظيمية من البنوك تطوير مقاييس جديدة خاصة بحالات الاستخدام، مثل معدل الهلوسة والاتساق الواقعي
بناءً على تحليل الاحتمالية والتأثير، تتطلب المخاطر التالية اهتماماً أولوياً:
- احتمالية عالية - تأثير عالي: الانجراف التوزيعي، فجوات التوثيق، مخاطر استمرارية المعرفة، هروب الهلوسة
- احتمالية متوسطة - تأثير عالي: انجراف المعايرة، عدم اتساق التسميات، التحيز الإجرائي
- المقاييس الكلاسيكية: الدقة، الدقة، درجة F1، ROUGE، BLEU وغيرها
- القيود: عدم القدرة على التقاط الإبداعية والواقعية والملاءمة السياقية لمخرجات الذكاء الاصطناعي التوليدي
- الاختبارات المعيارية الأكاديمية: MMLU و SWE-bench واختبارات القدرات العامة الأخرى
- الاحتياجات الصناعية: معدل نجاح المهام، دقة الامتثال، شدة الأخطاء، الجدوى التشغيلية
- الأطر التنظيمية: قانون الذكاء الاصطناعي الأوروبي، إرشادات مكتب المراقب المالي وغيرها
- الممارسات الصناعية: الذكاء الاصطناعي القابل للتفسير، عمليات المراجعة اليدوية، متطلبات التوثيق الواضحة
- الحاجة إلى إعادة تصميم إطار التقييم: مقاييس التعلم الآلي التقليدية غير كافية لتقييم تطبيقات الذكاء الاصطناعي التوليدي المالية، وتتطلب الجمع بين مؤشرات الأداء الرئيسية للأعمال والمتطلبات التنظيمية
- إدارة المخاطر حتمية: اختيار المقاييس نفسه ينطوي على مخاطر متعددة الأبعاد تتطلب تحديداً منهجياً وتخفيفاً
- التعاون الأكاديمي-الصناعي ضروري: الحاجة إلى تعاون بين الأوساط الأكاديمية والصناعة لتطوير أساليب تقييم خاصة بالمجال
- قيود النطاق: يقتصر البحث على تطبيقات الذكاء الاصطناعي التوليدي في المجال المالي
- الذاتية: تستند أحكام مستويات المخاطر والاحتمالات إلى خبرة خبراء الموضوع في منظمة محددة
- قابلية التعميم: قد تختلف شدة المخاطر بين المؤسسات المالية المختلفة وحالات الاستخدام
- أنظمة المراقبة الآلية: تطوير أنظمة قادرة على كشف الانجراف المفاهيمي والانجراف البيانات في الوقت الفعلي
- الاختبار الخصومي: إنشاء أساليب اختبار ضغط وتقييم خصومي أكثر شمولاً
- التوسع عبر المجالات: توسيع إطار عمل تقييم المخاطر ليشمل الصناعات الأخرى عالية المخاطر
- التوجه العملي: يستند إلى خبرة صناعية حقيقية، ذو قيمة عملية قوية جداً
- قوة منهجية: يوفر تصنيفاً شاملاً للمخاطر واستراتيجيات تخفيف
- الملاءمة الزمنية: يستجيب في الوقت المناسب للاحتياجات الملحة لتطبيقات الذكاء الاصطناعي التوليدي في المجال المالي
- قابلية التنفيذ القوية: يوفر كل مخاطر تدابير تخفيف محددة
- نقص التحليل الكمي: غياب بيانات تجريبية مفصلة والتحقق الكمي
- عمق نظري محدود: أكثر من كونها ملخصاً للخبرة بدلاً من الابتكار النظري
- التحقق من الطريقة غير كافٍ: عدم توفير تجارب تحكم كافية أو التحقق من الفعالية
- المساهمة الأكاديمية: توفير منظور وإطار عمل جديد لأبحاث تقييم الذكاء الاصطناعي التوليدي
- القيمة الصناعية: توفير إرشادات عملية لنشر الذكاء الاصطناعي التوليدي في المؤسسات المالية
- المرجعية التنظيمية: يمكن أن تكون بمثابة مرجع لسلطات التنظيم في صياغة السياسات ذات الصلة
- أقسام إدارة مخاطر الذكاء الاصطناعي في المؤسسات المالية
- فرق تقييم والتحقق من منتجات الذكاء الاصطناعي التوليدي
- صياغة سياسات حوكمة الذكاء الاصطناعي من قبل السلطات التنظيمية
- تقييم تطبيقات الذكاء الاصطناعي في الصناعات الأخرى عالية المخاطر
تستشهد الورقة بعدة وثائق تنظيمية مهمة وتقارير صناعية وأبحاث أكاديمية، بما في ذلك:
- وثائق قانون الذكاء الاصطناعي الأوروبي
- أدلة مكتب المراقب المالي الأمريكي (OCC)
- تقرير التحقيق في Apple Card
- أبحاث McKinsey حول ثقة الذكاء الاصطناعي
- قضايا قانونية ذات صلة
توفر هذه المراجع دعماً قوياً لوجهات نظر الورقة، مما يعكس صرامة وسلطة البحث.