This paper establishes a theoretical foundation for understanding the fundamental limits of AI explainability through algorithmic information theory. We formalize explainability as the approximation of complex models by simpler ones, quantifying both approximation error and explanation complexity using Kolmogorov complexity. Our key theoretical contributions include: (1) a complexity gap theorem proving that any explanation significantly simpler than the original model must differ from it on some inputs; (2) precise bounds showing that explanation complexity grows exponentially with input dimension but polynomially with error tolerance for Lipschitz functions; and (3) a characterization of the gap between local and global explainability, demonstrating that local explanations can be significantly simpler while maintaining accuracy in relevant regions. We further establish a regulatory impossibility theorem proving that no governance framework can simultaneously pursue unrestricted AI capabilities, human-interpretable explanations, and negligible error. These results highlight considerations likely to be relevant to the design, evaluation, and oversight of explainable AI systems.
- معرّف الورقة: 2504.20676
- العنوان: The Limits of AI Explainability: An Algorithmic Information Theory Approach
- المؤلف: Shrisha Rao
- التصنيف: cs.AI cs.CY cs.IT math.IT
- تاريخ النشر: 3 نوفمبر 2025 (arXiv v2)
- رابط الورقة: https://arxiv.org/abs/2504.20676
تؤسس هذه الورقة أساساً نظرياً لفهم الحدود الأساسية لقابلية شرح الذكاء الاصطناعي من خلال نظرية المعلومات الخوارزمية. يقوم المؤلف بصياغة قابلية الشرح كعملية تقريب نماذج معقدة باستخدام نماذج بسيطة، مستخدماً تعقيد كولموغوروف لتحديد كمية خطأ التقريب وتعقيد الشرح. تشمل المساهمات النظرية الرئيسية: (1) نظرية فجوة التعقيد، التي تثبت أن أي شرح بسيط بشكل ملحوظ عن النموذج الأصلي يجب أن يختلف عنه في بعض المدخلات؛ (2) حدود دقيقة توضح أن تعقيد الشرح ينمو بشكل أسي مع بعد المدخل لكن بشكل متعدد الحدود مع تسامح الخطأ للدوال Lipschitz؛ (3) توصيف الفجوة بين قابلية الشرح المحلية والعالمية، مما يثبت أن الشروحات المحلية يمكن أن تبسط بشكل كبير مع الحفاظ على الدقة في المناطق ذات الصلة. بالإضافة إلى ذلك، يتم إنشاء نظرية استحالة تنظيمية تثبت أنه لا يوجد إطار حوكمة يمكن أن يسعى في نفس الوقت إلى قدرات ذكاء اصطناعي غير محدودة وشروحات قابلة للفهم البشري وأخطاء مهملة.
مع نمو تأثير أنظمة الذكاء الاصطناعي في المجالات الحرجة مثل التشخيص الطبي والقرارات المالية والقيادة الذاتية، أصبحت القدرة على شرح سلوك هذه الأنظمة حاسمة لبناء الثقة وتحقيق الإشراف الفعال وتعزيز التعاون بين الإنسان والآلة. وقد أدى هذا إلى ظهور مجال الذكاء الاصطناعي القابل للشرح (XAI)، الذي يسعى إلى تطوير طرق تجعل أنظمة الذكاء الاصطناعي المعقدة قابلة للشرح للبشر مع الحفاظ على الأداء العالي.
على الرغم من التقدم الكبير في تطوير تقنيات شرح عملية، يفتقر المجال إلى أساس مناسب لفهم الحدود الأساسية لقابلية الشرح. تشمل المشاكل الموجودة:
- عدم وجود تعريفات رسمية للمفاهيم الأساسية مثل "قابلية الشرح" و"البساطة" و"الدقة"
- عدم القدرة على تحليل المقايضات المتأصلة في توليد الشروحات بشكل منهجي
- غياب الضمانات القابلة للإثبات حول جودة الشروحات
- عدم وضوح الطبيعة النظرية للطرق الاستكشافية
تملأ هذه الورقة هذه الفجوة المهمة من خلال إنشاء أساس نظري لتحديد كمية الحدود الأساسية لقابلية شرح أنظمة الذكاء الاصطناعي باستخدام مفاهيم من نظرية المعلومات الخوارزمية ونظرية التقريب والتعقيد الحسابي.
- إطار عمل رسمي: اقتراح تعريف رسمي لخطأ الشرح بناءً على تعقيد كولموغوروف، مما يوفر مقياساً نظرياً سليماً لبساطة النموذج مستقل عن التمثيل المحدد
- نظرية فجوة التعقيد: إثبات أن أي شرح بسيط بشكل ملحوظ عن النموذج الأصلي يجب أن يختلف عنه في بعض المدخلات، مما يصيغ الحدس بأن التبسيط يؤدي حتماً إلى فقدان المعلومات
- حدود محددة كمياً: توفير حدود محددة كمياً لمقايضات الخطأ والتعقيد لفئات دوال مختلفة، بما في ذلك تحليل دقيق لدوال Lipschitz الملساء
- تحليل فئات النموذج: تحليل نظري لقابلية شرح فئات النموذج الشائعة (النماذج الخطية وأشجار القرار والشبكات العصبية)
- قابلية الشرح المحلية مقابل العالمية: توصيف الفجوة بين قابلية الشرح المحلية والعالمية، مما يوضح أن الشروحات المحلية يمكن أن تبسط بشكل كبير
- نظرية استحالة التنظيم: إثبات أنه لا يوجد إطار تنظيمي يمكن أن يسعى في نفس الوقت إلى قدرات ذكاء اصطناعي غير محدودة وشروحات قابلة للفهم البشري وأخطاء مهملة
تعرّف هذه الورقة مهمة قابلية الشرح على النحو التالي: بالنظر إلى نظام ذكاء اصطناعي f : X → Y، ابحث عن شرح g : X → Y بحيث يقترب g من سلوك f ويعتبر قابلاً للشرح للبشر.
- نظام الذكاء الاصطناعي: دالة f : X → Y، حيث X يمثل فضاء المدخلات و Y يمثل فضاء المخرجات
- الشرح: دالة g : X → Y تقترب من f وتفي بمعيار قابلية شرح معين
- تعقيد كولموغوروف: K(g) = min{|p| : U(p,x) = g(x) for all x ∈ X}، حيث p هو أقصر برنامج يحسب g
- فئة قابلية الشرح: Ik = {g : X → Y | K(g) ≤ k}، تمثل مجموعة الدوال التي لا يتجاوز تعقيدها k
- دالة خطأ الشرح: εf(k) = inf_{g∈Ik} E(f,g)، تمثل الحد الأدنى للخطأ الذي يمكن تحقيقه بشرح بتعقيد لا يتجاوز k
- دالة تعقيد الشرح: κf(δ) = min{k ∈ ℕ | ∃g ∈ Ik : E(f,g) ≤ δ}، تمثل الحد الأدنى للتعقيد المطلوب لتحقيق خطأ لا يتجاوز δ
لأي نموذج f وشرح g، إذا كان K(g) < K(f) - c (لثابت معين c)، فيجب أن يوجد مدخل x بحيث f(x) ≠ g(x).
لأي نموذج f وفئة قابلية شرح Ik (k < K(f) - c)، يوجد حد أدنى للخطأ الأمثل في التقريب:
εf(k) ≥ min_{x∈X,y∈Y,y≠f(x)} d(f(x),y)
لدالة L-Lipschitz مستمرة f : 0,1^d → ℝ، يحقق تعقيد الشرح:
κf(δ) = O((L/δ)^d log(L/δ))
هذه الورقة عمل نظري بشكل أساسي، يتم التحقق من النظريات المختلفة من خلال الإثبات الرياضي. تم تحليل فئات الدوال التالية:
- دوال Lipschitz: تحليل حدود قابلية شرح الدوال الملساء
- النماذج الخطية: التعقيد K(g) = O(n log n)، حيث n هو عدد الميزات
- أشجار القرار: التعقيد K(g) = O(|T| log |T|)، حيث |T| هو عدد العقد
- الشبكات العصبية: التعقيد K(g) = O(w log p + b log p + a)، حيث w هو عدد الأوزان و b هو عدد الانحيازات و p هي الدقة
- الإثبات البنائي: إثبات نتائج الوجود من خلال البناء الصريح لدوال تحقق الشروط
- التحليل الخصومي: بناء دوال الحالة الأسوأ لإثبات نتائج الحد الأدنى
- التحليل التقاربي: تحليل السلوك التقاربي للتعقيد والخطأ مع تغير المعاملات
لعتبة خطأ ثابتة δ وثابت Lipschitz L، ينمو تعقيد شرح دوال Lipschitz بشكل أسي مع البعد:
κf(δ) = O((L/δ)^d log(L/δ))
لدالة بوليانية عشوائية f : {0,1}^n → {0,1}، معدل الفشل لأي شرح g بتعقيد K(g) ≤ (1-ε)2^n يحقق:
ε(f,g) ≥ 1/2 - 2^{-Ω(2^n)}
لشرح محلي لدالة L-Lipschitz:
κf^{local}(δ,x0,N) = {
O(1) if δ ≥ Lr
O(d log(Lr/δ)) if δ < Lr
}
إثبات ثلاثي الأطراف الأساسي في حوكمة الذكاء الاصطناعي:
- R1 (القدرات غير المحدودة): السماح بأنظمة ذكاء اصطناعي بتعقيد عالي بشكل تعسفي
- R2 (قابلية الشرح البشري): الطلب بأن لا يتجاوز تعقيد الشرح حدود الإدراك البشري
- R3 (الأخطاء المهملة): الطلب بأن يكون خطأ الشرح صغيراً بما يكفي
يمكن تحقيق أي متطلبين معاً، لكن لا يمكن تحقيق المتطلبات الثلاثة في نفس الوقت.
- اقتراح Jung و Nardelli لطريقة احتمالية بناءً على المعلومات المتبادلة الشرطية
- صياغة Ganguly و Gupta لاختيار المفسر كمشكلة معدل التشويه
- نظرية البساطة الخوارزمية لـ Dessalles
- تطبيق نظرية التعلم الإحصائي في قابلية الشرح
- الأعمال ذات الصلة من نظرية التعقيد الحسابي
- تطبيق نظرية التقريب في توليد الشروحات
بالمقارنة مع الأعمال الموجودة، توفر هذه الورقة نموذجاً شاملاً بناءً على نظرية المعلومات الخوارزمية يمكنه توصيف المقايضات الأساسية لفئات النموذج وطرق الشرح المختلفة.
- الحدود الأساسية: أي شرح بسيط بشكل ملحوظ عن النموذج الأصلي يجب أن ينتج أخطاء في بعض المدخلات
- لعنة البعد: ينمو تعقيد الشرح بشكل أسي مع بعد المدخل، مما يصيغ "لعنة البعد" في قابلية الشرح
- مزايا الشرح المحلي: يمكن للشروحات المحلية أن تبسط بشكل كبير مقارنة بالشروحات العالمية
- ثلاثي التنظيم: لا يمكن تحقيق قدرات ذكاء اصطناعي غير محدودة وقابلية شرح بشرية وأخطاء مهملة في نفس الوقت
- تقليل البعد: إعطاء الأولوية لتقليل بعد المدخل
- اختيار فئة النموذج: اختيار فئة نموذج الشرح بناءً على طبيعة الدالة المستهدفة
- ميزانية التعقيد: توزيع فعال لميزانية تعقيد قابلية الشرح
- الطرق المختلطة: استخدام مجموعات فئات النموذج لتحقيق مقايضات أفضل
- التعقيد التكيفي: تخصيص تعقيد أكثر في المناطق التي تتغير فيها الدالة بسرعة
- الحسابية: تعقيد كولموغوروف عادة ما يكون غير قابل للحساب، مما يتطلب تقريبات
- الإدراك البشري: قد لا يلتقط الإطار النظري بشكل كامل عملية الفهم البشري
- افتراضات التوزيع: تعتمد بعض النتائج على افتراضات توزيع محددة للمدخلات
- التحقق التجريبي: عمل نظري بشكل أساسي، يفتقر إلى التحقق التجريبي على نطاق واسع
- التعقيد الحسابي: دراسة التعقيد الحسابي لإيجاد الشروحات المثلى
- المحاذاة المعرفية: تطوير مقاييس تعقيد تتوافق بشكل أفضل مع عمليات الإدراك البشري
- الوعي بالتوزيع: امتدادات تأخذ في الاعتبار توزيع المدخلات بشكل أكثر وضوحاً
- الشروحات السببية: دمج مفاهيم الشروحات السببية والمضادة للواقع
- الشروحات الديناميكية: استكشاف نماذج الشروحات الديناميكية والتفاعلية
- الصرامة النظرية: أساس رياضي متين بناءً على نظرية المعلومات الخوارزمية، يوفر أول إطار نظري شامل لأبحاث قابلية الشرح
- الانطباق العام: النتائج تنطبق على نطاق واسع من فئات النموذج وسيناريوهات التطبيق
- الملاءمة العملية: نتائج نظرية لها تأثير مباشر على تصميم أنظمة الذكاء الاصطناعي القابلة للشرح العملية
- التأثير على السياسات: توفر رؤى رياضية مهمة للقيود على حوكمة وتنظيم الذكاء الاصطناعي
- الابتكار التقني: تطبيق ماهر لتعقيد كولموغوروف على تحليل قابلية الشرح
- التحديات الحسابية: عدم قابلية حساب تعقيد كولموغوروف يحد من التطبيق المباشر
- الفجوة المعرفية: قد توجد فجوة بين مقاييس التعقيد النظرية وقدرات الفهم البشري الفعلية
- غياب التحقق التجريبي: نقص التحقق التجريبي على نطاق واسع لدعم التنبؤات النظرية
- قيود الافتراضات: تعتمد بعض النتائج على افتراضات قوية نسبياً حول خصائص الدوال (مثل استمرارية Lipschitz)
- عتبة التطبيق: يتطلب تطبيق الإطار النظري خلفية رياضية عالية
- المساهمة الأكاديمية: توفير أساس نظري مهم لأبحاث الذكاء الاصطناعي القابل للشرح، قد تصبح عملاً أساسياً في المجال
- القيمة العملية: توفير إرشادات منطقية لاختيار وتقييم طرق الشرح
- الأهمية السياسية: ذات قيمة مرجعية مهمة لصنع سياسات تنظيم الذكاء الاصطناعي
- التأثير متعدد التخصصات: ربط نظرية المعلومات والتعقيد والذكاء الاصطناعي والأخلاقيات وعدة مجالات أخرى
- تطبيقات الذكاء الاصطناعي عالية المخاطر: المجالات التي تتطلب متطلبات صارمة لقابلية الشرح مثل الطب والمالية والقضاء
- الامتثال التنظيمي: تصميم أنظمة الذكاء الاصطناعي التي تحتاج إلى تلبية متطلبات الشرح
- الإرشاد البحثي: التحليل النظري ومقارنة طرق الذكاء الاصطناعي القابل للشرح
- التعليم والتدريب: الأساس النظري لدورات أخلاقيات الذكاء الاصطناعي وقابلية الشرح
تستشهد الورقة بـ 65 مرجعاً مهماً، تغطي:
- الأعمال الكلاسيكية في نظرية المعلومات الخوارزمية (Li & Vitányi, Kolmogorov وغيرهم)
- الأعمال المهمة في الذكاء الاصطناعي القابل للشرح (LIME, SHAP وغيرها)
- أساسيات نظرية التعقيد ونظرية التقريب
- الأدبيات المتعلقة بحوكمة وتنظيم الذكاء الاصطناعي
- نظرية المعلومات ونظرية معدل التشويه
التقييم الشامل: هذا عمل نظري ذو أهمية تاريخية، يؤسس للمرة الأولى أساساً رياضياً صارماً لأبحاث قابلية شرح الذكاء الاصطناعي. على الرغم من التحديات في التطبيق العملي، فإن مساهمته النظرية وقيمتها الإرشادية لتطور المجال لا يمكن إنكارها. لا يقدم هذا العمل فقط فهماً أعمق للحدود الأساسية لقابلية الشرح، بل يوفر أيضاً أساساً علمياً مهماً لحوكمة الذكاء الاصطناعي.