When Are Learning Biases Equivalent? A Unifying Framework for Fairness, Robustness, and Distribution Shift
Mehta
Machine learning systems exhibit diverse failure modes: unfairness toward protected groups, brittleness to spurious correlations, poor performance on minority sub-populations, which are typically studied in isolation by distinct research communities. We propose a unifying theoretical framework that characterizes when different bias mechanisms produce quantitatively equivalent effects on model performance. By formalizing biases as violations of conditional independence through information-theoretic measures, we prove formal equivalence conditions relating spurious correlations, subpopulation shift, class imbalance, and fairness violations. Our theory predicts that a spurious correlation of strength $α$ produces equivalent worst-group accuracy degradation as a sub-population imbalance ratio $r \approx (1+α)/(1-α)$ under feature overlap assumptions. Empirical validation in six datasets and three architectures confirms that predicted equivalences hold within the accuracy of the worst group 3\%, enabling the principled transfer of debiasing methods across problem domains. This work bridges the literature on fairness, robustness, and distribution shifts under a common perspective.
academic
متى تكون انحيازات التعلم متكافئة؟ إطار عمل موحد للعدالة والمتانة وتحول التوزيع
تُظهر أنظمة التعلم الآلي أنماط فشل متعددة: عدم عدالة تجاه المجموعات المحمية، والهشاشة تجاه الارتباطات الزائفة، والأداء الضعيفة على المجموعات الفرعية النادرة. عادة ما يتم دراسة هذه المشاكل بشكل مستقل من قبل مجتمعات بحثية مختلفة. تقترح هذه الورقة إطار عمل نظري موحد يحدد متى تنتج آليات الانحياز المختلفة تأثيرات كمية متكافئة على أداء النموذج. من خلال تشكيل الانحياز كانتهاك للاستقلالية الشرطية (باستخدام مقاييس نظرية المعلومات)، يثبت المؤلفون شروط التكافؤ الرسمي بين الارتباطات الزائفة وتحول المجموعات الفرعية وعدم التوازن الفئوي وانتهاكات العدالة. يتنبأ الإطار النظري بأن الارتباط الزائف بقوة α ينتج انخفاضاً في دقة أسوأ مجموعة مكافئاً لنسبة عدم التوازن في المجموعات الفرعية r ≈ (1+α)/(1-α). يؤكد التحقق التجريبي على ستة مجموعات بيانات وثلاث معمارات أن التكافؤ المتنبأ به يحمل ضمن هامش خطأ 3% لدقة أسوأ مجموعة، مما يتيح نقل طرق إزالة الانحياز بشكل منطقي عبر مجالات المشاكل.
إطار عمل نظري موحد: معاملة جميع الانحيازات كانتهاكات للاستقلالية الشرطية بين التنبؤات والسمات المحمية/الزائفة المعطاة التسميات الحقيقية، مع تشكيل رسمي باستخدام مقاييس نظرية المعلومات
شروط التكافؤ الرسمي: إثبات متى ينتج الارتباط الزائف وتحول المجموعات الفرعية وانتهاكات العدالة تأثيرات كمية متكافئة (النظرية 2)
نظرية التنبؤ: يمكن للإطار التنبؤ بأداء أسوأ مجموعة من خصائص التوزيع، مع التحقق التجريبي على 18 تكوين مشكلة
التحقق من نقل الطرق: عرض ناجح لنقل تقنيات إزالة الانحياز عبر مشاكل متكافئة نظرياً، بأداء ضمن 5% من طرق التدريب من الصفر
ربط الأدبيات: إنشاء منظور موحد عبر مجتمعات البحث في العدالة والمتانة والتعميم
النظرية 2 (تكافؤ الانحياز):
النظر في مشكلتي تعلم (D₁, A₁) و (D₂, A₂)، بنفس فضاء الميزات X وفضاء التسميات Y، لكن مع سمات مختلفة A₁, A₂. تحت افتراضات سلاسة دالة الخسارة ℓ وشروط تداخل الميزات:
η = min_y ∫ min(p₁(x|y), p₂(x|y))dx > τ
إذا كانت آليات الانحياز تحقق التكافؤ ε:
|B(f; D₁) - B(f; D₂)| ≤ ε
فإن الفرق في دقة أسوأ مجموعة يكون على الأكثر δ(ε, η)، حيث:
δ(ε, η) = O(√ε/η)
النتيجة 3 (الارتباط الزائف ↔ عدم التوازن):
الارتباط الزائف بقوة α يكافئ عدم توازن المجموعات الفرعية بنسبة r، عندما:
النتيجة: تكافؤ متسق عبر المعمارات (متوسط التغيير 0.8%)، مما يشير إلى أن الظاهرة توزيعية بطبيعتها
قوة الارتباط:
تغيير منهجي لقوة الارتباط الزائف α من 0.7 إلى 0.99، ملاحظة نسب عدم توازن متنبأ بها من 5.7:1 إلى 199:1، جميع التنبؤات تحقق ضمن 4% من دقة أسوأ مجموعة، تأكيد النتيجة 3 عبر نطاق قوة الارتباط الكامل.
تتضمن المراجع الرئيسية المستشهد بها في هذه الورقة:
Sagawa et al. (2020) - طريقة GroupDRO ومعيار Waterbirds
Geirhos et al. (2020) - تعلم الاختصارات في الشبكات العميقة
Hardt et al. (2016) - المساواة في الفرص في التعلم الخاضع للإشراف
Koh et al. (2021) - معيار WILDS لتحول التوزيع البري
Kirichenko et al. (2022) - إعادة ترجيح الطبقة الأخيرة (DFR)
Liu et al. (2021) - طريقة Just Train Twice (JTT)
التقييم الإجمالي: هذا عمل عالي الجودة يجمع بين النظرية والتجارب، مع مساهمات رائدة في مجال البحث عن الانحيازات في التعلم الآلي. الإطار النظري أنيق وعملي، والتحقق التجريبي شامل. القيود الرئيسية تكمن في افتراض التصنيف الثنائي وغياب توسيع متعدد الفئات. بالنسبة لمؤتمر مثل NeurIPS، هذا ورقة قوية تستحق القبول، مع توقع تأثير كبير وإلهام أبحاث لاحقة. يُنصح المؤلفون بإضافة المزيد من تجارب نقل الطرق وتحليل حالات الفشل في النسخة النهائية، وتوفير إرشادات عملية لاختيار عتبة تداخل الميزات τ.