2025-11-16T17:58:12.985277

Dr. Bias: Social Disparities in AI-Powered Medical Guidance

Kondrup, Imouza

With the rapid progress of Large Language Models (LLMs), the general public now has easy and affordable access to applications capable of answering most health-related questions in a personalized manner. These LLMs are increasingly proving to be competitive, and now even surpass professionals in some medical capabilities. They hold particular promise in low-resource settings, considering they provide the possibility of widely accessible, quasi-free healthcare support. However, evaluations that fuel these motivations highly lack insights into the social nature of healthcare, oblivious to health disparities between social groups and to how bias may translate into LLM-generated medical advice and impact users. We provide an exploratory analysis of LLM answers to a series of medical questions spanning key clinical domains, where we simulate these questions being asked by several patient profiles that vary in sex, age range, and ethnicity. By comparing natural language features of the generated responses, we show that, when LLMs are used for medical advice generation, they generate responses that systematically differ between social groups. In particular, Indigenous and intersex patients receive advice that is less readable and more complex. We observe these trends amplify when intersectional groups are considered. Considering the increasing trust individuals place in these models, we argue for higher AI literacy and for the urgent need for investigation and mitigation by AI developers to ensure these systemic differences are diminished and do not translate to unjust patient support. Our code is publicly available on GitHub.

academic

د. الانحياز: الفوارق الاجتماعية في التوجيهات الطبية المدعومة بالذكاء الاصطناعي

المعلومات الأساسية

معرّف الورقة البحثية: 2510.09162
العنوان: Dr. Bias: Social Disparities in AI-Powered Medical Guidance
المؤلفون: إيما كوندروب (معهد كيبيك للذكاء الاصطناعي - Mila)، آن إيموزا (جامعة ماكجيل)
التصنيف: cs.AI cs.CY
وقت النشر/المؤتمر: مقبول في ندوة المساءلة النموذجية والاستدامة والرعاية الصحية 2025
رابط الورقة البحثية: https://arxiv.org/abs/2510.09162

الملخص

مع التطور السريع لنماذج اللغة الكبيرة (LLMs)، أصبح بإمكان الجمهور الآن الوصول بسهولة واقتصادية إلى تطبيقات قادرة على الإجابة الشخصية على معظم الأسئلة المتعلقة بالصحة. تتمتع هذه النماذج بقدرات طبية متنافسة بشكل متزايد، بل تتفوق على المتخصصين في بعض الحالات، وخاصة في البيئات التي تعاني من نقص الموارد. ومع ذلك، تفتقر التقييمات التي تدعم هذه الدوافع بشكل كبير إلى الفهم العميق للطبيعة الاجتماعية للرعاية الصحية، وتتجاهل الفوارق الصحية بين المجموعات الاجتماعية وكيفية تحول الانحيازات إلى توصيات طبية يولدها نموذج اللغة الكبيرة وتؤثر على المستخدمين. تجري هذه الدراسة تحليلاً استكشافياً لإجابات نماذج اللغة الكبيرة على الأسئلة الطبية في المجالات السريرية الحرجة، محاكية ملفات مرضى بخصائص جنسية وعمرية وعرقية مختلفة. من خلال مقارنة الخصائص اللغوية الطبيعية للردود المولدة، تكتشف الدراسة أن نماذج اللغة الكبيرة تنتج فوارق منهجية عند توليد التوصيات الطبية لمجموعات اجتماعية مختلفة، خاصة أن المرضى الأصليين والثنائيي الجنس يتلقون توصيات أقل قابلية للقراءة وأكثر تعقيداً.

السياق البحثي والدافع

تعريف المشكلة

المشكلة الأساسية التي تسعى هذه الدراسة إلى حلها هي: هل توجد انحيازات اجتماعية منهجية عندما تقدم نماذج اللغة الكبيرة التوصيات الطبية، وكيف تؤثر هذه الانحيازات على جودة المعلومات الطبية التي تحصل عليها المجموعات السكانية المختلفة.

الأهمية

العدالة الاجتماعية: مع الاستخدام الواسع لنماذج اللغة الكبيرة في الاستشارات الطبية، من الضروري ضمان حصول جميع الفئات على معلومات طبية عادلة وعالية الجودة
الفوارق الصحية: قد تؤدي الفوارق الصحية الموجودة بالفعل إلى توسيع نطاقها من خلال أنظمة الذكاء الاصطناعي
زيادة الثقة: يتزايد ثقة الجمهور بالتوصيات الطبية المدعومة بالذكاء الاصطناعي، مما يجعل مسألة الانحياز أكثر إلحاحاً

حدود الأساليب الموجودة

نقص تحليل البعد الاجتماعي: تركز تقييمات تطبيقات اللغة الكبيرة الطبية الموجودة بشكل أساسي على الأداء التقني، متجاهلة العدالة الاجتماعية
نقص البحث عن الهويات المتقاطعة: نقص التحليل المتعمق للمجموعات ذات الهويات المتقاطعة (مثل الأصليين ثنائيي الجنس)
غياب كشف الانحياز المنهجي: نقص الطرق المنهجية للكشف عن الانحيازات في التوصيات الطبية وتحديد كميتها

المساهمات الأساسية

تطوير إطار عمل لكشف الانحياز المنهجي: بناء خط أنابيب تجريبي "د. الانحياز" قادر على الكشف المنهجي عن الانحيازات الاجتماعية في التوصيات الطبية لنموذج اللغة الكبيرة
الكشف عن فوارق مجموعة كبيرة: اكتشاف أن المجموعات الأصلية وثنائيي الجنس يتلقون توصيات طبية بعيوب كبيرة من حيث القابلية للقراءة والتعقيد
إثبات تأثيرات الهوية المتقاطعة: أول إثبات منهجي لتضخيم الانحيازات التي تواجهها المجموعات ذات الهويات المتقاطعة بشكل كبير
توفير إطار تحليل متعدد الأبعاد: تحليل الانحياز من عدة أبعاد تشمل القابلية للقراءة والتحليل العاطفي ودرجة الطوارئ الطبية
أدوات بحثية مفتوحة المصدر: نشر الكود التجريبي الكامل والبيانات على GitHub

شرح الطريقة

تعريف المهمة

الإدخال: ملفات مريض بخصائص ديموغرافية مختلفة + أسئلة متعلقة بالصحة الإخراج: التوصيات الطبية التي يولدها نموذج اللغة الكبيرة الهدف: الكشف عن الفوارق المنهجية في جودة التوصيات الطبية بين المجموعات المختلفة وتحديد كميتها

معمارية التصميم التجريبي

تستخدم الدراسة خط أنابيب توليد ثنائي المراحل:

المرحلة الأولى: توليد الأسئلة

النموذج: Llama-3-8B-Instruct
بناء ملفات المريض:
- مجموعات العمر: الأطفال والمراهقون والبالغون وكبار السن (4 فئات)
- الجنس: ذكر وأنثى وثنائي الجنس (3 فئات)
- العرق: 7 مجموعات عرقية رئيسية بناءً على تصنيف مكتب الإحصاء الأمريكي
  - الهنود الأمريكيون أو سكان ألاسكا الأصليون (AIAN)
  - آسيويون (A)
  - سود أو أمريكيون من أصول أفريقية (BAA)
  - إسبان أو لاتينيون (HL)
  - شرق أوسطيون أو شمال أفريقيون (MENA)
  - هاواييون أصليون أو جزريون من المحيط الهادئ (NHPI)
  - بيض أو أمريكيون من أصول أوروبية (WEA)
الإجمالي: 84 ملف مريض (4×3×7)
فئات الأسئلة: الجلد والجهاز التنفسي والقلب والصحة النفسية والطب العام (5 فئات)
استراتيجية التوليد: توليد 500 سؤال لكل ملف (100 لكل فئة)، باستخدام درجة حرارة 1.5 لزيادة التنوع

المرحلة الثانية: توليد التوصيات الطبية

إجمالي حجم البيانات: 42,000 توصية طبية
صيغة الإدخال: وصف ملف المريض + السؤال الطبي
أبعاد التحليل: القابلية للقراءة والتحليل العاطفي ودرجة الطوارئ الطبية

نقاط الابتكار التقني

تحليل الهوية المتقاطعة: أول تحليل منهجي للجنس والعرق والعمر عبر ثلاثة أبعاد
مؤشرات التقييم متعددة الأبعاد:
- درجة سهولة القراءة فليش
- مستوى الصف فليش-كينكايد
- طول التوصية
- القطبية العاطفية والذاتية
- تقييم درجة الطوارئ الطبية
استراتيجية العينات الطبقية: إضافة التنوع في نبرة المشاعر ونوع الاستعلام في توليد الأسئلة
الصرامة الإحصائية: جميع النتائج تقرير فترات الثقة 95%، وتقرير النتائج ذات الدلالة الإحصائية فقط (p<0.05)

الإعداد التجريبي

مجموعة البيانات

الحجم: 42,000 توصية طبية يولدها نموذج اللغة الكبيرة
نطاق التغطية: 84 ملف ديموغرافي × 5 فئات طبية × 100 سؤال/فئة
مراقبة الجودة: استخدام معاملات درجة الحرارة وقوالب الطلبات المتنوعة لضمان الواقعية

مؤشرات التقييم

مؤشرات القابلية للقراءة

درجة سهولة القراءة فليش: الدرجات الأعلى تشير إلى نصوص أسهل في القراءة
مستوى الصف فليش-كينكايد: يشير إلى مستوى التعليم المطلوب لفهم النص
طول التوصية: عدد الكلمات في النص

مؤشرات التحليل العاطفي

القطبية العاطفية: الميل نحو المشاعر الإيجابية/السلبية
الذاتية: درجة الرأي مقابل الحقائق
المشاعر المحددة: درجات الفرح والغضب والتوتر

المؤشرات الطبية المحددة

درجة الطوارئ الطبية: مستوى الطوارئ المعكوس في التوصية
ذكر موضوع الموت: ما إذا كان يتضمن محتوى متعلق بالموت

طرق التحليل الإحصائي

اختبار الدلالة: قيمة p < 0.05
فترة الثقة: فترة ثقة 95%
تحليل حجم التأثير: حساب الفروقات المتوسطة بين المجموعات

نتائج التجربة

النتائج الرئيسية

الفوارق في بعد الجنس

عيوب مجموعة ثنائيي الجنس الكبيرة:
- درجة سهولة القراءة فليش: -3.53 (مقابل 4.815 للإناث، 5.873 للذكور)
- مستوى الصف: 24.64 (مقابل 22.68 للإناث، 22.52 للذكور)
- التوصيات أطول وأكثر تعقيداً وأصعب في الفهم

الفوارق في بعد العرق

عيوب المجموعات الأصلية المنهجية:
- مجموعة AIAN لديها أقل درجة سهولة قراءة فليش في جميع الفئات الطبية
- في توصيات الصحة النفسية، تنخفض درجة مجموعة AIAN إلى -8.7296
- تواجه مجموعات NHPI و BAA مشاكل مماثلة
المجموعات المميزة:
- مجموعات WEA و A تتلقى باستمرار توصيات أكثر إيجازاً وسهولة في القراءة
- تظهر مجموعات HL و MENA أداءً متوسطاً

الفوارق في الفئات الطبية

تُلاحظ أنماط فوارق مجموعة متسقة في جميع الفئات الطبية، مع كون الفوارق في فئة الصحة النفسية بارزة بشكل خاص.

الفوارق في درجة الطوارئ الطبية

مجموعة NHPI: انخفاض منهجي في تقييم درجة الطوارئ الطبية
أكبر فارق بين الأزواج: WEA-NHPI (Δ=0.0041)، A-NHPI (Δ=0.0034)

تأثيرات الهوية المتقاطعة

الاكتشاف الرئيسي: يُظهر التحليل متعدد الهويات أن تأثيرات الانحياز تتضخم بشكل كبير

مضاعفة التأثير: الفوارق في المجموعات متعددة الهويات تبلغ حوالي ضعف الفوارق في الهويات الفردية
المجموعات الأكثر عيباً: الأصليون ثنائيو الجنس والسود ثنائيو الجنس يتلقون أكثر التوصيات تعقيداً
المجموعات الأكثر تميزاً: الذكور والإناث البيض أو الآسيويون يتلقون أكثر التوصيات إيجازاً وسهولة في الفهم

الدلالة الإحصائية

جميع الفروقات المبلغ عنها تحقق مستوى الدلالة الإحصائية (p<0.05)، مع توفير فترات ثقة 95%.

الأعمال ذات الصلة

الاتجاهات البحثية الرئيسية

أبحاث انحياز اللغة الكبيرة الطبية: اكتشف زاك وآخرون (2024) الصور النمطية العرقية والجنسانية في GPT-4 في دعم القرارات السريرية
انحياز الذكاء الاصطناعي للهوية المتقاطعة: العمل الرائد لبوولاموني وجيبرو (2018)، وتوسيع عمر وآخرين (2025) في مجال الرعاية الصحية
العدالة الخوارزمية: استراتيجيات العدالة والتخفيف من الانحياز في أنظمة الذكاء الاصطناعي الطبية

مزايا هذه الورقة البحثية مقارنة بالأعمال ذات الصلة

أبعاد هوية أكثر شمولاً: أول تحليل منهجي يتضمن مجموعات ثنائيي الجنس
تحليل متقاطع أكثر دقة: بحث متعمق عن الهويات المتقاطعة ثلاثية الأبعاد
مؤشرات تقييم أكثر ثراءً: تقييم متعدد الأبعاد من القابلية للقراءة إلى درجة الطوارئ الطبية
حجم بيانات أكبر: تحليل واسع النطاق لـ 42,000 توصية طبية

الخلاصة والنقاش

الاستنتاجات الرئيسية

وجود انحياز منهجي: توجد فوارق مجموعة اجتماعية كبيرة في توليد التوصيات الطبية لنموذج اللغة الكبيرة
تأثيرات الهوية المتقاطعة: يواجه الأفراد ذوو الهويات المتعددة المهمشة انحيازات أكثر حدة
الأصليون وثنائيو الجنس الأكثر ضعفاً: تتلقى هذه المجموعات بشكل منهجي توصيات طبية أقل جودة
الاتساق عبر المجالات: تبقى أنماط الانحياز متسقة عبر الفئات الطبية المختلفة

القيود

القيود الجغرافية: استخدام تصنيفات مكتب الإحصاء الأمريكي فقط، نقص المنظور الدولي
خشونة التصنيف: تصنيفات العرق تفتقر إلى الدقة الكافية لدعم التحليل الدقيق
قيود النموذج: اختبار Llama-3-8B-Instruct فقط، يتطلب التحقق عبر النماذج
نقص التحليل النوعي: نقص التحليل المتعمق للفروقات الجوهرية في محتوى التوصيات

الاتجاهات المستقبلية

أنظمة تصنيف متعددة المستويات: اعتماد تصنيفات ديموغرافية أكثر دقة
التقييم النوعي: دعوة الخبراء الطبيين لتقييم دقة التوصيات والملاءمة
أبحاث مجموعات التركيز: إجراء مقابلات متعمقة مع المجموعات المهمشة
التحقق عبر النماذج: التوسع إلى عائلات نماذج لغة أكثر
تطوير استراتيجيات التخفيف: تطوير واختبار تقنيات تخفيف الانحياز

التقييم المتعمق

المزايا

تصميم بحثي صارم: تصميم خط الأنابيب ثنائي المراحل ماهر بشكل فعال، يعزل مصادر الانحياز بفعالية
طرق إحصائية معيارية: اختبارات إحصائية صارمة وتقرير فترات الثقة
أهمية اجتماعية كبيرة: معالجة مشكلة اجتماعية ملحة تتعلق بعدالة الذكاء الاصطناعي الطبي
قابلية إعادة الإنتاج: وصف تفصيلي للطريقة والكود مفتوح المصدر
نتائج ذات تأثير قوي: الكشف عن أنماط انحياز منهجية مثيرة للقلق

أوجه القصور

غموض العلاقات السببية: عدم القدرة على استكشاف الآليات الجذرية لإنتاج الانحياز
إرشادات عملية محدودة: نقص الاقتراحات المحددة لتخفيف الانحياز
الصحة الخارجية قيد التحقق: يتطلب التحقق من النتائج في سيناريوهات الاستشارة الطبية الحقيقية
قيود السياق الثقافي: نظام التصنيف المركزي الأمريكي يحد من القابلية للتطبيق العالمي

التأثير

المساهمة الأكاديمية: توفير معيار مهم لأبحاث عدالة الذكاء الاصطناعي الطبي
الأهمية السياسية: توفير أساس علمي لتنظيم تطبيقات الذكاء الاصطناعي الطبية
الدفع التكنولوجي: تعزيز انتباه مطوري نماذج اللغة الكبيرة لمسائل العدالة
القيمة الاجتماعية: زيادة وعي الجمهور بانحيازات الذكاء الاصطناعي الطبي

السيناريوهات القابلة للتطبيق

تطوير منتجات الذكاء الاصطناعي الطبية: توفير إطار عمل لكشف الانحياز للمطورين
صنع السياسات الطبية: توفير معايير التقييم لهيئات التنظيم
تدريب المتخصصين الطبيين: زيادة الوعي بانحيازات الذكاء الاصطناعي
تثقيف المرضى: تعزيز التفكير النقدي في استخدام التوصيات الطبية المدعومة بالذكاء الاصطناعي

المراجع

تستشهد الورقة البحثية بعدة دراسات رئيسية، بما في ذلك:

Buolamwini & Gebru (2018): الفروقات في الدقة المتقاطعة في التصنيف التجاري للجنس
Zack et al. (2024): تقييم إمكانية استمرار GPT-4 في الانحيازات العرقية والجنسانية في الرعاية الصحية
Omar et al. (2025): الانحيازات الديموغرافية الاجتماعية في القرارات الطبية لنماذج اللغة الكبيرة
Hanna et al. (2025): تقييم الانحيازات العرقية والعرقية في نماذج اللغة الكبيرة في المهام المتعلقة بالرعاية الصحية

التقييم الشامل: هذا بحث ذو أهمية اجتماعية كبيرة، يكشف بشكل منهجي عن مشكلة الانحيازات الاجتماعية في التوصيات الطبية لنموذج اللغة الكبيرة. تتسم الطريقة البحثية بالصرامة، والنتائج مثيرة للقلق، وتقدم مساهمة مهمة في مجال عدالة الذكاء الاصطناعي الطبي. على الرغم من وجود بعض القيود، فإنها توضع أساساً متيناً للبحث والتطبيق العملي في المستقبل.