2025-11-16T14:58:12.273411

Inclusive, Differentially Private Federated Learning for Clinical Data

Parampottupadam, Coşğun, Pati et al.
Federated Learning (FL) offers a promising approach for training clinical AI models without centralizing sensitive patient data. However, its real-world adoption is hindered by challenges related to privacy, resource constraints, and compliance. Existing Differential Privacy (DP) approaches often apply uniform noise, which disproportionately degrades model performance, even among well-compliant institutions. In this work, we propose a novel compliance-aware FL framework that enhances DP by adaptively adjusting noise based on quantifiable client compliance scores. Additionally, we introduce a compliance scoring tool based on key healthcare and security standards to promote secure, inclusive, and equitable participation across diverse clinical settings. Extensive experiments on public datasets demonstrate that integrating under-resourced, less compliant clinics with highly regulated institutions yields accuracy improvements of up to 15% over traditional FL. This work advances FL by balancing privacy, compliance, and performance, making it a viable solution for real-world clinical workflows in global healthcare.
academic

التعلم الفيدرالي الشامل والخاص تفاضليًا للبيانات السريرية

المعلومات الأساسية

  • معرّف الورقة: 2505.22108
  • العنوان: التعلم الفيدرالي الشامل والخاص تفاضليًا للبيانات السريرية
  • المؤلفون: Santhosh Parampottupadam, Melih Coşğun, Sarthak Pati, Maximilian Zenk, Saikat Roy, Dimitrios Bounias, Benjamin Hamm, Sinem Sav, Ralf Floca, Klaus Maier-Hein
  • التصنيف: cs.LG cs.AI cs.CR cs.DC
  • تاريخ النشر: ورقة arXiv المسبقة، 11 أكتوبر 2025
  • رابط الورقة: https://arxiv.org/abs/2505.22108v3

الملخص

يوفر التعلم الفيدرالي (FL) طريقة واعدة لتدريب نماذج الذكاء الاصطناعي السريرية دون الحاجة إلى تجميع بيانات المرضى الحساسة بشكل مركزي. ومع ذلك، يتم عرقلة تطبيقاته في العالم الحقيقي بسبب تحديات الخصوصية والقيود المتعلقة بالموارد والامتثال. عادةً ما تطبق الطرق الحالية للخصوصية التفاضلية (DP) ضوضاء موحدة، مما يقلل من أداء النموذج بشكل غير متناسب، حتى في المؤسسات ذات الامتثال الجيد. تقترح هذه الورقة إطار عمل فيدرالي جديد يراعي الامتثال، يعزز DP من خلال تعديل الضوضاء بشكل تكيفي بناءً على درجات امتثال العميل القابلة للقياس. بالإضافة إلى ذلك، يتم تقديم أداة تسجيل الامتثال بناءً على معايير الرعاية الصحية والسلامة الحرجة، لتعزيز المشاركة الآمنة والشاملة والعادلة في بيئات سريرية مختلفة. تُظهر التجارب الشاملة على مجموعات البيانات العامة أن دمج العيادات ذات الموارد المحدودة والامتثال المنخفض مع المؤسسات المنظمة بشدة يمكن أن ينتج عنه تحسن في الدقة يصل إلى 15% مقارنة بـ FL التقليدي.

خلفية البحث والدافع

تعريف المشكلة

تتمحور المشاكل الأساسية التي يسعى هذا البحث إلى حلها حول ثلاثة تحديات رئيسية في تطبيق التعلم الفيدرالي في المجال الطبي:

  1. حماية الخصوصية غير الكافية: يتعرض FL التقليدي لهجمات إعادة البناء، وقد تسرب تحديثات النموذج معلومات حساسة
  2. الاستبعاد بسبب قيود الموارد: يتطلب تنفيذ الخصوصية التفاضلية أجهزة متخصصة، مما يمنع المؤسسات الطبية الصغيرة ذات الموارد المحدودة من المشاركة
  3. تباين الامتثال: تطبق الطرق الحالية للـ DP ضوضاء موحدة على جميع العملاء، متجاهلة الاختلافات في الامتثال بين المؤسسات

أهمية البحث

يتطلب تطوير الذكاء الاصطناعي الطبي تعاونًا واسع النطاق في البيانات، لكن لوائح الخصوصية (مثل HIPAA و GDPR) والسياسات المؤسسية تحد من مشاركة البيانات. يوفر التعلم الفيدرالي حلاً، لكن الطرق الحالية تعاني من قيود كبيرة:

  • فقط 5.2% من أبحاث FL تتعلق بتطبيقات سريرية حقيقية
  • يتم تهميش المؤسسات الطبية ذات الموارد المحدودة
  • استراتيجيات الحماية من الخصوصية الموحدة غير فعالة

قيود الطرق الموجودة

  1. DP على جانب العميل: يتطلب أجهزة متخصصة، مما يزيد من عتبة المشاركة
  2. DP الموحد على جانب الخادم: يطبق نفس مستوى الضوضاء على جميع العملاء، مما يقلل الكفاءة
  3. افتراضات الثقة: يعتمد على الفيدرالية القائمة على الثقة، مما يستبعد المؤسسات الصغيرة

المساهمات الأساسية

  1. اقتراح إطار عمل فيدرالي يراعي الامتثال: يعدل ضوضاء DP بشكل تكيفي بناءً على درجات امتثال العميل، مما يوازن بين الخصوصية والامتثال والأداء
  2. تطوير أداة تسجيل الامتثال: أداة ويب بناءً على معايير الرعاية الصحية والسلامة، توفر درجات امتثال قابلة للقياس
  3. تنفيذ DP تكيفي على جانب الخادم: يمكّن العيادات ذات الموارد المحدودة من المشاركة، مع موازنة الخصوصية والأداء
  4. التحقق من التأثيرات الشاملة: تثبت التجارب أن دمج المؤسسات منخفضة الامتثال يمكن أن يحقق تحسنًا في الدقة بنسبة 1%-15%

شرح الطريقة

تعريف المهمة

المدخلات:

  • مجموعات بيانات طبية موزعة (البيانات المحلية لكل مؤسسة)
  • درجات امتثال العميل
  • معاملات ميزانية الخصوصية

المخرجات:

  • نموذج ذكاء اصطناعي عام (نتيجة التدريب التعاوني المحمي بالخصوصية)

القيود:

  • تحقيق ضمانات الخصوصية التفاضلية
  • التكيف مع مستويات امتثال مختلفة للمؤسسات
  • تقليل متطلبات الموارد

معمارية النموذج

1. آلية تسجيل الامتثال

صيغة حساب درجة الامتثال:

Sc = (Σ(wi × si)) / (Σwi)

حيث:

  • n: العدد الإجمالي لعوامل الامتثال
  • wi: وزن العامل i
  • si: درجة الخيار للعامل i

2. حساب الضوضاء التكيفية

صيغة مضاعف الضوضاء:

Nm = (1.0 - Sc) + Min_Noise_Multiplier

حيث:

  • Sc: درجة امتثال العميل
  • Min_Noise_Multiplier: مضاعف الضوضاء الأدنى (1e-10)

3. عملية التعلم الفيدرالي

الخوارزمية 1: التعلم الفيدرالي بالخصوصية التفاضلية والضوضاء التكيفية

1. تهيئة النموذج العام
2. للجولة الفيدرالية = 1 إلى 50:
   أ. تدريب العميل (3 حقب محلية)
   ب. إرسال التحديثات إلى المجمّع
   ج. تطبيق ضوضاء DP تكيفية بناءً على درجة الامتثال
   د. تدريب المجمّع (حقبة واحدة مع DP)
   هـ. التجميع العام (FedAvg/FedYogi/FedAdam وغيرها)
   و. بث النموذج العام المحدّث

نقاط الابتكار التقني

1. الخصوصية التفاضلية التي تراعي الامتثال

  • الابتكار: تعديل الضوضاء ديناميكيًا بناءً على مستوى امتثال العميل، وليس ضوضاء موحدة
  • المميزات: تتعرض المؤسسات ذات الامتثال العالي لخسارة أداء أقل، بينما تحصل المؤسسات منخفضة الامتثال على حماية الخصوصية

2. DP التكيفي على جانب الخادم

  • الابتكار: محاكاة تأثير DP على جانب العميل على جانب الخادم، مما يقلل متطلبات الأجهزة
  • المميزات: يمكن للمؤسسات ذات الموارد المحدودة المشاركة دون الحاجة إلى أجهزة متخصصة لـ DP

3. التقييم متعدد الأبعاد للامتثال

يتضمن 12 عامل امتثال:

  • معايير تشفير البيانات (AES-256/AES-128)
  • سياسات الذكاء الاصطناعي الأخلاقي (قانون الاتحاد الأوروبي للذكاء الاصطناعي، إرشادات FDA)
  • لوائح الخصوصية (HIPAA و GDPR)
  • جودة البيانات (معيار DICOM)
  • ممارسات إلغاء تحديد الهوية (ISO/TS 25237:2017)
  • معايير التشغيل البيني (HL7/FHIR)

إعداد التجارب

مجموعات البيانات

  • PneumoniaMNIST: مجموعة بيانات كشف الالتهاب الرئوي
  • BreastMNIST: مجموعة بيانات كشف سرطان الثدي
  • معالجة البيانات المسبقة: تغيير حجم الصور إلى 128×128، حجم الدفعة 32
  • توزيع البيانات: 16 مجموعة فرعية للعملاء، 1 لتدريب المجمّع، 1 للتقييم العام

مقاييس التقييم

  • الدقة (Accuracy)
  • الدقة (Precision)
  • الاستدعاء (Recall)
  • درجة F1

الطرق المقارنة

  • Vanilla FL: التعلم الفيدرالي التقليدي بدون DP وتسجيل الامتثال
  • DP موحد على جانب الخادم: تطبيق ضوضاء موحدة بعد التجميع
  • استراتيجيات تجميع مختلفة: FedAvg و FedProx و FedMedian و FedAdam و FedYogi

تفاصيل التنفيذ

  • الإطار: Lightning و Flower و ResNet-18
  • الأجهزة: وحدة معالجة الرسومات NVIDIA Tesla T4 (16GB)
  • معاملات التدريب: معدل التعلم 0.001، 50 جولة فيدرالية، 3 حقب محلية لكل جولة
  • تنفيذ DP: استخدام مكتبة Opacus، مستوى ضوضاء أدنى 1e-10

نتائج التجارب

النتائج الرئيسية

مقارنة تكوينات التجارب

التجربةالعملاء المتوافقونالعملاء غير المتوافقينتطبيق الامتثالتطبيق DP
Exp.1412نعمتكيفي
Exp.2106نعمتكيفي
Exp.3160نعمتكيفي
Exp.440لاأدنى
Exp.5160لالا
Exp.6160نعمموحد

الاكتشافات الرئيسية

  1. فوائد الشمول: التجربة 1 (4 متوافقة + 12 غير متوافقة) مقابل التجربة 4 (4 متوافقة فقط) تحقق تحسنًا في الدقة بنسبة 1%-15% في معظم الاستراتيجيات
  2. أفضل أداء:
    • PneumoniaMNIST: FedYogi يصل إلى 86.62% في التجربة 1
    • BreastMNIST: FedYogi يصل إلى 75.50% في التجربة 1
  3. حساسية الاستراتيجية: FedMedian حساس لتوزيع الامتثال، مع انخفاض كبير في الأداء عند نسبة عالية من العملاء منخفضي الامتثال

التجارب الاستئصالية

تجربة جودة البيانات

محاكاة سيناريوهات واقعية، تطبيق تدهور البيانات على 12 عميل:

  • عمليات التدهور: القص العشوائي، تغيير الحجم (80-100%)، الضوضاء الغاوسية (σ=0.05)، تقليل التباين إلى 80%
  • درجات الامتثال: العملاء المتدهورون 0.3، العملاء الموثوقون 1.0
  • النتائج: حتى مع جودة بيانات منخفضة، لا يزال يحسن أداء النموذج الكلية

مقارنة استراتيجيات التجميع

في تجربة جودة البيانات:

  • dp_FedAvg: 72.68%
  • dp_FedYogi: 71.62%
  • dp_FedAdam: 69.55%
  • dp_FedMedian: 66.23%
  • dp_FedProx: 64.04%

نتائج التجارب

  1. تأثير توزيع الامتثال: FedMedian يُظهر أداءً ضعيفًا عندما يشكل العملاء منخفضو الامتثال 75% (50.01%)، وقريب من أداء Vanilla FL عند 37%
  2. شمول الموارد: ينجح الإطار في تمكين المؤسسات ذات الموارد المحدودة من المشاركة دون الحاجة إلى أجهزة متخصصة
  3. موازنة الخصوصية والفائدة: آلية الضوضاء التكيفية توازن بشكل فعال بين حماية الخصوصية وأداء النموذج

الأعمال ذات الصلة

التعلم الفيدرالي في المجال الطبي

  • التحديات: عدم تجانس البيانات، لوائح الخصوصية، الثقة بين المؤسسات
  • الحالة الحالية: معظم الأبحاث تبقى نظرية، التطبيقات السريرية الفعلية محدودة
  • مساهمة هذه الورقة: توفير حل عملي يراعي الامتثال

طرق الخصوصية التفاضلية

  • الطرق التقليدية: تطبيق ضوضاء موحدة، تتجاهل الاختلافات بين العملاء
  • الابتكار في هذه الورقة: تعديل الضوضاء التكيفي بناءً على درجات الامتثال

التعاون في مجال الذكاء الاصطناعي الطبي

  • حالات النجاح: أبحاث الورم الأرومي النخاعي (71 موقع، 6314 حالة) حققت تحسنًا بنسبة 33%
  • الدروس المستفادة: إدراج المؤسسات منخفضة الامتثال يمكن أن يوفر بيانات الأمراض النادرة، مما يحسن قدرة النموذج على التعميم

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. فعالية DP التي تراعي الامتثال: تحقق تحسنًا كبيرًا في الأداء مقارنة بالطرق التقليدية
  2. الفوائد المستمدة من الشمول: دمج المؤسسات منخفضة الامتثال يحسن جودة النموذج الكلية
  3. الملاءمة للموارد: تقليل عتبة المشاركة، تعزيز التعاون الأوسع في مجال الذكاء الاصطناعي الطبي

القيود

  1. افتراض الثقة الأولية: تحديثات العميل في الجولة الأولى تفتقر إلى حماية DP
  2. صدق درجة الامتثال: يفترض أن العملاء يقدمون معلومات امتثال دقيقة
  3. التحقق في بيئة محكومة: تتم التجارب في بيئة محكومة، تحتاج إلى التحقق في بيئات سريرية حقيقية

الاتجاهات المستقبلية

  1. التحقق الديناميكي من الامتثال: آليات التحقق من الامتثال في الوقت الفعلي
  2. الحوسبة الآمنة متعددة الأطراف: دمج SMPC لتعزيز الأمان
  3. النشر السريري الحقيقي: التوسع إلى بيئات طبية فعلية ومجموعات بيانات متنوعة
  4. الدفاع ضد هجمات الاستدلال: مواجهة هجمات الاستدلال من العملاء غير الموثوقين

التقييم المتعمق

المميزات

  1. ابتكار قوي: أول من يقترح آلية DP تكيفية تراعي الامتثال
  2. قيمة عملية عالية: يحل العقبات الرئيسية في نشر FL الطبي الحقيقي
  3. تجارب شاملة: 61 تكوين تجريبي، استراتيجيات تجميع متعددة ومجموعات بيانات
  4. أداة موحدة: توفير أداة تسجيل امتثال قابلة للتخصيص
  5. تصميم شامل: يمكّن المؤسسات ذات الموارد المحدودة من المشاركة في تعاون ذكاء اصطناعي عالي الجودة

أوجه القصور

  1. قيود مجموعات البيانات: التحقق فقط على مجموعتي بيانات طبية عامة
  2. الذاتية في تقييم الامتثال: درجات الامتثال تعتمد على التقييم اليدوي، قد تحتوي على انحيازات
  3. افتراضات الأمان: تفترضات معينة حول صدق العميل وموثوقية الخادم
  4. قابلية التوسع غير المعروفة: يحتاج التحقق من الأداء في النشر الحقيقي واسع النطاق

التأثير

  1. المساهمة الأكاديمية: توفير نموذج حماية خصوصية جديد لـ FL الطبي
  2. القيمة العملية: من المتوقع أن تعزز النشر الفعلي للتعاون في مجال الذكاء الاصطناعي الطبي العالمي
  3. الأهمية السياسية: توفير دعم تقني لحوكمة بيانات الرعاية الصحية
  4. قابلية التكرار: التنفيذ مفتوح المصدر والإعدادات التجريبية التفصيلية تدعم التكرار

السيناريوهات المناسبة

  1. البحث الطبي متعدد المؤسسات: مناسب بشكل خاص لأبحاث الأمراض النادرة
  2. البيئات ذات الاختلافات في الموارد: التعاون بين المؤسسات الطبية في المناطق المتقدمة والنامية
  3. الأبحاث عبر الوطنية ذات متطلبات تنظيمية مختلفة: التكيف مع لوائح الخصوصية في دول مختلفة
  4. التجارب السريرية: تحقيق التعاون في البيانات مع حماية خصوصية المريض

المراجع

تستشهد الورقة بـ 34 عملاً ذا صلة، تغطي:

  • نظرية أساسيات التعلم الفيدرالي 22
  • تطبيقات الخصوصية التفاضلية في الطب 2,10,18
  • ممارسات التعاون في مجال الذكاء الاصطناعي الطبي 25,29,30
  • هجمات الخصوصية والحماية 8,32
  • أطر العمل التقنية ذات الصلة 4,11,34

التقييم الشامل: هذه ورقة ذات قيمة عملية مهمة في مجال التعلم الفيدرالي الطبي. من خلال آلية الخصوصية التفاضلية التكيفية التي تراعي الامتثال، تحل بشكل فعال أوجه القصور في الطرق الموجودة من حيث الشمول والفائدة. على الرغم من وجود مجال للتحسين في التحقق في البيئات الحقيقية والافتراضات الأمنية، فإنها توفر مسارًا تقنيًا واعدًا لتعزيز التعاون العالمي في مجال الذكاء الاصطناعي الطبي.