2025-11-24T04:07:17.991345

Personalized Federated Fine-Tuning of Vision Foundation Models for Healthcare

Tupper, GagnÃ©

Foundation models open up new possibilities for the use of AI in healthcare. However, even when pre-trained on health data, they still need to be fine-tuned for specific downstream tasks. Furthermore, although foundation models reduce the amount of training data required to achieve good performance, obtaining sufficient data is still a challenge. This is due, in part, to restrictions on sharing and aggregating data from different sources to protect patients' privacy. One possible solution to this is to fine-tune foundation models via federated learning across multiple participating clients (i.e., hospitals, clinics, etc.). In this work, we propose a new personalized federated fine-tuning method that learns orthogonal LoRA adapters to disentangle general and client-specific knowledge, enabling each client to fully exploit both their own data and the data of others. Our preliminary results on real-world federated medical imaging tasks demonstrate that our approach is competitive against current federated fine-tuning methods.

academic

الضبط الدقيق الموحد الشخصي لنماذج أساس الرؤية في الرعاية الصحية

المعلومات الأساسية

معرّف الورقة: 2510.12741
العنوان: الضبط الدقيق الموحد الشخصي لنماذج أساس الرؤية في الرعاية الصحية
المؤلفون: آدم توبر، كريستيان جاني (جامعة لافال، معهد كيبيك للذكاء الاصطناعي - Mila)
التصنيف: cs.CV, cs.DC
المؤتمر: SMASH 2025
رابط الورقة: https://arxiv.org/abs/2510.12741

الملخص

تفتح النماذج الأساسية آفاقاً جديدة لتطبيقات الذكاء الاصطناعي في الرعاية الصحية، لكنها تتطلب ضبطاً دقيقاً لمهام معينة حتى بعد التدريب المسبق على بيانات صحية. يظل تبادل وتجميع البيانات من مصادر مختلفة تحدياً بسبب قيود حماية خصوصية المرضى. تقترح هذه الورقة طريقة جديدة للضبط الدقيق الموحد الشخصي تسمى FedOPAL، من خلال تعلم محولات LoRA متعامدة لفصل المعرفة العامة والمعرفة الخاصة بالعميل، مما يمكّن كل عميل من الاستفادة الكاملة من بيانات الآخرين. تشير النتائج الأولية على مهام التصوير الطبي الموحدة الحقيقية إلى أن الطريقة تتمتع بقدرة تنافسية مع طرق الضبط الدقيق الموحد الحالية.

الخلفية البحثية والدافع

المشاكل الأساسية

قيود خصوصية البيانات: لا يمكن تجميع البيانات الطبية بشكل مركزي للتدريب بسبب اللوائح الصارمة
ندرة البيانات: مجموعات البيانات المشروحة في التصوير الطبي نادرة وتكاليف الحصول عليها مرتفعة
عدم تجانس البيانات: توجد اختلافات كبيرة في توزيع البيانات بين المؤسسات الطبية المختلفة
تكاليف الاتصال: يواجه التعلم الموحد للنماذج الأساسية الكبيرة تكاليف اتصال ضخمة

الدافع البحثي

على الرغم من أن التعلم الموحد يحل قيود مشاركة البيانات، إلا أنه يقدم تحديات جديدة في الضبط الدقيق للنماذج الأساسية
لم تتعامل الطرق الموجودة بفعالية مع مشكلة عدم تجانس البيانات بين العملاء
هناك حاجة إلى طريقة ضبط دقيق موحد تستطيع الاستفادة من المعرفة العالمية مع الحفاظ على التخصيص

المساهمات الأساسية

اقتراح طريقة FedOPAL: إطار عمل جديد للضبط الدقيق الموحد الشخصي باستخدام محولات LoRA متعامدة لفصل المعرفة العامة والخاصة
آلية القيد المتعامد المزدوج: تصميم طريقتين - التعامد على الأوزان (FedOPAL-W) والتعامد على التمثيلات (FedOPAL-R)
التحقق من البيانات الطبية الحقيقية: التحقق من فعالية الطريقة على مجموعتي بيانات التصوير الطبي الصعبة Fed-ISIC 2019 و Camelyon17-WILDS
تحليل مقارن منهجي: مقارنة شاملة مع عدة طرق حديثة قائمة على LoRA للتعلم الموحد

شرح الطريقة

تعريف المهمة

في مهام تصنيف التصوير الطبي الموحد، تتعاون عدة مؤسسات طبية (عملاء) على تدريب نموذج أساس رؤية مشترك، مع حماية خصوصية بيانات كل منها والتعامل مع عدم تجانس التوزيع.

معمارية النموذج

تصميم المحول المزدوج

تعتمد FedOPAL على معمارية محول LoRA مزدوج:

المحول العالمي: يتم تحديثه بالتعاون من قبل جميع العملاء، ويتعلم الميزات العامة
المحول الشخصي: خاص بكل عميل، ويتعلم ميزات خاصة بالعميل

بالنسبة لمصفوفة الأوزان المدربة مسبقاً $W_0 \in \mathbb{R}^{d \times k}$ ، صيغة التحديث هي: $\Delta W = W_0 + B_{global}A_{global} + B_{personal}A_{personal}$

آلية القيد المتعامد

1. التعامد على الأوزان (FedOPAL-W) بناءً على طريقة O-LoRA، يتم فرض قيود متعامدة على أوزان المحول: $\ell_{orth} = \frac{1}{N} \sum_{i=1}^{N} |(A_i_{global})^T A_i_{personal}|$

2. التعامد على التمثيلات (FedOPAL-R) يقيد التمثيلات المتعلمة مباشرة، مما يقلل التشابه الكوسيني: $\ell_{orth} = \frac{1}{NB} \sum_{i=1}^{N} \sum_{j=1}^{B} |\cos(z_{global}^{i,j}, z_{personal}^{i,j})|$

دالة الخسارة الكلية: $\ell_{total} = \ell_{task} + \lambda \ell_{orth}$

نقاط الابتكار التقني

آلية فصل المعرفة: فرض قيود متعامدة لإجبار المحولات على تعلم فضاءات ميزات مختلفة
التعامد المزدوج الطبقات: توفير استراتيجيات تعامد على مستوى الأوزان والتمثيلات
التخصيص الموحد: تحقيق تخصيص العميل مع الحفاظ على التعاون العالمي

إعداد التجارب

مجموعات البيانات

1. Fed-ISIC 2019

الحجم: 6 عملاء من مؤسسات طبية في أستراليا والنمسا والولايات المتحدة وإسبانيا
المهمة: تصنيف الآفات الجلدية (9 فئات تشخيصية)
الخصائص: تحول ملحوظ في التسميات وعدم تساوي حجم العينات

2. Camelyon17-WILDS

الحجم: 5 عملاء (مستشفيات)، كل عميل لديه 7-10 مرضى
المهمة: تصنيف مستوى الرقعة لانتقالات سرطان الثدي في شرائح العقد اللمفاوية
الخصائص: تغييرات اللون الناجمة عن اختلافات الصبغ

مؤشرات التقييم

استخدام الدقة المتوازنة (balanced accuracy) للتعامل مع عدم توازن الفئات

طرق المقارنة

FedIT: تدريب مصفوفات A و B للمحول العالمي الواحد
FFA-LoRA: تثبيت مصفوفة A، تدريب مصفوفة B فقط
FedSA: مشاركة مصفوفة A فقط، تخصيص مصفوفة B
FedDPA: تدريب محولات عالمية وشخصية مستقلة
FedPAL: طريقة أساسية بدون قيود متعامدة

تفاصيل التنفيذ

النموذج: ViT-Tiny (9.7 مليون معامل)، مدرب مسبقاً على ImageNet-21K
المحسّن: SGD، معدل التعلم η ∈ {1e-4, 5e-4, 1e-3, 5e-3, 1e-2}
الإعداد الموحد: FedAvg، مشاركة 100% من العملاء، تدريب محلي واحد لكل جولة

نتائج التجارب

النتائج الرئيسية

نتائج مهمة Fed-ISIC 2019:

حققت FedOPAL-R أفضل ترتيب متوسط (3.17) بدقة متوسطة 0.726
أظهرت طريقة FedPAL الأساسية أداء جيداً (ترتيب متوسط 3.50، دقة 0.726)
على العميل 2، حققت FedPAL أعلى دقة 0.931

نتائج مهمة Camelyon17-WILDS:

أظهرت FedDPA أفضل أداء (ترتيب متوسط 2.40، دقة 0.909)
حققت FedOPAL-R ثاني أفضل دقة متوسطة 0.870
اقتربت جميع الطرق الموحدة من أداء التدريب المركزي (0.905)

النتائج الرئيسية

القدرة التنافسية للطريقة: تتمتع طريقة FedOPAL بقدرة تنافسية مع الطرق المتقدمة الحالية
مشكلة عدم الاتساق: لا توجد طريقة واحدة تتفوق باستمرار على جميع العملاء والمهام
تأثير التعامد: عادة ما يكون التعامد على التمثيلات (FedOPAL-R) أفضل من التعامد على الأوزان (FedOPAL-W)
مجال للتحسين: تشير النتائج إلى وجود مجال لمزيد من التحسينات

الأعمال ذات الصلة

دمج التعلم الموحد و LoRA

الكفاءة البارامترية: يقلل LoRA من تكاليف الاتصال والحسابات
طرق التخصيص: يخفف التخصيص الجزئي للنموذج من مشكلة عدم تجانس البيانات
التطورات الحديثة: استكشفت طرق مثل FedDPA و FedSA استراتيجيات تخصيص مختلفة

طرق التعلم المتعامد

O-LoRA: استخدام قيود متعامدة في التعلم المستمر لمنع النسيان الكارثي
تعلم الفضاء الجزئي: فرض تعلم فضاءات ميزات مختلفة

الاستنتاجات والمناقشة

الاستنتاجات الرئيسية

حققت FedOPAL بنجاح فصل المعرفة العامة والخاصة من خلال محولات LoRA المتعامدة
أظهرت الطريقة قدرة تنافسية مع الطرق الموجودة على مجموعات البيانات الطبية الحقيقية
التعامد على مستوى التمثيل أكثر فعالية من التعامد على مستوى الأوزان

القيود

عدم اتساق الأداء: أداء الطريقة غير متسقة عبر العملاء والمهام المختلفة
النتائج الأولية: النتائج الحالية لا تزال أولية وتتطلب تحليلاً أعمق
حساسية المعاملات الفائقة: قد يؤثر اختيار معامل λ على أداء الطريقة
التكاليف الحسابية: يزيد تصميم المحول المزدوج من التعقيد الحسابي

الاتجاهات المستقبلية

تحسين رتبة المحول: استكشاف الإعدادات المثلى لرتبة المحولات العالمية والمحلية
تحسين فصل المعرفة: تحسين طريقة فصل المعرفة غير المرتبطة بالعميل والخاصة
توسيع التقييم: إجراء التقييم على نماذج أكبر ومهام أكثر
التحليل النظري: توفير ضمانات نظرية وتحليل التقارب للطريقة

التقييم المتعمق

المميزات

ابتكار قوي: أول من يدخل القيود المتعامدة في الضبط الدقيق الموحد LoRA، فكرة جديدة
قيمة عملية عالية: يعالج مباشرة الاحتياجات والتحديات الفعلية لذكاء الاصطناعي الطبي
طريقة شاملة: توفير استراتيجيتين مختلفتين للتعامد على مستويات مختلفة
تقييم كافٍ: تقييم منهجي على مجموعات بيانات طبية حقيقية

أوجه القصور

أساس نظري ضعيف: نقص التحليل النظري لفعالية القيود المتعامدة
عمق التجارب غير كافٍ: نقص الدراسات الاستئصالية التفصيلية وتحليل حساسية المعاملات
تحسن الأداء محدود: التحسن مقارنة بالطرق الموجودة محدود نسبياً
نطاق التقييم محدود: التقييم على مجموعتي بيانات فقط

التأثير

المساهمة الأكاديمية: توفير أفكار جديدة لمجال التقاطع بين التعلم الموحد وذكاء الاصطناعي الطبي
الآفاق العملية: من المحتمل أن تُطبق في سيناريوهات التعلم الموحد الطبي الفعلية
قابلية التوسع: يمكن توسيع إطار العمل للمجالات والمهام الأخرى

السيناريوهات المناسبة

التعاون الطبي بين المؤسسات: مناسبة لسيناريوهات التعلم الموحد بين المستشفيات
المهام الحساسة للخصوصية: مناسبة للتطبيقات التي تتطلب حماية صارمة لخصوصية البيانات
بيئات عدم تجانس البيانات: مناسبة بشكل خاص عندما يكون الفرق في توزيع البيانات بين العملاء كبيراً

المراجع

تستند هذه الورقة بشكل أساسي إلى الأعمال المهمة في مجالات التعلم الموحد (McMahan et al., 2017)، ومحولات LoRA (Hu et al., 2022)، والتعلم المتعامد (Wang et al., 2023)، وتوفر حلاً جديداً لمشكلة الضبط الدقيق الموحد في ذكاء الاصطناعي الطبي.

الملخص: هذه ورقة مبتكرة تعالج تحديات التعلم الموحد في ذكاء الاصطناعي الطبي، من خلال فصل المعرفة باستخدام محولات LoRA المتعامدة، مما يحسن التأثير الشخصي مع حماية الخصوصية. على الرغم من أن النتائج الحالية لا تزال أولية، فإنها توفر أفكاراً وإطار عمل قيماً جديداً لهذا المجال.