2025-11-16T14:58:12.273411

Inclusive, Differentially Private Federated Learning for Clinical Data

Parampottupadam, Coşğun, Pati et al.
Federated Learning (FL) offers a promising approach for training clinical AI models without centralizing sensitive patient data. However, its real-world adoption is hindered by challenges related to privacy, resource constraints, and compliance. Existing Differential Privacy (DP) approaches often apply uniform noise, which disproportionately degrades model performance, even among well-compliant institutions. In this work, we propose a novel compliance-aware FL framework that enhances DP by adaptively adjusting noise based on quantifiable client compliance scores. Additionally, we introduce a compliance scoring tool based on key healthcare and security standards to promote secure, inclusive, and equitable participation across diverse clinical settings. Extensive experiments on public datasets demonstrate that integrating under-resourced, less compliant clinics with highly regulated institutions yields accuracy improvements of up to 15% over traditional FL. This work advances FL by balancing privacy, compliance, and performance, making it a viable solution for real-world clinical workflows in global healthcare.
academic

समावेशी, विभेदक रूप से निजी संघीय शिक्षा नैदानिक डेटा के लिए

बुनियादी जानकारी

  • पेपर ID: 2505.22108
  • शीर्षक: Inclusive, Differentially Private Federated Learning for Clinical Data
  • लेखक: Santhosh Parampottupadam, Melih Coşğun, Sarthak Pati, Maximilian Zenk, Saikat Roy, Dimitrios Bounias, Benjamin Hamm, Sinem Sav, Ralf Floca, Klaus Maier-Hein
  • वर्गीकरण: cs.LG cs.AI cs.CR cs.DC
  • प्रकाशन समय: arXiv प्रीप्रिंट 11 अक्टूबर 2025
  • पेपर लिंक: https://arxiv.org/abs/2505.22108v3

सारांश

संघीय शिक्षा (FL) नैदानिक AI मॉडल प्रशिक्षण के लिए एक आशाजनक विधि प्रदान करती है, बिना संवेदनशील रोगी डेटा को केंद्रीकृत किए। हालांकि, इसके वास्तविक दुनिया के अनुप्रयोग गोपनीयता, संसाधन बाधाओं और अनुपालन चुनौतियों से बाधित हैं। मौजूदा विभेदक गोपनीयता (DP) विधियां आमतौर पर एकीकृत शोर लागू करती हैं, जो मॉडल प्रदर्शन को असमान रूप से कम करता है, यहां तक कि अच्छी तरह से अनुपालन करने वाली संस्थाओं में भी। यह पेपर एक नई अनुपालन-जागरूक FL फ्रेमवर्क प्रस्तावित करता है जो मात्रात्मक ग्राहक अनुपालन स्कोर के आधार पर शोर को अनुकूलित रूप से समायोजित करके DP को बढ़ाता है। इसके अलावा, महत्वपूर्ण स्वास्थ्यसेवा और सुरक्षा मानकों के आधार पर अनुपालन स्कोरिंग उपकरण पेश किए गए हैं, जो विभिन्न नैदानिक वातावरणों में सुरक्षित, समावेशी और निष्पक्ष भागीदारी को बढ़ावा देते हैं। सार्वजनिक डेटासेट पर व्यापक प्रयोग दर्शाते हैं कि संसाधन-अपर्याप्त, कम-अनुपालन क्लीनिकों को अत्यधिक विनियमित संस्थाओं के साथ एकीकृत करने से पारंपरिक FL की तुलना में 15% तक सटीकता में सुधार हो सकता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

यह अनुसंधान चिकित्सा क्षेत्र में संघीय शिक्षा के अनुप्रयोग में तीन प्रमुख चुनौतियों को संबोधित करता है:

  1. अपर्याप्त गोपनीयता सुरक्षा: पारंपरिक FL पुनर्निर्माण हमलों के लिए असुरक्षित है, मॉडल अपडेट संवेदनशील जानकारी लीक कर सकते हैं
  2. संसाधन बाधा बहिष्कार: विभेदक गोपनीयता कार्यान्वयन को विशेष हार्डवेयर की आवश्यकता होती है, जिससे संसाधन-सीमित छोटी चिकित्सा संस्थाएं भाग नहीं ले सकती हैं
  3. अनुपालन विविधता: मौजूदा DP विधियां सभी ग्राहकों पर एकीकृत शोर लागू करती हैं, संस्थाओं के बीच अनुपालन अंतर को नजरअंदाज करती हैं

अनुसंधान का महत्व

चिकित्सा AI के विकास के लिए बड़े पैमाने पर डेटा सहयोग की आवश्यकता है, लेकिन गोपनीयता नियम (जैसे HIPAA, GDPR) और संस्थागत नीतियां डेटा साझाकरण को सीमित करती हैं। संघीय शिक्षा एक समाधान प्रदान करती है, लेकिन मौजूदा विधियों में महत्वपूर्ण सीमाएं हैं:

  • FL अनुसंधान का केवल 5.2% वास्तविक नैदानिक अनुप्रयोग से संबंधित है
  • संसाधन-सीमित चिकित्सा संस्थाएं सीमांत हैं
  • एकीकृत गोपनीयता सुरक्षा रणनीति अक्षम है

मौजूदा विधियों की सीमाएं

  1. ग्राहक-पक्ष DP: विशेष हार्डवेयर की आवश्यकता है, भागीदारी की बाधा बढ़ाता है
  2. सर्वर-पक्ष एकीकृत DP: सभी ग्राहकों पर समान शोर स्तर लागू करता है, अक्षम है
  3. विश्वास धारणा: विश्वास-आधारित संघीय पर निर्भर है, छोटी संस्थाओं को बाहर करता है

मुख्य योगदान

  1. अनुपालन-जागरूक FL फ्रेमवर्क प्रस्तावित करना: ग्राहक अनुपालन स्कोर के आधार पर DP शोर को अनुकूलित रूप से समायोजित करना, गोपनीयता, अनुपालन और प्रदर्शन को संतुलित करना
  2. अनुपालन स्कोरिंग उपकरण विकसित करना: स्वास्थ्यसेवा और सुरक्षा मानकों के आधार पर वेब उपकरण, मात्रात्मक अनुपालन स्कोर प्रदान करना
  3. अनुकूली सर्वर-पक्ष DP कार्यान्वयन: संसाधन-सीमित क्लीनिकों को भाग लेने में सक्षम बनाना, गोपनीयता और प्रदर्शन को संतुलित करते हुए
  4. समावेशी प्रभाव सत्यापित करना: प्रयोग साबित करते हैं कि कम-अनुपालन संस्थाओं को एकीकृत करने से 1%-15% सटीकता में सुधार हो सकता है

विधि विवरण

कार्य परिभाषा

इनपुट:

  • वितरित चिकित्सा डेटासेट (प्रत्येक संस्था का स्थानीय डेटा)
  • ग्राहक अनुपालन स्कोर
  • गोपनीयता बजट पैरामीटर

आउटपुट:

  • वैश्विक AI मॉडल (गोपनीयता-संरक्षित सहयोगी प्रशिक्षण परिणाम)

बाधाएं:

  • विभेदक गोपनीयता गारंटी को संतुष्ट करना
  • विभिन्न अनुपालन स्तरों की संस्थाओं के अनुकूल होना
  • संसाधन आवश्यकताओं को कम करना

मॉडल आर्किटेक्चर

1. अनुपालन स्कोरिंग तंत्र

अनुपालन स्कोर गणना सूत्र:

Sc = (Σ(wi × si)) / (Σwi)

जहां:

  • n: अनुपालन कारकों की कुल संख्या
  • wi: कारक i का वजन
  • si: कारक i का विकल्प स्कोर

2. अनुकूली शोर गणना

शोर गुणक सूत्र:

Nm = (1.0 - Sc) + Min_Noise_Multiplier

जहां:

  • Sc: ग्राहक अनुपालन स्कोर
  • Min_Noise_Multiplier: न्यूनतम शोर गुणक (1e-10)

3. संघीय शिक्षा प्रक्रिया

एल्गोरिथ्म 1: अनुकूली शोर विभेदक गोपनीयता संघीय शिक्षा

1. वैश्विक मॉडल को प्रारंभ करें
2. संघीय राउंड = 1 से 50 के लिए:
   a. ग्राहक प्रशिक्षण (3 स्थानीय epoch)
   b. एकत्रीकरण के लिए अपडेट भेजें
   c. अनुपालन स्कोर के आधार पर अनुकूली DP शोर लागू करें
   d. एकत्रीकरण प्रशिक्षण (DP के साथ 1 epoch)
   e. वैश्विक एकत्रीकरण (FedAvg/FedYogi/FedAdam आदि)
   f. अपडेट किए गए वैश्विक मॉडल को प्रसारित करें

तकनीकी नवाचार बिंदु

1. अनुपालन-जागरूक विभेदक गोपनीयता

  • नवाचार: ग्राहक अनुपालन स्तर के आधार पर गतिशील रूप से शोर को समायोजित करना, न कि एकीकृत शोर
  • लाभ: उच्च-अनुपालन संस्थाएं कम प्रदर्शन हानि का सामना करती हैं, कम-अनुपालन संस्थाएं अभी भी गोपनीयता सुरक्षा प्राप्त करती हैं

2. सर्वर-पक्ष अनुकूली DP

  • नवाचार: सर्वर-पक्ष पर ग्राहक-पक्ष DP प्रभाव का अनुकरण करना, हार्डवेयर आवश्यकताओं को कम करना
  • लाभ: संसाधन-सीमित संस्थाएं DP विशेष हार्डवेयर के बिना भाग ले सकती हैं

3. बहु-आयामी अनुपालन मूल्यांकन

12 अनुपालन कारकों को शामिल करता है:

  • डेटा एन्क्रिप्शन मानक (AES-256/AES-128)
  • नैतिक AI नीति (EU AI Act, FDA मार्गदर्शन)
  • गोपनीयता नियम (HIPAA, GDPR)
  • डेटा गुणवत्ता (DICOM मानक)
  • गुमनामीकरण प्रथाएं (ISO/TS 25237:2017)
  • अंतरसंचालनीयता मानक (HL7/FHIR)

प्रयोगात्मक सेटअप

डेटासेट

  • PneumoniaMNIST: निमोनिया पहचान डेटासेट
  • BreastMNIST: स्तन कैंसर पहचान डेटासेट
  • डेटा प्रीप्रोसेसिंग: छवि आकार को 128×128 में समायोजित करना, बैच आकार 32
  • डेटा वितरण: 16 ग्राहक उपसमुच्चय, 1 एकत्रीकरण प्रशिक्षण के लिए, 1 वैश्विक मूल्यांकन के लिए

मूल्यांकन मेट्रिक्स

  • सटीकता (Accuracy)
  • परिशुद्धता (Precision)
  • पुनरावृत्ति (Recall)
  • F1 स्कोर

तुलनात्मक विधियां

  • Vanilla FL: DP और अनुपालन स्कोरिंग के बिना पारंपरिक संघीय शिक्षा
  • एकीकृत सर्वर-पक्ष DP: एकत्रीकरण के बाद एकीकृत शोर लागू करना
  • विभिन्न एकत्रीकरण रणनीतियां: FedAvg, FedProx, FedMedian, FedAdam, FedYogi

कार्यान्वयन विवरण

  • फ्रेमवर्क: Lightning, Flower, ResNet-18
  • हार्डवेयर: NVIDIA Tesla T4 GPU (16GB)
  • प्रशिक्षण पैरामीटर: सीखने की दर 0.001, 50 संघीय राउंड, प्रति राउंड 3 स्थानीय epoch
  • DP कार्यान्वयन: Opacus लाइब्रेरी का उपयोग, न्यूनतम शोर स्तर 1e-10

प्रयोगात्मक परिणाम

मुख्य परिणाम

प्रयोग कॉन्फ़िगरेशन तुलना

प्रयोगअनुपालन ग्राहकगैर-अनुपालन ग्राहकअनुपालन आवेदनDP आवेदन
Exp.1412हांअनुकूली
Exp.2106हांअनुकूली
Exp.3160हांअनुकूली
Exp.440नहींन्यूनतम
Exp.5160नहींकोई नहीं
Exp.6160हांएकीकृत

मुख्य निष्कर्ष

  1. समावेशी लाभ: प्रयोग 1 (4 अनुपालन + 12 गैर-अनुपालन) प्रयोग 4 (केवल 4 अनुपालन) की तुलना में अधिकांश रणनीतियों पर 1%-15% सटीकता में सुधार प्राप्त करता है
  2. सर्वोत्तम प्रदर्शन:
    • PneumoniaMNIST: FedYogi प्रयोग 1 में 86.62% तक पहुंचता है
    • BreastMNIST: FedYogi प्रयोग 1 में 75.50% तक पहुंचता है
  3. रणनीति संवेदनशीलता: FedMedian अनुपालन वितरण के प्रति संवेदनशील है, उच्च अनुपात कम-अनुपालन ग्राहकों में प्रदर्शन में उल्लेखनीय गिरावट आती है

विलोपन प्रयोग

डेटा गुणवत्ता प्रयोग

वास्तविक परिदृश्य का अनुकरण करते हुए, 12 ग्राहकों पर डेटा डिग्रेडेशन लागू करना:

  • डिग्रेडेशन ऑपरेशन: यादृच्छिक क्रॉपिंग, आकार समायोजन (80-100%), गाऊसी शोर (σ=0.05), विपरीतता को 80% तक कम करना
  • अनुपालन स्कोर: डिग्रेडेड ग्राहक 0.3, विश्वसनीय ग्राहक 1.0
  • परिणाम: डेटा गुणवत्ता कम होने के बावजूद, समग्र मॉडल प्रदर्शन में सुधार होता है

एकत्रीकरण रणनीति तुलना

डेटा गुणवत्ता प्रयोग में:

  • dp_FedAvg: 72.68%
  • dp_FedYogi: 71.62%
  • dp_FedAdam: 69.55%
  • dp_FedMedian: 66.23%
  • dp_FedProx: 64.04%

प्रयोगात्मक निष्कर्ष

  1. अनुपालन वितरण प्रभाव: FedMedian कम-अनुपालन ग्राहकों के 75% पर खराब प्रदर्शन करता है (50.01%), 37% पर Vanilla FL प्रदर्शन के करीब है
  2. संसाधन समावेशिता: फ्रेमवर्क संसाधन-सीमित संस्थाओं को सफलतापूर्वक भाग लेने में सक्षम बनाता है, विशेष हार्डवेयर की आवश्यकता नहीं है
  3. गोपनीयता-उपयोगिता संतुलन: अनुकूली शोर तंत्र प्रभावी रूप से गोपनीयता सुरक्षा और मॉडल प्रदर्शन को संतुलित करता है

संबंधित कार्य

चिकित्सा क्षेत्र में संघीय शिक्षा

  • चुनौतियां: डेटा विषमता, गोपनीयता नियम, संस्थाओं के बीच विश्वास
  • वर्तमान स्थिति: अधिकांश अनुसंधान सिद्धांत तक सीमित है, वास्तविक नैदानिक अनुप्रयोग सीमित है
  • इस पेपर का योगदान: व्यावहारिक अनुपालन-जागरूक समाधान प्रदान करना

विभेदक गोपनीयता विधियां

  • पारंपरिक विधि: एकीकृत शोर आवेदन, ग्राहक अंतर को नजरअंदाज करता है
  • इस पेपर का नवाचार: अनुपालन स्कोर के आधार पर अनुकूली शोर समायोजन

चिकित्सा AI सहयोग

  • सफलता के मामले: ग्लियोब्लास्टोमा अनुसंधान (71 साइट, 6314 मामले) 33% सुधार प्राप्त किया
  • सीख: कम-अनुपालन संस्थाओं को शामिल करने से दुर्लभ रोग डेटा मिल सकता है, मॉडल सामान्यीकरण क्षमता में सुधार होता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. अनुपालन-जागरूक DP प्रभावी है: पारंपरिक विधियों की तुलना में महत्वपूर्ण प्रदर्शन सुधार प्राप्त करता है
  2. समावेशिता लाभ लाती है: कम-अनुपालन संस्थाओं को एकीकृत करने से समग्र मॉडल गुणवत्ता में सुधार होता है
  3. संसाधन-अनुकूल: भागीदारी की बाधा को कम करता है, व्यापक चिकित्सा AI सहयोग को बढ़ावा देता है

सीमाएं

  1. प्रारंभिक विश्वास धारणा: पहले राउंड के ग्राहक अपडेट में DP सुरक्षा की कमी है
  2. अनुपालन स्कोर ईमानदारी: मानता है कि ग्राहक सटीक अनुपालन जानकारी प्रदान करते हैं
  3. नियंत्रित वातावरण सत्यापन: प्रयोग नियंत्रित वातावरण में किए गए हैं, वास्तविक नैदानिक वातावरण सत्यापन की आवश्यकता है

भविष्य की दिशाएं

  1. गतिशील अनुपालन सत्यापन: वास्तविक समय अनुपालन सत्यापन तंत्र
  2. सुरक्षित बहु-पक्षीय गणना: SMPC के साथ सुरक्षा को बढ़ाना
  3. वास्तविक नैदानिक तैनाती: वास्तविक चिकित्सा वातावरण और विविध डेटासेट तक विस्तार
  4. अनुमान हमलों से रक्षा: अविश्वसनीय ग्राहकों के अनुमान हमलों का सामना करना

गहन मूल्यांकन

शक्तियां

  1. मजबूत नवाचार: पहली बार अनुपालन-जागरूक अनुकूली DP तंत्र प्रस्तावित करना
  2. उच्च व्यावहारिक मूल्य: वास्तविक चिकित्सा FL तैनाती की मुख्य बाधाओं को हल करना
  3. व्यापक प्रयोग: 61 प्रयोग कॉन्फ़िगरेशन, कई एकत्रीकरण रणनीतियां और डेटासेट
  4. मानकीकृत उपकरण: अनुकूलन योग्य अनुपालन स्कोरिंग उपकरण प्रदान करना
  5. समावेशी डिजाइन: संसाधन-सीमित संस्थाओं को उच्च-गुणवत्ता AI सहयोग में भाग लेने में सक्षम बनाना

कमियां

  1. डेटासेट सीमा: केवल दो सार्वजनिक चिकित्सा डेटासेट पर सत्यापित
  2. अनुपालन मूल्यांकन व्यक्तिपरकता: अनुपालन स्कोर मानव मूल्यांकन पर निर्भर है, संभावित पूर्वाग्रह हो सकता है
  3. सुरक्षा धारणाएं: ग्राहक ईमानदारी और सर्वर विश्वसनीयता पर कुछ धारणाएं हैं
  4. स्केलेबिलिटी अज्ञात: बड़े पैमाने पर वास्तविक तैनाती में प्रदर्शन सत्यापन की आवश्यकता है

प्रभाव

  1. शैक्षणिक योगदान: चिकित्सा FL के लिए गोपनीयता सुरक्षा का नया दृष्टिकोण प्रदान करता है
  2. व्यावहारिक मूल्य: वैश्विक चिकित्सा AI सहयोग की वास्तविक तैनाती को बढ़ावा देने की संभावना है
  3. नीति महत्व: चिकित्सा डेटा शासन के लिए तकनीकी समर्थन प्रदान करता है
  4. पुनरुत्पादनीयता: ओपन-सोर्स कार्यान्वयन और विस्तृत प्रयोग सेटअप पुनरुत्पादन का समर्थन करते हैं

लागू परिदृश्य

  1. बहु-संस्थागत चिकित्सा अनुसंधान: विशेष रूप से दुर्लभ रोग अनुसंधान के लिए उपयुक्त
  2. संसाधन विविधता वातावरण: विकसित और विकासशील क्षेत्रों की चिकित्सा संस्थाओं का सहयोग
  3. विभिन्न नियामक आवश्यकताओं वाले अंतर्राष्ट्रीय अनुसंधान: विभिन्न देशों की गोपनीयता नियमों के अनुकूल
  4. नैदानिक परीक्षण: रोगी गोपनीयता की सुरक्षा करते हुए डेटा सहयोग को सक्षम करना

संदर्भ

पेपर 34 संबंधित कार्यों का हवाला देता है, जिसमें शामिल हैं:

  • संघीय शिक्षा मूल सिद्धांत 22
  • चिकित्सा में विभेदक गोपनीयता का अनुप्रयोग 2,10,18
  • चिकित्सा AI सहयोग व्यवहार 25,29,30
  • गोपनीयता हमले और रक्षा 8,32
  • संबंधित तकनीकी फ्रेमवर्क 4,11,34

समग्र मूल्यांकन: यह चिकित्सा संघीय शिक्षा क्षेत्र में महत्वपूर्ण व्यावहारिक मूल्य वाला एक पेपर है। अनुपालन-जागरूक अनुकूली विभेदक गोपनीयता तंत्र के माध्यम से, यह मौजूदा विधियों में समावेशिता और उपयोगिता के संबंध में अपर्याप्तता को प्रभावी ढंग से हल करता है। हालांकि वास्तविक वातावरण सत्यापन और सुरक्षा धारणाओं में सुधार की गुंजाइश है, यह चिकित्सा AI के वैश्विक सहयोग को बढ़ावा देने के लिए एक आशाजनक तकनीकी पथ प्रदान करता है।