2025-11-23T22:52:23.771043

A Ratio-Based Shapley Value for Collaborative Machine Learning - Extended Version

Filter, Möller, Özçep
Collaborative machine learning enables multiple data owners to jointly train models for improved predictive performance. However, ensuring incentive compatibility and fair contribution-based rewards remains a critical challenge. Prior work by Sim and colleagues (Rachel Hwee Ling Sim et al: Collaborative machine learning with incentive-aware model rewards. In: International conference on machine learning. PMLR. 2020, pp. 8927-8963) addressed this by allocating model rewards, which are non-monetary and freely replicable, based on the Shapley value of each party's data contribution, measured via information gain. In this paper, we introduce a ratio-based Shapley value that replaces the standard additive formulation with a relative contribution measure. While our overall reward framework, including the incentive definitions and model-reward setting, remains aligned with that of Sim and colleagues, the underlying value function is fundamentally different. Our alternative valuation induces a different distribution of model rewards and offers a new lens through which to analyze incentive properties. We formally define the ratio-based value and prove that it satisfies the same set of incentive conditions as the additive formulation, including adapted versions of fairness, individual rationality, and stability. Like the original approach, our method faces the same fundamental trade-offs between these incentives. Our contribution is a mathematically grounded alternative to the additive Shapley framework, potentially better suited to contexts where proportionality among contributors is more meaningful than additive differences.
academic

सहयोगी मशीन लर्निंग के लिए अनुपात-आधारित शैपली मान - विस्तारित संस्करण

मूल जानकारी

  • पेपर ID: 2510.13261
  • शीर्षक: A Ratio-Based Shapley Value for Collaborative Machine Learning - Extended Version
  • लेखक: Björn Filter, Ralf Möller, Özgür Lütfü Özçep (हैम्बर्ग विश्वविद्यालय, जर्मनी)
  • वर्गीकरण: cs.GT (गेम थ्योरी), cs.AI (कृत्रिम बुद्धिमत्ता)
  • प्रकाशन समय: 15 अक्टूबर 2025
  • पेपर लिंक: https://arxiv.org/abs/2510.13261v1

सारांश

सहयोगी मशीन लर्निंग कई डेटा मालिकों को पूर्वानुमान प्रदर्शन में सुधार के लिए संयुक्त रूप से मॉडल प्रशिक्षित करने में सक्षम बनाती है। हालांकि, प्रोत्साहन संगतता सुनिश्चित करना और योगदान-आधारित न्यायसंगत पुरस्कार वितरण एक महत्वपूर्ण चुनौती बनी हुई है। सिम आदि के पूर्व कार्य ने प्रत्येक पक्ष के डेटा योगदान के आधार पर शैपली मान के माध्यम से मॉडल पुरस्कार (गैर-मौद्रिक और स्वतंत्र रूप से प्रतिलिपि योग्य) वितरित किए, जिसे सूचना लाभ द्वारा मापा जाता है। यह पेपर एक अनुपात-आधारित शैपली मान प्रस्तुत करता है, जो मानक योगात्मक सूत्र को सापेक्ष योगदान माप से बदल देता है। हालांकि समग्र पुरस्कार ढांचा (प्रोत्साहन परिभाषा और मॉडल पुरस्कार सेटिंग सहित) सिम आदि के साथ सुसंगत रहता है, अंतर्निहित मूल्य फ़ंक्शन मौलिक रूप से भिन्न है। यह वैकल्पिक मूल्यांकन विभिन्न मॉडल पुरस्कार वितरण की ओर ले जाता है और प्रोत्साहन गुणों का विश्लेषण करने के लिए एक नया दृष्टिकोण प्रदान करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

सहयोगी मशीन लर्निंग में मूल समस्या यह है कि कई डेटा मालिकों के बीच मॉडल पुरस्कार को न्यायसंगत रूप से कैसे वितरित किया जाए, यह सुनिश्चित करते हुए:

  1. प्रोत्साहन संगतता: प्रतिभागियों को डेटा योगदान के लिए प्रेरणा है
  2. न्यायसंगतता: पुरस्कार वास्तविक योगदान के अनुपात में हैं
  3. व्यावहारिकता: पुरस्कार वितरण तकनीकी रूप से संभव है

समस्या की महत्ता

जैसे-जैसे AI सिस्टम बहु-एजेंट सहयोग पर अधिक निर्भर होते जा रहे हैं, न्यायसंगत और प्रोत्साहन-संगत सहयोग तंत्र सुनिश्चित करना तकनीकी विश्वसनीयता और नैतिक व्यावहारिकता दोनों के लिए महत्वपूर्ण है। यह AI सुरक्षा में AI संरेखण और सहयोगी AI जैसी जटिल चुनौतियों को शामिल करता है।

मौजूदा विधियों की सीमाएं

पारंपरिक सहयोगी गेम थ्योरी मानती है कि पुरस्कार अविभाज्य और गैर-प्रतिलिपि योग्य हैं, लेकिन सहयोगी सीखने में:

  • पुरस्कार प्रशिक्षित मॉडल या डेटासेट हैं, जो असीमित रूप से प्रतिलिपि योग्य हैं
  • योगात्मक सीमांत योगदान प्रतिभागियों के डेटा के संदर्भ महत्व को प्रतिबिंबित नहीं कर सकते
  • उदाहरण: कमजोर मॉडल सटीकता को 10% से 20% तक बढ़ाना मजबूत मॉडल को 90% से 92% तक बढ़ाने से अधिक महत्वपूर्ण हो सकता है, लेकिन योगात्मक विधि बाद वाले को अधिक पुरस्कृत करेगी

अनुसंधान प्रेरणा

यह पेपर योगात्मक लाभ को गुणात्मक (अनुपात-आधारित) योगदान से बदलने का प्रस्ताव देता है, जो प्रत्येक प्रतिभागी के मॉडल प्रदर्शन पर सापेक्ष प्रभाव को पकड़ता है, विशेष रूप से उपयुक्त:

  • डेटा गुणवत्ता विषमता वाले परिदृश्य
  • अनावश्यक योगदान मौजूद होने की स्थिति
  • मॉडल निर्माण के प्रारंभिक चरण

मुख्य योगदान

  1. अनुपात-आधारित शैपली मान प्रस्तावित किया: सापेक्ष सुधार माप के साथ पूर्ण सीमांत योगदान को प्रतिस्थापित किया
  2. सैद्धांतिक गारंटियां बनाए रखीं: नई विधि योगात्मक शैपली मान के समान प्रोत्साहन और न्यायसंगतता स्वयंसिद्धों को संतुष्ट करती है
  3. गणितीय आधार प्रदान किया: योगात्मक शैपली ढांचे के लिए एक सिद्धांतवादी विकल्प प्रदान किया
  4. गैर-विशिष्टता प्रकट की: दर्शाया कि वर्तमान स्वयंसिद्ध ढांचा शैपली मान को विशिष्ट रूप से निर्धारित नहीं करता है, कई संगत तंत्र की अनुमति देता है

विधि विवरण

कार्य परिभाषा

N प्रतिभागियों की सहयोगी सीखने की सेटिंग पर विचार करें, जहां प्रत्येक प्रतिभागी i ∈ N के पास निजी डेटासेट है, और यह तय करने की आवश्यकता है कि क्या इसे संयुक्त गठबंधन में मॉडल प्रशिक्षण के लिए योगदान देना है। विशेषता रूप में सहयोगी गेम के रूप में मॉडल किया गया:

  • प्रतिभागी सेट: N
  • मूल्य फ़ंक्शन: v : 2^N → R≥0, जहां v(∅) = 0
  • एकरसता: ∀C' ⊆ C ⊆ N, v(C') ≤ v(C)

मुख्य तकनीकी नवाचार

1. अनुपात सीमांत योगदान परिभाषा

प्रतिभागी i ∈ N और गठबंधन C ⊆ N \ {i} के लिए, सापेक्ष सीमांत योगदान को परिभाषित किया गया है:

Δ^rel_{i,C} := {
    v_{C∪{i}}/v_C - 1, यदि v_C ≠ 0
    0, अन्यथा
}

2. अनुपात-आधारित शैपली मान

प्रतिभागी i का अनुपात-आधारित शैपली मान है:

φ^rel_i := (1/n!) ∑_{π∈Π_N} Δ^rel_{i,S_{π,i}}

जहां Π_N N के सभी क्रमपरिवर्तनों का सेट है, S_{π,i} क्रमपरिवर्तन π में i से पहले प्रतिभागियों का गठबंधन है।

3. ρ-स्केलिंग पुरस्कार तंत्र

कमजोर दक्षता (R3) को संतुष्ट करने के लिए, ρ-स्केलिंग लागू करें:

r_i = (φ^rel_i/φ*_C)^ρ × v_C

जहां φ*C = max{i∈C} φ^rel_i मानकीकरण सुनिश्चित करता है, ρ ∈ 0,1 पुरस्कार आकार को नियंत्रित करता है, न्यायसंगतता और सामाजिक कल्याण अधिकतमकरण के बीच संतुलन बनाता है।

सैद्धांतिक गारंटियां

प्रोत्साहन स्वयंसिद्ध (R1-R5)

  • R1 गैर-नकारात्मकता: प्रत्येक प्रतिभागी को गैर-नकारात्मक पुरस्कार मिलता है
  • R2 व्यावहारिकता: पुरस्कार गठबंधन मूल्य से अधिक नहीं होता है
  • R3 कमजोर दक्षता: कम से कम एक प्रतिभागी को गठबंधन का पूरा मूल्य मिलता है
  • R4 व्यक्तिगत तर्कसंगतता: पुरस्कार अकेले कार्य करने के मूल्य के बराबर कम से कम है
  • R5 न्यायसंगतता: न्यायसंगतता स्वयंसिद्ध F1-F4 को संतुष्ट करता है

न्यायसंगतता स्वयंसिद्ध (F1-F4)

  • F1 व्यर्थता: गैर-योगदानकर्ता को शून्य पुरस्कार मिलता है
  • F2 समरूपता: समान योगदानकर्ता को समान पुरस्कार मिलता है
  • F3 कड़ी प्रत्याशा: बड़े योगदानकर्ता को अधिक पुरस्कार मिलता है
  • F4 कड़ी एकरसता: योगदान बढ़ने पर पुरस्कार बढ़ता है

प्रायोगिक सेटअप

सिंथेटिक प्रयोग डिजाइन

7 एजेंट {1,...,7} बनाएं, सेटिंग:

  • व्यक्तिगत मूल्य: v_i = √i
  • गठबंधन मूल्य: v_C = √(∑_{i∈C} i)

तुलनात्मक विधियां

अनुपात-आधारित पुरस्कार R_i की तुलना सिम आदि के योगात्मक शैपली पुरस्कार A_i से करें:

R_i = (φ^rel_i/φ^{rel,*})^ρ × v_C
A_i = (φ^add_i/φ^{add,*})^ρ × v_C

प्रायोगिक परिणाम

मुख्य निष्कर्ष

  1. पुरस्कार वितरण अंतर: हालांकि दोनों विधियां चरम मामलों में (ρ=0 या ρ=1) लगभग अभिसरण करती हैं, मध्य क्षेत्र में पुरस्कार वक्र महत्वपूर्ण रूप से भिन्न होते हैं
  2. निम्न रैंक प्रतिभागियों के लिए अधिक न्यायसंगत: अनुपात-आधारित विधि निम्न रैंक प्रतिभागियों (नीली और नारंगी लाइनें) के लिए पुरस्कार में अधिक धीमी गिरावट प्रदान करती है, क्योंकि वे कमजोर गठबंधन में असमान रूप से उच्च सापेक्ष मूल्य प्रदान करते हैं
  3. उच्च योगदानकर्ताओं का समायोजन: हालांकि उच्च योगदानकर्ता अभी भी महत्वपूर्ण रूप से बड़े पुरस्कार प्राप्त करते हैं, अनुपात-आधारित विधि में उनके पुरस्कार थोड़े छोटे होते हैं, क्योंकि सापेक्ष योगदान पूर्ण योगदान जितना महत्वपूर्ण नहीं है

लाभकारी परिदृश्य

  1. विषम डेटा गुणवत्ता: कम मात्रा में उच्च गुणवत्ता वाला डेटा कमजोर मॉडल में महत्वपूर्ण सुधार कर सकता है
  2. अनावश्यक योगदान: सीमांत योगात्मक लाभ अतिव्यापी जानकारी के कारण छोटे होने की स्थिति
  3. प्रारंभिक चरण मॉडलिंग: पूर्ण लाभ छोटा लेकिन सापेक्ष सुधार बड़ा होने की स्थिति

संबंधित कार्य

सहयोगी गेम थ्योरी आधार

  • शैपली मान7: अपेक्षित सीमांत योगात्मक योगदान पर आधारित शास्त्रीय विधि
  • पारंपरिक धारणा कि पुरस्कार अविभाज्य और गैर-प्रतिलिपि योग्य हैं11,10

सहयोगी मशीन लर्निंग

  • सिम आदि9: प्रतिलिपि योग्य मॉडल पुरस्कार के लिए शैपली मान का पहला अनुप्रयोग
  • संघीय सीखने में डेटा मूल्यांकन11
  • डेटा Banzhaf आदि मजबूत डेटा मूल्यांकन ढांचे10

इस पेपर का सापेक्ष लाभ

अनुपातिक न्यायसंगतता और संदर्भ योगदान अधिक महत्वपूर्ण होने वाले परिदृश्यों में एक सिद्धांतवादी विकल्प प्रदान करता है, जबकि समान सैद्धांतिक गारंटियां बनाए रखता है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. सैद्धांतिक समतुल्यता: अनुपात-आधारित शैपली मान योगात्मक संस्करण के समान सभी प्रोत्साहन और न्यायसंगतता स्वयंसिद्धों को संतुष्ट करता है
  2. व्यावहारिक अंतर: पुरस्कार वितरण में महत्वपूर्ण रूप से भिन्न व्यवहार, विशेष रूप से सापेक्ष योगदान पर जोर देता है
  3. गैर-विशिष्टता खोज: वर्तमान स्वयंसिद्ध ढांचा शैपली मान को विशिष्ट रूप से निर्धारित नहीं करता है, कई संगत तंत्र की अनुमति देता है

सीमाएं

  1. कम्प्यूटेशनल जटिलता: मूल शैपली मान के समान घातीय-स्तरीय कम्प्यूटेशनल चुनौतियों का सामना करता है
  2. पैरामीटर संवेदनशीलता: ρ पैरामीटर की पसंद व्यक्तिगत तर्कसंगतता और स्थिरता को प्रभावित करती है
  3. अनुप्रयोग परिदृश्य सीमा: उन परिदृश्यों के लिए अधिक उपयुक्त जहां सापेक्ष सुधार पूर्ण लाभ से अधिक महत्वपूर्ण है

भविष्य की दिशाएं

  1. पूर्ण विशेषीकरण: प्रोत्साहन-सचेत स्वयंसिद्धों को संतुष्ट करने वाले सभी कार्यों का वर्णन करने वाले औपचारिक प्रतिनिधित्व प्रमेय की आवश्यकता है
  2. स्वयंसिद्ध विस्तार: योगात्मक और अनुपात-आधारित न्यायसंगतता को अलग करने के लिए नई स्वयंसिद्धों की संभावना
  3. मिश्रित योजनाएं: योगात्मक और अनुपात-आधारित मानों के बीच प्रक्षेप करने वाली मिश्रित पुरस्कार योजनाओं की खोज
  4. अनुभवजन्य मूल्यांकन: वास्तविक सहयोगी सीखने के डेटासेट पर अनुभवजन्य व्यवहार अनुसंधान

गहन मूल्यांकन

शक्तियां

  1. सैद्धांतिक कठोरता: पूर्ण गणितीय प्रमाण प्रदान करता है, यह सुनिश्चित करता है कि सभी महत्वपूर्ण गुण संतुष्ट हैं
  2. अवधारणात्मक नवाचार: योगात्मक से गुणात्मक तर्क में स्थानांतरण न्यायसंगतता का एक नया दृष्टिकोण प्रदान करता है
  3. व्यावहारिक मूल्य: डेटा विषमता या अनावश्यकता वाली सहयोगी सीखने के परिदृश्यों के लिए विशेष रूप से उपयुक्त
  4. ढांचा संगतता: मौजूदा ρ-स्केलिंग तंत्र और विश्लेषण उपकरणों के साथ पूरी तरह संगत

कमियां

  1. सीमित प्रयोग: केवल सिंथेटिक प्रयोग प्रदान करता है, वास्तविक डेटासेट सत्यापन की कमी
  2. कम्प्यूटेशनल दक्षता: कम्प्यूटेशनल अनुकूलन या सन्निकटन एल्गोरिदम पर चर्चा नहीं की गई है
  3. पैरामीटर मार्गदर्शन: ρ पैरामीटर चयन के लिए व्यावहारिक मार्गदर्शन की कमी
  4. अनुप्रयोग केस: विशिष्ट अनुप्रयोग डोमेन के अधिक केस अध्ययन की आवश्यकता है

प्रभाव

  1. सैद्धांतिक योगदान: सहयोगी सीखने के पुरस्कार तंत्र डिजाइन के बड़े स्थान को प्रकट करता है
  2. व्यावहारिक मार्गदर्शन: विभिन्न अनुप्रयोग परिदृश्यों के लिए विधि चयन के आधार प्रदान करता है
  3. अनुसंधान प्रेरणा: न्यायसंगतता स्वयंसिद्धों की पूर्णता और विशिष्टता के बारे में महत्वपूर्ण प्रश्न खोलता है

लागू परिदृश्य

  1. चिकित्सा AI सहयोग: संस्थानों के बीच डेटा गुणवत्ता में महत्वपूर्ण अंतर
  2. संघीय सीखना: डिवाइस क्षमता और डेटा वितरण में विषमता
  3. दस्तावेज़ डिजिटलीकरण: ऐतिहासिक साहित्य मूल्य का सापेक्ष महत्व मूल्यांकन
  4. सेंसर नेटवर्क: डेटा अनावश्यकता और पूरकता सह-अस्तित्व वाले वातावरण

संदर्भ

मुख्य संदर्भों में शामिल हैं:

  • Shapley, L.S. (1953): A value for n-person games - शैपली मान की मूल परिभाषा
  • Sim, R.H.L. et al. (2020): Collaborative machine learning with incentive-aware model rewards - इस पेपर के विस्तार का आधार कार्य
  • Chalkiadakis, G. et al. (2011): Computational aspects of cooperative game theory - सहयोगी गेम थ्योरी के कम्प्यूटेशनल पहलू
  • अन्य संबंधित AI सुरक्षा, सहयोगी AI और डेटा मूल्यांकन साहित्य

सारांश: यह पेपर एक गणितीय रूप से कठोर शैपली मान विकल्प प्रदान करता है, विशेष रूप से सापेक्ष योगदान को पूर्ण अंतर के बजाय महत्व देने वाली सहयोगी मशीन लर्निंग परिदृश्यों के लिए उपयुक्त। हालांकि सैद्धांतिक योगदान महत्वपूर्ण है, इसके व्यावहारिक मूल्य को पूरी तरह से साबित करने के लिए अधिक अनुभवजन्य सत्यापन और वास्तविक अनुप्रयोग केस की आवश्यकता है।