A Ratio-Based Shapley Value for Collaborative Machine Learning - Extended Version
Filter, Möller, Ãzçep
Collaborative machine learning enables multiple data owners to jointly train models for improved predictive performance. However, ensuring incentive compatibility and fair contribution-based rewards remains a critical challenge. Prior work by Sim and colleagues (Rachel Hwee Ling Sim et al: Collaborative machine learning with incentive-aware model rewards. In: International conference on machine learning. PMLR. 2020, pp. 8927-8963) addressed this by allocating model rewards, which are non-monetary and freely replicable, based on the Shapley value of each party's data contribution, measured via information gain. In this paper, we introduce a ratio-based Shapley value that replaces the standard additive formulation with a relative contribution measure. While our overall reward framework, including the incentive definitions and model-reward setting, remains aligned with that of Sim and colleagues, the underlying value function is fundamentally different. Our alternative valuation induces a different distribution of model rewards and offers a new lens through which to analyze incentive properties. We formally define the ratio-based value and prove that it satisfies the same set of incentive conditions as the additive formulation, including adapted versions of fairness, individual rationality, and stability. Like the original approach, our method faces the same fundamental trade-offs between these incentives. Our contribution is a mathematically grounded alternative to the additive Shapley framework, potentially better suited to contexts where proportionality among contributors is more meaningful than additive differences.
협업 머신러닝은 여러 데이터 소유자가 모델을 공동으로 훈련하여 예측 성능을 향상시킬 수 있게 한다. 그러나 유인 양립성 보장 및 기여도 기반의 공정한 보상 분배는 여전히 핵심 과제이다. Sim 등의 선행 연구는 각 참여자의 데이터 기여도에 기반한 샤플리 값을 통해 모델 보상(비화폐적이며 자유롭게 복제 가능)을 분배했으며, 이 기여도는 정보 이득으로 측정되었다. 본 논문은 표준 가법식을 상대적 기여도 측정으로 대체하는 비율 기반 샤플리 값을 제시한다. 전체 보상 프레임워크(유인 정의 및 모델 보상 설정 포함)는 Sim 등과 일치하지만, 기저 가치 함수는 근본적으로 다르다. 이러한 대체 평가는 서로 다른 모델 보상 분배를 초래하며 유인 속성 분석을 위한 새로운 관점을 제공한다.