2025-11-23T22:52:23.771043

A Ratio-Based Shapley Value for Collaborative Machine Learning - Extended Version

Filter, Möller, Özçep
Collaborative machine learning enables multiple data owners to jointly train models for improved predictive performance. However, ensuring incentive compatibility and fair contribution-based rewards remains a critical challenge. Prior work by Sim and colleagues (Rachel Hwee Ling Sim et al: Collaborative machine learning with incentive-aware model rewards. In: International conference on machine learning. PMLR. 2020, pp. 8927-8963) addressed this by allocating model rewards, which are non-monetary and freely replicable, based on the Shapley value of each party's data contribution, measured via information gain. In this paper, we introduce a ratio-based Shapley value that replaces the standard additive formulation with a relative contribution measure. While our overall reward framework, including the incentive definitions and model-reward setting, remains aligned with that of Sim and colleagues, the underlying value function is fundamentally different. Our alternative valuation induces a different distribution of model rewards and offers a new lens through which to analyze incentive properties. We formally define the ratio-based value and prove that it satisfies the same set of incentive conditions as the additive formulation, including adapted versions of fairness, individual rationality, and stability. Like the original approach, our method faces the same fundamental trade-offs between these incentives. Our contribution is a mathematically grounded alternative to the additive Shapley framework, potentially better suited to contexts where proportionality among contributors is more meaningful than additive differences.
academic

Коэффициентное значение Шепли для совместного машинного обучения - расширенная версия

Основная информация

  • ID статьи: 2510.13261
  • Название: A Ratio-Based Shapley Value for Collaborative Machine Learning - Extended Version
  • Авторы: Björn Filter, Ralf Möller, Özgür Lütfü Özçep (Университет Гамбурга, Германия)
  • Классификация: cs.GT (Теория игр), cs.AI (Искусственный интеллект)
  • Дата публикации: 15 октября 2025 г.
  • Ссылка на статью: https://arxiv.org/abs/2510.13261v1

Аннотация

Совместное машинное обучение позволяет нескольким владельцам данных совместно обучать модели для повышения производительности прогнозирования. Однако обеспечение совместимости стимулов и справедливого распределения вознаграждений на основе вклада остаётся критической проблемой. Предыдущая работа Сима и соавторов распределяла вознаграждения модели (нематериальные и свободно копируемые) на основе значений Шепли, основанных на вкладе данных каждой стороны, измеряемом информационным выигрышем. В данной статье вводится коэффициентное значение Шепли, которое заменяет стандартную аддитивную формулу мерой относительного вклада. Хотя общая структура вознаграждений (включая определения стимулов и параметры вознаграждения модели) остаётся согласованной с работой Сима и соавторов, базовая функция стоимости принципиально отличается. Эта альтернативная оценка приводит к различным распределениям вознаграждений модели и предоставляет новую перспективу для анализа свойств стимулов.

Исследовательский контекст и мотивация

Определение проблемы

Центральная проблема совместного машинного обучения заключается в справедливом распределении вознаграждений модели между несколькими владельцами данных при обеспечении:

  1. Совместимости стимулов: участники мотивированы вносить данные
  2. Справедливости: вознаграждения пропорциональны фактическому вкладу
  3. Осуществимости: распределение вознаграждений технически реализуемо

Важность проблемы

По мере того как системы ИИ всё больше зависят от многоагентного сотрудничества, обеспечение справедливых и совместимых со стимулами механизмов кооперации критично как для технической надёжности, так и для этической жизнеспособности. Это связано со сложными проблемами в области безопасности ИИ, такими как выравнивание ИИ и совместный ИИ.

Ограничения существующих подходов

Традиционная теория кооперативных игр предполагает, что вознаграждения неделимы и не могут быть скопированы, но в совместном обучении:

  • Вознаграждения представляют собой обученные модели или наборы данных, которые можно копировать бесконечно
  • Аддитивные предельные вклады могут не отражать контекстную важность данных участников
  • Например: повышение точности слабой модели с 10% до 20% может быть более значимым, чем повышение сильной модели с 90% до 92%, но аддитивный метод вознаградит последнее больше

Исследовательская мотивация

В данной статье предлагается заменить аддитивные выигрыши мультипликативными (коэффициентными) вкладами, чтобы отразить относительное влияние каждого участника на производительность модели, что особенно применимо к:

  • Сценариям с неоднородным качеством данных
  • Ситуациям с избыточными вкладами
  • Построению моделей на ранних этапах

Основные вклады

  1. Предложено коэффициентное значение Шепли: замена абсолютных предельных вкладов мерами относительного улучшения
  2. Сохранены теоретические гарантии: доказано, что новый метод удовлетворяет тем же аксиомам стимулов и справедливости, что и аддитивное значение Шепли
  3. Обеспечена математическая основа: предоставлена принципиальная альтернатива аддитивной схеме Шепли
  4. Выявлена неуникальность: показано, что текущая аксиоматическая схема не однозначно определяет значение Шепли, допуская множество совместимых механизмов

Подробное описание методологии

Определение задачи

Рассмотрим установку совместного обучения с N участниками, где каждый участник i ∈ N владеет приватным набором данных и должен решить, вносить ли его вклад в объединённую коалицию для обучения модели. Моделируется как кооперативная игра в характеристической форме:

  • Множество участников: N
  • Функция стоимости: v : 2^N → R≥0, где v(∅) = 0
  • Монотонность: ∀C' ⊆ C ⊆ N, v(C') ≤ v(C)

Основные технические инновации

1. Определение коэффициентного предельного вклада

Для участника i ∈ N и коалиции C ⊆ N \ {i} относительный предельный вклад определяется как:

Δ^rel_{i,C} := {
    v_{C∪{i}}/v_C - 1, если v_C ≠ 0
    0, иначе
}

2. Коэффициентное значение Шепли

Коэффициентное значение Шепли для участника i:

φ^rel_i := (1/n!) ∑_{π∈Π_N} Δ^rel_{i,S_{π,i}}

где Π_N — множество всех перестановок N, S_{π,i} — коалиция участников, предшествующих i в перестановке π.

3. ρ-масштабированный механизм вознаграждения

Для удовлетворения слабой эффективности (R3) применяется ρ-масштабирование:

r_i = (φ^rel_i/φ*_C)^ρ × v_C

где φ*C = max{i∈C} φ^rel_i обеспечивает нормализацию, ρ ∈ 0,1 контролирует величину вознаграждения, балансируя между справедливостью и максимизацией общественного благосостояния.

Теоретические гарантии

Аксиомы стимулов (R1-R5)

  • R1 Неотрицательность: каждый участник получает неотрицательное вознаграждение
  • R2 Осуществимость: вознаграждения не превышают стоимость коалиции
  • R3 Слабая эффективность: по крайней мере один участник получает полную стоимость коалиции
  • R4 Индивидуальная рациональность: вознаграждение не менее стоимости независимого действия
  • R5 Справедливость: удовлетворяет аксиомам справедливости F1-F4

Аксиомы справедливости (F1-F4)

  • F1 Бесполезность: участники без вклада получают нулевое вознаграждение
  • F2 Симметричность: участники с одинаковым вкладом получают равное вознаграждение
  • F3 Строгая ожидаемость: участники с большим вкладом получают больше вознаграждения
  • F4 Строгая монотонность: увеличение вклада приводит к увеличению вознаграждения

Экспериментальная установка

Дизайн синтетических экспериментов

Создано 7 агентов {1,...,7} с параметрами:

  • Индивидуальная стоимость: v_i = √i
  • Стоимость коалиции: v_C = √(∑_{i∈C} i)

Методы сравнения

Коэффициентное вознаграждение R_i сравнивается с аддитивным вознаграждением Шепли A_i из работы Сима и соавторов:

R_i = (φ^rel_i/φ^{rel,*})^ρ × v_C
A_i = (φ^add_i/φ^{add,*})^ρ × v_C

Результаты экспериментов

Основные выводы

  1. Различия в распределении вознаграждений: хотя оба метода приблизительно сходятся в экстремальных случаях (ρ=0 или ρ=1), кривые вознаграждений значительно отличаются в промежуточной области
  2. Большая справедливость для участников низкого ранга: коэффициентный метод показывает более медленное снижение вознаграждений для участников низкого ранга (синие и оранжевые линии), поскольку они обеспечивают непропорционально высокую относительную стоимость в более слабых коалициях
  3. Модерация для высокого вклада: хотя участники с высоким вкладом по-прежнему получают значительно большие вознаграждения, в коэффициентном методе их вознаграждения немного меньше, поскольку относительный вклад менее значителен, чем абсолютный

Сценарии преимущества

  1. Неоднородное качество данных: небольшое количество высококачественных данных может значительно улучшить слабую модель
  2. Избыточные вклады: ситуации, когда аддитивные предельные выигрыши становятся меньше из-за перекрывающейся информации
  3. Построение моделей на ранних этапах: сценарии, где абсолютные выигрыши малы, но относительное улучшение велико

Связанные работы

Основы теории кооперативных игр

  • Значение Шепли 7: классический метод, основанный на ожидаемых аддитивных предельных вкладах
  • Традиционные предположения о неделимости и некопируемости вознаграждений 11,10

Совместное машинное обучение

  • Сим и соавторы 9: первое применение значения Шепли к копируемым вознаграждениям модели
  • Оценка данных в федеративном обучении 11
  • Надёжные схемы оценки данных, такие как Banzhaf 10

Относительные преимущества данной работы

Предоставляет принципиальную альтернативу для сценариев, где пропорциональная справедливость и контекстный вклад более важны, сохраняя при этом те же теоретические гарантии.

Заключение и обсуждение

Основные выводы

  1. Теоретическая эквивалентность: коэффициентное значение Шепли удовлетворяет всем аксиомам стимулов и справедливости, что и аддитивная версия
  2. Практическое различие: приводит к значительно различному поведению при распределении вознаграждений, особенно в отношении относительного вклада
  3. Обнаружение неуникальности: текущая аксиоматическая схема не однозначно определяет значение Шепли, допуская множество совместимых механизмов

Ограничения

  1. Вычислительная сложность: сталкивается с той же экспоненциальной вычислительной сложностью, что и исходное значение Шепли
  2. Чувствительность параметров: выбор параметра ρ влияет на индивидуальную рациональность и стабильность
  3. Ограничения применения: более подходит для сценариев, где относительное улучшение важнее абсолютного выигрыша

Направления будущих исследований

  1. Полная характеризация: необходимо формализовать теорему представления, описывающую все функции, удовлетворяющие аксиомам стимулов
  2. Расширение аксиом: могут потребоваться новые аксиомы для различия аддитивной и коэффициентной справедливости
  3. Гибридные схемы: исследование смешанных механизмов вознаграждения, интерполирующих между аддитивными и коэффициентными значениями
  4. Эмпирическая оценка: изучение эмпирического поведения на реальных наборах данных совместного обучения

Глубокая оценка

Преимущества

  1. Теоретическая строгость: предоставляет полные математические доказательства, обеспечивающие выполнение всех ключевых свойств
  2. Концептуальная инновативность: переход от аддитивного к мультипликативному рассуждению предоставляет новую перспективу справедливости
  3. Практическая ценность: особенно применимо к сценариям совместного обучения с неоднородными или избыточными данными
  4. Совместимость схемы: полностью совместимо с существующими ρ-масштабированными механизмами и инструментами анализа

Недостатки

  1. Ограниченность экспериментов: предоставлены только синтетические эксперименты, отсутствует проверка на реальных наборах данных
  2. Вычислительная эффективность: не обсуждаются оптимизации вычислений или приближённые алгоритмы
  3. Руководство по параметрам: отсутствуют практические рекомендации по выбору параметра ρ
  4. Примеры применения: требуются дополнительные тематические исследования конкретных областей применения

Влияние

  1. Теоретический вклад: раскрывает более широкое пространство для проектирования механизмов вознаграждения в совместном обучении
  2. Практическое руководство: предоставляет основу для выбора метода в зависимости от сценария применения
  3. Исследовательское вдохновение: открывает важные вопросы о полноте и уникальности аксиом справедливости

Применимые сценарии

  1. Совместный медицинский ИИ: значительные различия в качестве данных между учреждениями
  2. Федеративное обучение: неоднородные возможности устройств и распределение данных
  3. Цифровизация документов: оценка относительной важности исторических документов
  4. Сети датчиков: среды с одновременной избыточностью и дополнительностью данных

Библиография

Основные источники включают:

  • Shapley, L.S. (1953): A value for n-person games — исходное определение значения Шепли
  • Sim, R.H.L. и соавторы (2020): Collaborative machine learning with incentive-aware model rewards — базовая работа, расширяемая в данной статье
  • Chalkiadakis, G. и соавторы (2011): Computational aspects of cooperative game theory — вычислительные аспекты теории кооперативных игр
  • Другая соответствующая литература по безопасности ИИ, совместному ИИ и оценке данных

Резюме: В данной статье предоставляется математически строгая альтернатива значению Шепли, особенно подходящая для сценариев совместного машинного обучения, где относительный вклад более важен, чем абсолютные различия. Хотя теоретический вклад значителен, требуется дополнительная эмпирическая проверка и практические примеры применения для полного доказательства её практической ценности.