2025-11-21T18:25:16.015557

When Are Learning Biases Equivalent? A Unifying Framework for Fairness, Robustness, and Distribution Shift

Mehta

Machine learning systems exhibit diverse failure modes: unfairness toward protected groups, brittleness to spurious correlations, poor performance on minority sub-populations, which are typically studied in isolation by distinct research communities. We propose a unifying theoretical framework that characterizes when different bias mechanisms produce quantitatively equivalent effects on model performance. By formalizing biases as violations of conditional independence through information-theoretic measures, we prove formal equivalence conditions relating spurious correlations, subpopulation shift, class imbalance, and fairness violations. Our theory predicts that a spurious correlation of strength $Î±$ produces equivalent worst-group accuracy degradation as a sub-population imbalance ratio $r \approx (1+Î±)/(1-Î±)$ under feature overlap assumptions. Empirical validation in six datasets and three architectures confirms that predicted equivalences hold within the accuracy of the worst group 3\%, enabling the principled transfer of debiasing methods across problem domains. This work bridges the literature on fairness, robustness, and distribution shifts under a common perspective.

academic

Когда эквивалентны смещения обучения? Унифицирующая структура для справедливости, робастности и сдвига распределения

Основная информация

ID статьи: 2511.07485
Название: When Are Learning Biases Equivalent? A Unifying Framework for Fairness, Robustness, and Distribution Shift
Автор: Sushant Mehta
Классификация: cs.LG cs.AI stat.ML
Конференция: NeurIPS 2025 (39-я конференция по системам обработки нейронной информации)
Ссылка на статью: https://arxiv.org/abs/2511.07485

Аннотация

Системы машинного обучения демонстрируют множество режимов отказа: несправедливость по отношению к защищённым группам, хрупкость перед ложными корреляциями и плохую производительность на малых подгруппах. Эти проблемы обычно изучаются независимо различными исследовательскими сообществами. В данной статье предлагается унифицирующая теоретическая структура, которая характеризует, когда различные механизмы смещения оказывают количественно эквивалентное влияние на производительность модели. Путём формализации смещений как нарушений условной независимости (с использованием информационно-теоретических мер), авторы доказывают условия формальной эквивалентности между ложными корреляциями, сдвигом подгрупп, дисбалансом классов и нарушениями справедливости. Теория предсказывает, что ложная корреляция силой α приводит к эквивалентному снижению точности наихудшей группы, как дисбаланс подгрупп с коэффициентом r ≈ (1+α)/(1-α). Эмпирическая проверка на шести наборах данных и трёх архитектурах подтверждает, что предсказанная эквивалентность выполняется в пределах 3% ошибки точности наихудшей группы, позволяя методам удаления смещений принципиально переноситься между областями проблем.

Исследовательский контекст и мотивация

Проблема, которую необходимо решить

Системы глубокого обучения часто демонстрируют систематические отказы с деградацией производительности на конкретных подгруппах, несмотря на высокую среднюю точность. Конкретные проявления:

Алгоритмическая несправедливость: модели медицинской диагностики точны для большинства, но катастрофически отказывают для меньшинств
Обучение ярлыкам: классификаторы изображений используют ложные фоновые корреляции вместо обучения робастным признакам
Сдвиг подгрупп: системы рекомендаций усиливают существующие социальные предубеждения

Важность проблемы

Текущие исследования не имеют формальной структуры для сравнения различных механизмов смещения:

Сообщество справедливости использует метрики демографического паритета и равенства возможностей
Исследователи робастности оптимизируют точность наихудшей группы на эталонах ложных корреляций
Литература по сдвигу распределения анализирует сдвиги ковариат и меток

Эти параллельные исследования используют несовместимые формализации, препятствуя прямому сравнению и единому пониманию.

Основные исследовательские вопросы

Количественная эквивалентность: когда различные смещения количественно эквивалентны?
Предсказание производительности: приводит ли 90% ложная корреляция к той же производительности наихудшего случая, что и дисбаланс 9:1?
Перенос методов: могут ли методы справедливости смягчить ложные корреляции? Может ли робастная оптимизация решить дисбаланс классов?

Исследовательская мотивация

Ответы на эти вопросы позволят:

Предсказывать производительность наихудшей группы из диагностики распределения
Переносить проверенные методы удаления смещений между областями проблем
Выбирать надлежащие вмешательства на основе того, какой тип смещения имеет наиболее развитый набор инструментов смягчения

Основные вклады

Унифицирующая теоретическая структура: рассмотрение всех смещений как нарушений условной независимости между предсказаниями и защищёнными/ложными атрибутами при условии истинных меток, формализованное через информационно-теоретические меры
Условия формальной эквивалентности: доказательство того, когда ложные корреляции, сдвиг подгрупп и нарушения справедливости приводят к количественно эквивалентным эффектам (теорема 2)
Предсказательная теория: структура может предсказывать производительность наихудшей группы из свойств распределения, эмпирически проверено на 18 конфигурациях проблем
Проверка переноса методов: успешная демонстрация переноса методов удаления смещений между теоретически эквивалентными проблемами, достигая производительности в пределах 5% от методов обучения с нуля
Мостик между литературой: установление унифицированной перспективы между сообществами справедливости, робастности и обобщения

Подробное описание методов

Определение задачи

Рассмотрим задачу обучения:

Вход: X ∈ X
Метка: Y ∈ {0,1} (бинарная классификация)
Атрибут: A ∈ {0,1}, представляющий защищённую группу, ложный признак или индикатор домена
Модель: fθ : X → {0,1}, производящая предсказание Ŷ = fθ(X)

Основное определение: информационно-теоретическая формализация смещения

Определение 1 (Смещение): Смещение модели f относительно атрибута A на распределении D определяется как:

B(f; D) = I(Ŷ; A | Y)

где I(·; · | ·) обозначает условную взаимную информацию.

Унифицированная перспектива:

B > 0 указывает, что даже при условии истинной метки Y, предсказание модели зависит от A, нарушая условную независимость
Когда A представляет защищённый атрибут, мера нарушает справедливость
Когда A представляет ложный признак, количественно определяет обучение ярлыкам
Когда A представляет членство в домене, захватывает чувствительность к сдвигу распределения

Теоретическая структура

Теорема 2 (Эквивалентность смещений):

Рассмотрим две задачи обучения (D₁, A₁) и (D₂, A₂) с одинаковым пространством признаков X и пространством меток Y, но различными атрибутами A₁, A₂. При предположениях гладкости функции потерь ℓ и условиях перекрытия признаков:

η = min_y ∫ min(p₁(x|y), p₂(x|y))dx > τ

Если механизмы смещения удовлетворяют ϵ-эквивалентности:

|B(f; D₁) - B(f; D₂)| ≤ ϵ

то разница в точности наихудшей группы не превышает δ(ϵ, η), где:

δ(ϵ, η) = O(√ϵ/η)

Следствие 3 (Ложная корреляция ↔ Дисбаланс):

Ложная корреляция силой α эквивалентна дисбалансу подгрупп с коэффициентом r, когда:

r ≈ (1 + α)/(1 - α) · P(Y=1)/P(Y=0)

где:

α = P(A=1|Y=1) - P(A=1|Y=0) (сила корреляции)
r = P(Y=1, A=1)/P(Y=0, A=1) (коэффициент дисбаланса)

Схема доказательства теории (Приложение A)

Шаг 1: Связь смещения с потерей наихудшей группы

Через неравенство Фано, частота ошибок наихудшей группы удовлетворяет:

Err_worst ≤ [H(Y|A) + B(f; D)] / log 2

Шаг 2: Перекрытие признаков и распределение потерь

При условии перекрытия η > τ, через лемму связи и непрерывность Липшица, расстояние Вассерштейна-1 удовлетворяет:

|B(f; D₁) - B(f; D₂)| ≤ ϵ ⟹ W₁(L₁, L₂) ≤ C√ϵ/η

Шаг 3: Ограничение разницы точности

Через двойственность Канторовича-Рубинштейна:

|Acc₁ - Acc₂| ≤ W₁(L₁, L₂) ≤ δ(ϵ, η) = O(√ϵ/η)

Технические инновации

Информационно-теоретическая унифицированная перспектива: первое использование условной взаимной информации I(Ŷ; A | Y) для унифицированной характеризации справедливости, робастности и сдвига распределения
Предсказание количественной эквивалентности: предоставление вычислимых формул для предсказания эквивалентных конфигураций смещений, а не только качественный анализ
Условия перекрытия признаков: явное определение граничных условий (η > τ), при которых эквивалентность выполняется, объясняя, когда эквивалентность не работает
Операциональность: теоретические предсказания могут быть применены непосредственно путём измерения α и маргинальных меток без сложных вычислений

Экспериментальная установка

Наборы данных

Шесть эталонов, охватывающих ложные корреляции, справедливость и сдвиг распределения:

Waterbirds: классификация птиц, фоновая ложная корреляция (95% корреляция в обучении)
CelebA: предсказание цвета волос, ложная корреляция с полом
ColoredMNIST: синтетический набор данных с контролируемой корреляцией цвета и цифры
Adult Income: предсказание дохода, пол как защищённый атрибут
CivilComments-WILDS: обнаружение токсичности в популяциях
MetaShift: адаптация визуального домена с естественным сдвигом распределения

Архитектуры моделей

Тестирование трёх архитектур для оценки независимости эквивалентности от выбора архитектуры:

ResNet-50: сильное свёрточное индуктивное смещение
ViT-B/16: архитектура на основе внимания
MLP-4L: минимальная структура

Методы сравнения

ERM (эмпирическая минимизация риска): базовый уровень
GroupDRO: групповая распределённо-робастная оптимизация
DFR (переподготовка глубоких признаков): переподготовка последнего слоя
JTT (Just Train Twice): двухэтапное обучение
SPARE: раннее выявление ложных смещений

Метрики оценки

Основная метрика: точность наихудшей группы (минимум по группам (Y,A))
Вспомогательные метрики: средняя точность, условная взаимная информация B(f; D), метрики справедливости (разрыв демографического паритета, нарушение равенства возможностей)

Детали реализации

Оптимизатор: SGD, скорость обучения 0.001 (затухание 0.1 на раундах 30 и 60)
Момент: 0.9
Затухание веса: 0.0001
Размер пакета: 128
Раунды обучения: 80, ранняя остановка на основе точности наихудшей группы на валидационном наборе
Предварительное обучение: ResNet-50 предварительно обучена на ImageNet (Waterbirds, CelebA, MetaShift)
Оценка взаимной информации: использование оценивателя MINE, 5-слойный MLP, 1000 итераций обучения
Случайные семена: 3 семени (42, 123, 456)
Вычислительные ресурсы: 4 GPU NVIDIA A100 (40GB), всего ~150 GPU-часов

Результаты экспериментов

Основные результаты: производительность базовых моделей (Таблица 1)

Набор данных	ERM	GroupDRO	JTT	DFR
Waterbirds	97.2/62.3	93.1/73.8	92.8/72.1	93.5/75.2
CelebA	95.6/47.2	92.3/81.4	91.7/78.9	92.8/83.1
ColoredMNIST (α=0.95)	98.4/51.8	94.2/70.5	93.8/68.7	94.6/71.8
Adult Income	84.3/71.2	82.1/78.9	81.8/77.4	82.6/79.3
CivilComments	92.1/57.3	89.4/69.7	88.9/67.2	89.8/71.4
MetaShift	88.7/63.5	85.2/74.1	84.8/72.3	85.9/75.6

Ключевые находки:

ERM показывает огромный разрыв между средней точностью и точностью наихудшей группы (например, Waterbirds: 97.2% vs 62.3%)
Методы удаления смещений значительно улучшают производительность наихудшей группы
SPARE и DFR достигают лучших результатов на большинстве эталонов
Все записи имеют стандартное отклонение < 1.2%

Проверка эквивалентности (Таблица 2)

Пара проблем	\|B₁-B₂\|	Предсказанное ∆Acc	Наблюдаемое ∆Acc	Согласуется?
Waterbirds ↔ ColoredMNIST-0.9	0.12	2.8%	2.3%	✓
CelebA ↔ Adult (пол)	0.18	4.1%	3.7%	✓
CivilComments ↔ MetaShift	0.24	5.3%	5.8%	✓
Waterbirds ↔ ImageNet-LT	0.09	2.1%	1.9%	✓
ColoredMNIST-0.95 ↔ Imbal-10:1	0.14	3.2%	2.7%	✓
CelebA ↔ CivilComments	0.21	4.8%	5.1%	✓

Ключевые находки:

Предсказанная разница в точности совпадает с наблюдаемой в пределах 1% (все 6 пар проблем успешны)
Корреляция |B₁-B₂| с наблюдаемой разницей точности наихудшей группы: ρ = 0.94 (p < 0.01)
Проверка того, что информационно-теоретическая характеризация теоремы 2 захватывает существенные отношения

Эксперименты по переносу методов (Таблица 3)

Источник → Цель	Метод	Перенос	Обучение с нуля	Разрыв
Waterbirds → ColoredMNIST-0.9	GroupDRO	71.2%	73.8%	2.6%
Waterbirds → ColoredMNIST-0.9	DFR	73.4%	75.9%	2.5%
CelebA → Adult	GroupDRO	77.8%	79.1%	1.3%
CelebA → Adult	DFR	78.9%	80.4%	1.5%
ColoredMNIST-0.95 → Imbal-10:1	GroupDRO	68.7%	70.1%	1.4%
ColoredMNIST-0.95 → Imbal-10:1	DFR	70.3%	71.5%	1.2%

Ключевые находки:

Производительность переноса находится в пределах 2.6% от обучения с нуля (среднее снижение: 1.8%)
Проверка того, что теоретически эквивалентные проблемы разделяют достаточную структуру для прямого применения методов
Значительная экономия вычислений: перенос требует только прямого прохода, обучение с нуля требует полной оптимизации

Исследования абляции

Зависимость от перекрытия признаков (Таблица 4)

Перекрытие η	\|B₁-B₂\|	Предсказанное ∆Acc	Наблюдаемое ∆Acc
0.65	0.15	3.2%	3.5%
0.45	0.15	4.6%	5.1%
0.25	0.15	8.3%	9.2%

Находка: Плотность эквивалентности улучшается с перекрытием, соответствуя теоретическому предсказанию δ ∝ 1/η

Чувствительность архитектуры (Таблица 5)

Архитектура	Точность наихудшей группы Waterbirds	Точность наихудшей группы ColoredMNIST	∆Acc
ResNet-50	73.8%	71.2%	2.6%
ViT-B/16	72.4%	70.1%	2.3%
MLP-4L	69.7%	67.9%	1.8%

Находка: Согласованная эквивалентность между архитектурами (среднее изменение 0.8%), указывая, что явление по существу распределительное

Сила корреляции:

Систематическое варьирование силы ложной корреляции α от 0.7 до 0.99, наблюдение предсказанного эквивалентного коэффициента дисбаланса от 5.7:1 до 199:1, все предсказания проверены в пределах 4% точности наихудшей группы, подтверждая следствие 3 во всём диапазоне силы корреляции.

Связанная работа

Ложные корреляции

Глубокие сети легко используют ложные признаки, коррелирующие с метками во время обучения, но не обобщающиеся
Стандартные эталоны: Waterbirds (вид птицы и фоновая ложная корреляция), CelebA (цвет волос и пол)
Стратегии смягчения: двухэтапное обучение, переподготовка последнего слоя, раннее разделение групп

Справедливость в машинном обучении

Требование равного обращения между защищёнными группами
Общие стандарты: демографический паритет, равенство возможностей, индивидуальная справедливость
Результаты невозможности: несколько стандартов не могут быть одновременно удовлетворены

Сдвиг распределения

Модели, обученные на одном распределении, часто отказывают при развёртывании на смещённом распределении
Сдвиг подгрупп: изменение пропорций групп между обучением и тестированием
Дисбаланс классов: данные обучения доминируются большинством класса

Неявное смещение

Алгоритмы оптимизации вводят неявное смещение, определяющее, какие решения появляются во время обучения
Градиентный спуск сходится к решению с максимальным ℓ₂-margin
Adam демонстрирует неявное смещение ℓ∞-margin

Вклад данной работы

Предыдущие работы рассматривали эти явления отдельно. Данная работа впервые предоставляет формальную структуру для характеризации их эквивалентности.

Заключение и обсуждение

Основные выводы

Унифицированная перспектива: справедливость, робастность и обобщение — это различные перспективы общего распределительного вызова
Количественное предсказание: производительность наихудшей группы может быть предсказана из распределительных измерений без дорогостоящего обучения
Возможность переноса методов: методы удаления смещений, проверенные на теоретически эквивалентных проблемах, могут быть перенесены
Эмпирическая проверка: разница в точности наихудшей группы теоретически эквивалентных проблем < 3% на 18 конфигурациях проблем

Ограничения

Теоретические ограничения:

Предположение бинарной классификации: текущая теория ограничена бинарной классификацией, хотя естественно расширяется на многоклассовый случай через разложение один-против-остальных
Слабость границ: граница δ(ϵ, η) может быть слабой на практике, более плотная характеризация через неравенства концентрации остаётся открытой проблемой
Метрика наихудшей группы: фокус на метрике наихудшей группы, связь с калибровочной справедливостью и индивидуальной справедливостью заслуживает изучения

Практические граничные условия (когда эквивалентность не работает):

Недостаточное перекрытие признаков: η < τ (обычно 0.2), когда группы занимают полностью непересекающиеся области пространства признаков
Негладкие потери: 0-1 потеря нарушает предположение непрерывности (но используемая на практике кросс-энтропия удовлетворяет требованиям)
Смещение архитектуры доминирует: подавляет распределительные эффекты (исследования абляции показывают, что это редко)
Нарушение предположения условной независимости: например, ложный признак на самом деле причинный

Будущие направления

Расширение на многоклассовый случай: полная теория для многоклассовых настроек
Более плотные границы: улучшение характеризации δ(ϵ, η) через неравенства концентрации
Взаимодействие архитектуры и данных: исследование того, могут ли модификации архитектуры конструктивно компенсировать смещения данных
Причинная перспектива: интеграция причинного вывода для различения истинных причинных и ложных корреляций
Калибровочная справедливость: изучение связей с калибровкой и индивидуальной справедливостью

Более широкое влияние

Положительное влияние:

Содействие более эффективным исследованиям путём раскрытия фундаментальной эквивалентности между типами смещений
Методы, разработанные в одной области, немедленно предлагают приложения в других областях
Вероятное ускорение прогресса в справедливости и робастности

Потенциальные риски:

Предсказание эквивалентности предполагает правильную спецификацию атрибутов
Неправильная идентификация атрибутов (например, маркировка ложного признака как защищённого атрибута) может привести к неправильному переносу методов практиками
Может усилить, а не смягчить смещения

Рекомендации: Тщательный анализ распределения перед применением переноса

Глубокая оценка

Преимущества

Теоретическая инновативность
- Первое использование условной взаимной информации для унифицированной характеризации множественных типов смещений
- Предоставление вычислимых формул количественного предсказания эквивалентности
- Строгое теоретическое доказательство с явными предположениями (гладкость, перекрытие признаков)
Достаточность экспериментов
- 6 наборов данных × 3 архитектуры = 18 конфигураций для полной проверки
- Множественные исследования абляции для проверки теоретических предсказаний (перекрытие, архитектура, сила корреляции)
- 3 случайных семени, отчёты о стандартных отклонениях, тесты статистической значимости
Убедительность результатов
- Предсказания совпадают с наблюдениями в пределах 1% (таблица 2)
- Сильная корреляция ρ = 0.94 (p < 0.01) поддерживает теорию
- Успешный перенос методов (среднее снижение всего 1.8%)
Практическая ценность
- Предоставление операциональных инструментов диагностики
- Значительная экономия вычислений (перенос vs обучение с нуля)
- Принципиальное руководство для переноса методов между сообществами
Ясность изложения
- Ясная мотивация, чёткое определение проблемы
- Пошаговое развитие теоретической структуры
- Полное приложение с доказательствами и деталями реализации
- Полный контрольный список NeurIPS

Недостатки

Ограничения методов
- Ограничение бинарной классификацией: несмотря на утверждения авторов о расширяемости, полная теория и эксперименты для многоклассового случая не предоставлены
- Слабость границ: δ(ϵ, η) = O(√ϵ/η) может быть слабой на практике, ограничивая точность предсказания
- Бинаризация атрибутов: предположение A ∈ {0,1} чрезмерно упрощает многие практические сценарии
Дефекты экспериментальной установки
- Ограниченная проверка переноса методов: только 3 пары проблем (таблица 3) по сравнению с 18 конфигурациями для проверки эквивалентности
- Ограниченное покрытие архитектур: только 3 архитектуры, отсутствуют более разнообразные индуктивные смещения (варианты Transformer, графические нейронные сети)
- Отсутствие случаев отказа: не показаны случаи, когда предсказание эквивалентности не работает, и анализ причин
Недостаточный анализ
- Порог перекрытия признаков τ: теория требует η > τ, но не даёт руководства по выбору τ на практике
- Причина vs корреляция: недостаточное обсуждение различения истинных причинных признаков и ложных корреляций
- Ошибка оценки взаимной информации: использование оценивателя MINE, но не количественно определена ошибка оценки на предсказания
Проблемы воспроизводимости
- Код обещан к выпуску после публикации, недоступен во время рецензирования
- Некоторые детали экспериментов отсутствуют (например, конкретные гиперпараметры оценивателя MINE)

Влияние

Вклад в область
- Пионерская работа: первое установление формальных отношений эквивалентности между справедливостью, робастностью и сдвигом распределения
- Роль моста: соединение трёх независимых исследовательских сообществ, содействие кросс-доменному сотрудничеству
- Методологический вклад: информационно-теоретическая перспектива может вдохновить унифицированный анализ других проблем машинного обучения
Практическая ценность
- Инструмент диагностики: практики могут диагностировать тип смещения путём измерения B(f; D)
- Руководство по выбору методов: выбор зрелых методов смягчения на основе эквивалентности
- Эффективность вычислений: перенос методов значительно снижает вычислительные затраты
Воспроизводимость
- Подробная экспериментальная установка (приложение B)
- Использование стандартных открытых наборов данных
- Обещание выпуска кода
- Но недоступно для проверки во время рецензирования
Потенциальная ценность цитирования
- Теоретическая структура может стать основой для последующих исследований
- Формулы предсказания эквивалентности могут быть широко цитируемы
- Парадигма переноса методов может вдохновить новые направления исследований

Применимые сценарии

Подходящие сценарии:

Диагностика смещения: когда модель показывает снижение производительности наихудшей группы, необходимо определить коренную причину
Выбор методов: когда доступны несколько методов удаления смещений, выбор наиболее зрелого на основе эквивалентности
Быстрое прототипирование: при ограниченных ресурсах быстрая проверка идей через перенос вместо обучения с нуля
Кросс-доменное приложение: применение существующих методов справедливости/робастности в новых областях

Неподходящие сценарии:

Сложные многоклассовые проблемы: превышение бинарной классификации со сложными отношениями между классами
Экстремальное разделение признаков: подгруппы полностью не пересекаются в пространстве признаков (η < 0.2)
Критическая причинная структура: необходимость различения причинных и коррелирующих отношений
Нестандартные потери: использование негладких функций потерь (например, некоторые потери ранжирования)

Рекомендации по применению:

Сначала измерить перекрытие признаков η и условную взаимную информацию B(f; D)
Проверить, что предположения гладкости выполняются для целевой проблемы
Тщательно определить атрибут A (различить защищённые атрибуты, ложные признаки, индикаторы домена)
Проверить предсказание эквивалентности в малых экспериментах перед крупномасштабным применением
Мониторить производительность после переноса, при необходимости выполнить тонкую настройку

Библиография

Ключевые цитируемые работы включают:

Sagawa et al. (2020) - метод GroupDRO и эталон Waterbirds
Geirhos et al. (2020) - обучение ярлыкам в глубоких сетях
Hardt et al. (2016) - равенство возможностей в контролируемом обучении
Koh et al. (2021) - эталон WILDS сдвига распределения в дикой природе
Kirichenko et al. (2022) - переподготовка последнего слоя (DFR)
Liu et al. (2021) - метод Just Train Twice (JTT)

Общая оценка: Это высококачественная работа, сочетающая теорию и эмпирику, с пионерским вкладом в область исследования смещений в машинном обучении. Теоретическая структура элегантна и практична, экспериментальная проверка достаточна. Основное ограничение — предположение бинарной классификации и отсутствие расширения на многоклассовый случай. Для топовой конференции, такой как NeurIPS, это сильная статья, достойная принятия, с прогнозируемым значительным влиянием и вдохновением для последующих исследований. Рекомендуется авторам в окончательной версии дополнить больше экспериментов по переносу методов и анализом случаев отказа, а также предоставить практическое руководство по выбору порога перекрытия признаков τ.