In this paper we will give a characterization of the learnability of forgiving 0-1 loss functions in the finite label multiclass setting. To do this, we create a new combinatorial dimension that is based off of the Natarajan Dimension and we show that a hypothesis class is learnable in our setting if and only if this Generalized Natarajan Dimension is finite. We also show a connection to learning with set-valued feedback. Through our results we show that the learnability of a set learning problem is characterized by the Natarajan Dimension.
- ID статьи: 2510.08382
- Название: Characterizing the Multiclass Learnability of Forgiving 0-1 Loss Functions
- Авторы: Jacob Trauger (Университет Мичигана), Tyson Trauger (Университет штата Огайо), Ambuj Tewari (Университет Мичигана)
- Классификация: cs.LG (Машинное обучение), stat.ML (Статистика - Машинное обучение)
- Дата публикации: Октябрь 2025 г. (препринт arXiv)
- Ссылка на статью: https://arxiv.org/abs/2510.08382
В данной работе представлена характеризация обучаемости прощающих функций потерь 0-1 в условиях многоклассовой классификации с конечными метками. Авторы создают новое комбинаторное измерение на основе размерности Натараяна и доказывают, что класс гипотез обучаем в этом контексте тогда и только тогда, когда это обобщённое измерение Натараяна конечно. Статья также демонстрирует связь с обучением с множественнозначной обратной связью, показывая, что обучаемость задач множественного обучения характеризуется размерностью Натараяна.
В теории машинного обучения характеризация обучаемости задач классификации является центральной проблемой. Для бинарной классификации размерность VC полностью характеризует PAC-обучаемость; для многоклассовой классификации в условиях конечных меток размерность Натараяна играет аналогичную роль. Однако все эти теории основаны на стандартной функции потерь 0-1, которая обладает свойством "тождественности неразличимых" (Identity of Indiscernibles), то есть потери равны нулю тогда и только тогда, когда две метки равны.
В практических приложениях часто требуются более "прощающие" функции потерь, например:
- Задачи переформулирования предложений: несколько различных предложений могут быть корректными переформулировками
- Пороговые метрики: выходные данные в определённом диапазоне порога считаются приемлемыми
- Обучение с множественнозначной обратной связью: предсказанный результат должен находиться в заданном наборе
В этих сценариях несколько различных выходов могут давать нулевые потери для одной истинной метки, нарушая фундаментальные предположения традиционной теории.
Существующие теории обучаемости (размерность VC, размерность Натараяна и т.д.) неявно связывают равенство меток со значением потерь. Когда функция потерь не удовлетворяет свойству тождественности неразличимых, эти теории больше не применимы, требуя новой теоретической базы для характеризации обучаемости.
- Предложение обобщённой размерности Натараяна: создание нового комбинаторного измерения на основе размерности Натараяна, применимого к прощающим функциям потерь 0-1
- Полная характеризация обучаемости: доказательство того, что класс гипотез PAC-обучаем при прощающих потерях 0-1 тогда и только тогда, когда обобщённая размерность Натараяна конечна
- Решение задачи множественного обучения: первая характеризация обучаемости множественнозначной обратной связи в пакетном режиме
- Установление теоретической базы: создание систематической теории обучения для функций потерь, не удовлетворяющих свойству тождественности неразличимых
Пространство входов: X (произвольное пространство входов)
Пространство выходов: Y=[k] (конечный набор меток, ∣Y∣=k)
Класс гипотез: H⊂YXФункция потерь: ℓ:Y×Y→{0,1}, удовлетворяющая следующим ограничениям:
- Бинарность: ∀y1,y2∈Y,ℓ(y1,y2)∈{0,1}
- Симметричность: ∀y1,y2∈Y,ℓ(y1,y2)=ℓ(y2,y1)
- Отсутствие включения: ∀y1,y2∈Y,σ(y1)⊂σ(y2)
- Рефлексивность: ∀y∈Y,ℓ(y,y)=0
где σ(y)={y′∣ℓ(y,y′)=0} обозначает набор всех меток, которые дают нулевые потери для y.
Определение 4 (Обобщённая размерность Натараяна):
Класс гипотез H и функция потерь ℓ обобщённо-Натараяна-дробят множество S={s1,...,sn}, если существуют h1,h2∈H такие, что:
- Условие разделения: ∀si∈S,σ(h1(si))=σ(h2(si))
- Условие реализации: ∀S′⊆S, существует h∈H такой, что:
- ∀s∈S′:σ(h(s))=σ(h1(s))
- ∀s∈S∖S′:σ(h(s))=σ(h2(s))
Обобщённая размерность Натараяна GNdim(H,ℓ) — это мощность максимального множества, которое может быть обобщённо-Натараяна-дроблено H.
Ключевое наблюдение: через функцию σ определяется отношение эквивалентности y∼y′⇔σ(y)=σ(y′), преобразуя исходную задачу в стандартную задачу многоклассового обучения на факторпространстве YC=Y/∼.
Лемма 1: Функция потерь уважает отношение эквивалентности, то есть если y1∼y1′ и y2∼y2′, то ℓ(y1,y2)=ℓ(y1′,y2′).
Следствие 1: Исходная задача обучения (X,Y,H,ℓ) эквивалентна задаче обучения на факторпространстве (X,YC,HC,ℓC).
Следствие 2: GNdim(H,ℓ)=Ndim(HC)
Теорема 1 (Основной результат): Задача обучения (X,Y,H,ℓ) PAC-обучаема тогда и только тогда, когда GNdim(H,ℓ)<∞.
Необходимость (Лемма 2):
- Применяется доказательство от противного, предполагая GNdim(H,ℓ)=∞
- Конструируется семейство противоположных распределений, при которых любой алгоритм обучения работает плохо на некотором распределении
- Используется свойство дробления для построения сложного семейства функций на 2m точках
- Через вероятностное рассуждение доказывается существование реализующего распределения, при котором потери любого алгоритма составляют по крайней мере 2k1
Достаточность (Лемма 3):
- Используется построение эквивалентной задачи обучения
- Исходные потери разлагаются как линейная комбинация k стандартных потерь 0-1: 1−LD(h)=∑i=1k(1−LDi(h))
- Поскольку HC имеет конечную размерность Натараяна, она обладает свойством равномерной сходимости
- Через объединённую границу доказывается эффективность алгоритма ERM
Данная работа является чисто теоретической, основываясь на математических доказательствах для проверки теоретических результатов, без традиционной экспериментальной установки. Теоретическая проверка проводится следующим образом:
- Конструктивное доказательство: доказательство необходимости через построение конкретных противоположных распределений
- Доказательство через редукцию: сведение сложной задачи к известным стандартным задачам многоклассового обучения
- Анализ размерности: характеризация обучаемости через конечность комбинаторной размерности
Статья проверяет действенность теории на задачах множественного обучения, конструируя конкретные матрицы потерь для демонстрации применимости теории.
Завершение доказательства Теоремы 1: успешно доказано, что обобщённая размерность Натараяна полностью характеризует PAC-обучаемость при прощающих функциях потерь 0-1.
Характеризация множественного обучения (Следствие 3):
Для задачи множественного обучения, где функция потерь определяется как:
ℓ(y,v)={01y∈vиначе
доказано, что обучаемость этой задачи характеризуется стандартной размерностью Натараяна, то есть GNdim(H,ℓ)=Ndim(H).
- Сохранение свойств размерности: во многих случаях, даже когда функция потерь становится более прощающей, сложность обучения (измеряемая размерностью) может остаться неизменной
- Существование противоположных распределений: строгость PAC-обучения означает, что даже если функция потерь в основном равна нулю, могут существовать распределения, затрудняющие обучение
- Важность факторпространства: через надлежащие отношения эквивалентности сложные задачи обучения могут быть сведены к стандартным задачам
- VC-теория: Vapnik & Chervonenkis (1974) — основополагающая работа по теории обучаемости для бинарной классификации
- Размерность Натараяна: Natarajan (1989) — расширение теории на многоклассовую классификацию
- DS-размерность: Daniely & Shalev-Shwartz (2014) — работа с бесконечными наборами меток
- Частичные классы концепций: Alon et al. (2022) — исследование частично определённых классов концепций
- Многовыходное обучение: Raman et al. (2024) — характеризация задач многовыходного обучения
- Онлайн-обучение с множественнозначной обратной связью: Raman et al. (2024) — исследование множественнозначной обратной связи в онлайн-режиме
Данная работа заполняет пробел в теории прощающих функций потерь в пакетном режиме, в частности, впервые систематически рассматривая функции потерь, не удовлетворяющие свойству тождественности неразличимых.
- Полная характеризация: обобщённая размерность Натараяна полностью характеризует PAC-обучаемость при прощающих функциях потерь 0-1
- Решение задачи множественного обучения: впервые полностью характеризована обучаемость множественного обучения в пакетном режиме
- Теоретическое объединение: установлена единая теоретическая база для функций потерь, не удовлетворяющих свойству тождественности неразличимых
- Предположение о симметричности: текущая теория требует симметричности функции потерь, что может быть чрезмерно строгим предположением
- Ограничение конечными метками: теория применима только к случаям с конечными метками; расширение на бесконечные метки остаётся открытым вопросом
- Анализ скорости обучения: хотя характеризована обучаемость, анализ того, как скорость обучения зависит от прощающести функции потерь, отсутствует
- Снятие предположения о симметричности: исследование обучаемости при асимметричных функциях потерь
- Расширение на бесконечные метки: аналогично расширению DS-размерности для размерности Натараяна
- Анализ скорости обучения: исследование зависимости сложности выборки от степени прощающести функции потерь
- Разработка алгоритмов: проектирование эффективных алгоритмов обучения, специализированных для прощающих функций потерь
- Высокая теоретическая новизна: впервые систематически рассмотрены функции потерь, не удовлетворяющие свойству тождественности неразличимых, заполняя важный теоретический пробел
- Математическая строгость: доказательства полны и строги, особенно техника редукции сложных задач к известным задачам через факторпространство весьма остроумна
- Высокая практическая ценность: решение теоретических основ множественного обучения и других практических задач имеет важное прикладное значение
- Ясное изложение: структура статьи логична, математическая нотация точна, содержание легко понять и проверить
- Ограничивающие предположения: предположения о симметричности и конечности меток ограничивают применимость теории
- Отсутствие алгоритмического анализа: хотя доказана эффективность ERM, глубокий анализ конкретного проектирования и оптимизации алгоритмов отсутствует
- Недостаточная экспериментальная проверка: как чисто теоретическая работа, не хватает проверки на реальных наборах данных и практических приложений
- Неполный анализ сложности: отсутствуют конкретные границы сложности выборки
- Значительный теоретический вклад: открывает новое направление исследований в теории обучения, ожидается, что вызовет множество последующих исследований
- Значительная практическая ценность: предоставляет теоретическую основу для множественного обучения, многометочной классификации и других практических задач
- Хорошая воспроизводимость: теоретические результаты полностью основаны на математических доказательствах, обладают идеальной воспроизводимостью
- Высокая вдохновляющая ценность: предложенные технические методы (построение факторпространства, отношения эквивалентности и т.д.) могут быть применены к другим задачам теории обучения
- Множественнозначное предсказание: системы рекомендаций, поиск информации и другие сценарии, требующие возврата набора кандидатов
- Многометочная классификация: классификация текстов, аннотирование изображений и другие задачи, допускающие несколько правильных ответов
- Робастное обучение: сценарии обучения, требующие толерантности к шуму в метках
- Приблизительное обучение: задачи предсказания, допускающие определённую степень приближения
Статья цитирует важные работы в области теории обучения, включая:
- Vapnik & Chervonenkis (1974): основополагающая работа VC-теории
- Natarajan (1989): важный вклад в теорию многоклассового обучения
- Shalev-Shwartz & Ben-David (2014): учебник современной теории обучения
- Недавние работы, такие как Daniely et al., Brukhim et al., Raman et al. и др.
Общая оценка: Это высококачественная теоретическая работа, вносящая значительный вклад в область теории обучения. Несмотря на некоторые ограничивающие предположения, она открывает новое направление исследований и имеет важное теоретическое и практическое значение.