Название: Active Learning of General Halfspaces: Label Queries vs Membership Queries
Авторы: Ilias Diakonikolas (University of Wisconsin-Madison), Daniel M. Kane (University of California, San Diego), Mingchen Ma (University of Wisconsin-Madison)
В данной работе исследуется проблема обучения общих (неоднородных) полупространств на гауссовском распределении Rd, рассматриваются два режима доступа к запросам. В классической модели активного обучения на основе пула алгоритм может выполнять адаптивные запросы меток для предварительно выбранных точек. Авторы устанавливают сильные информационно-теоретические нижние границы, исключающие нетривиальные улучшения по сравнению с пассивным режимом. Конкретно, любой активный обучающийся требует сложность меток Ω~(d/(log(m)ϵ)), где m — количество немеченых образцов. Чтобы превзойти сложность меток пассивного обучения O~(d/ϵ), активный обучающийся нуждается в 2poly(d) немеченых образцах. С положительной стороны, авторы доказывают, что эту нижнюю границу можно обойти с помощью доступа к запросам членства, даже в агностическом режиме. Конкретно, предоставляется вычислительно эффективный обучающийся с сложностью запросов O~(min{1/p,1/ϵ}+d⋅polylog(1/ϵ)), достигающий гарантии ошибки O(opt)+ϵ.
В данной работе исследуется проблема обучения общих полупространств при гауссовском распределении. Полупространство (или линейная пороговая функция LTF) — это функция вида h(x)=sign(w⋅x+t), где w∈Sd−1 — вектор весов, t — порог. При t=0 полупространство называется однородным.
Теоретический пробел: Для однородных полупространств известно, что активное обучение может достичь сложность меток O(dlog(1/ϵ)), но остаётся открытым вопрос о существовании аналогичных улучшений для общих полупространств.
Практическая значимость: Обучение полупространствам — классическая проблема машинного обучения, имеющая важное значение от алгоритма персептрона до SVM и AdaBoost.
Сравнение моделей запросов: Необходимо глубокое понимание различий в возможностях активного обучения (запросы меток) и запросов членства.
Сильные информационно-теоретические нижние границы: Доказано, что любой алгоритм активного обучения требует сложность меток Ω~(d/(log(m)ϵ)), где m — количество немеченых образцов
Верхние границы для запросов членства: Предоставлен вычислительно эффективный алгоритм с сложностью запросов O~(min{1/p,1/ϵ}+d⋅polylog(1/ϵ))
Разделение моделей: Установлено сильное разделение между моделями активного обучения и запросов членства
Характеризация сложности: Полностью охарактеризована сложность обучения общих полупространств при гауссовском маргинальном распределении
Вход: Доступ к помеченной функции y(x):Rd→{±1}, целевое распределение N(0,I)Выход: Полупространство h^(x)=sign(w^⋅x+t^)Цель: Минимизировать частоту ошибок err(h^)=Prx∼N(0,I)(h^(x)=y(x))
Если можно обучить полупространство со скоростью ошибок p/2 с помощью небольшого количества запросов, то путём случайного разбиения набора образцов можно использовать первую часть для обучения полупространству и вторую часть для поиска d отрицательных образцов с O(d) ожидаемыми запросами.
Лемма 2.1: Если существует алгоритм активного обучения, который использует r запросов меток для обучения полупространству со смещением p до частоты ошибок p/2, то существует алгоритм, использующий r+O(d) запросов для поиска d отрицательных образцов из 2m образцов.
Лемма 2.2: Для матрицы A∈Rk×d, если ∥AAT−dI∥2≤O(d/(t∗)2), то вероятность того, что случайное полупространство пометит все k образцов как отрицательные, составляет не более O(plog(1/p))k.
Данная работа является преимущественно теоретической, устанавливая границы сложности посредством математических доказательств, а не эмпирических экспериментов.
Теорема 1.1: Для любого алгоритма активного обучения A существует полупространство h∗ со смещением p такое, что если A выполняет менее чем Ω~(d/(plog(m))) запросов меток на m независимых гауссовских образцах, то с вероятностью не менее 2/3 выводит гипотезу с частотой ошибок, превышающей p/2.
Следствие: Чтобы превзойти сложность пассивного обучения O~(d/ϵ), требуется 2poly(d) немеченых образцов.
Теорема 1.2: Существует алгоритм, использующий O~(min{1/p,1/ϵ}+d⋅polylog(1/ϵ)) запросов членства, время выполнения poly(d,M), выводящий гипотезу с частотой ошибок не более O(opt)+ϵ.
Практические приложения, связанные с полупространствами
Данная работа представляет собой важный вклад в теорию активного обучения, раскрывая через строгий математический анализ существенные различия между различными моделями запросов и закладывая прочную основу для теоретического развития этой области.