Unveiling low-dimensional patterns induced by convex non-differentiable regularizers
Hejný, Wallin, Bogdan et al.
Popular regularizers with non-differentiable penalties, such as Lasso, Elastic Net, Generalized Lasso, or SLOPE, reduce the dimension of the parameter space by inducing sparsity or clustering in the estimators' coordinates. In this paper, we focus on linear regression and explore the asymptotic distributions of the resulting low-dimensional patterns when the number of regressors $p$ is fixed, the number of observations $n$ goes to infinity, and the penalty function increases at the rate of $\sqrt{n}$. While the asymptotic distribution of the rescaled estimation error can be derived by relatively standard arguments, convergence of patterns requires a separate proof, which is yet missing from the literature, even for the simplest case of Lasso. To fill this gap, we use the Hausdorff distance as a suitable mode of convergence for subdifferentials, resulting in the desired pattern convergence. Furthermore, we derive the exact limiting probability of recovering the true model pattern. This probability goes to 1 if and only if the penalty scaling constant diverges to infinity and the regularizer-specific asymptotic irrepresentability condition is satisfied. We then propose simple two-step procedures that asymptotically recover the model patterns, irrespective of whether the irrepresentability condition holds or not.
Interestingly, our theory shows that Fused Lasso cannot reliably recover its own clustering pattern, even for independent regressors. It also demonstrates how this problem can be resolved by "concavifying" the Fused Lasso penalty coefficients. Additionally, sampling from the asymptotic error distribution facilitates comparisons between different regularizers. We provide short simulation studies showcasing an illustrative comparison between the asymptotic properties of Lasso, Fused Lasso, and SLOPE.
В данной работе исследуются асимптотические свойства популярных регуляризаторов с недифференцируемыми штрафными функциями (такими как Lasso, Elastic Net, Generalized Lasso или SLOPE) в линейной регрессии. Эти регуляризаторы снижают размерность пространства параметров путём индуцирования разреженности или кластеризации в координатах оценивателя. Статья сосредоточена на асимптотическом распределении при фиксированном числе регрессионных переменных p, числе наблюдений n, стремящемся к бесконечности, и штрафной функции, растущей со скоростью √n. Хотя асимптотическое распределение переномасштабированной ошибки оценивания может быть получено относительно стандартными методами, сходимость закономерностей требует отдельного доказательства, которое до сих пор отсутствует в литературе. В работе используется расстояние Хаусдорфа как подходящий режим сходимости субдифференциалов, что позволяет достичь требуемой сходимости закономерностей и вывести точные предельные вероятности восстановления истинной закономерности модели.
Отсутствие теории сходимости закономерностей: Хотя теория асимптотического распределения регуляризованных оценивателей относительно развита, строгое математическое доказательство сходимости закономерностей отсутствует в литературе, даже для простейшего случая Lasso.
Вероятностная характеризация выбора модели: Необходимо точно охарактеризовать вероятность того, что регуляризованные методы восстанавливают истинную структуру модели (разреженность или закономерности кластеризации), особенно при классическом масштабировании штрафа √n.
Ограничения условия необратимости: Существующие результаты о состоятельности выбора модели обычно зависят от строгих условий необратимости, что ограничивает применимость методов.
Проблема разрывности: Разрывность функций, связанных с закономерностями, таких как функция знака, делает неприменимой теорему о непрерывном отображении
Неясные режимы сходимости: Существующая теория не гарантирует слабую сходимость закономерностей
Специфичность методов: Отсутствие единого каркаса для обработки различных типов регуляризаторов
Установлена теория слабой сходимости закономерностей: Использование расстояния Хаусдорфа обеспечило подходящий режим сходимости для субдифференциалов, доказана слабая сходимость закономерностей для регуляризаторов вида f(β) = max{v₁ᵀβ,...,vₖᵀβ} + g(β).
Выведены точные вероятности восстановления закономерностей: Предоставлены явные формулы для предельных вероятностей восстановления истинной закономерности и охарактеризованы асимптотические условия необратимости.
Предложена двухэтапная процедура восстановления: Разработан двухэтапный процесс, не зависящий от условий необратимости, способный асимптотически восстанавливать закономерности модели.
Раскрыты ограничения Fused Lasso: Доказано, что даже при независимых регрессионных переменных Fused Lasso не может надёжно восстановить собственные закономерности кластеризации, предложено решение путём "вогнутизации".
Предоставлен единый сравнительный каркас: Через выборку из асимптотического распределения ошибок реализовано количественное сравнение различных регуляризаторов.
Предложение 4.4 доказывает, что для C = I скорректированный Fused Lasso может асимптотически восстановить все закономерности тогда и только тогда, когда:
(0, a₁, ..., aₚ₋₁, 0) образуют строго вогнутую последовательность
разреженный штраф a > max{aᵢ + aᵢ₊₁ : 0 ≤ i ≤ p-1}
Статья цитирует 29 соответствующих работ, охватывающих важные исследования в области теории регуляризации, выпуклого анализа, статистического обучения и других областей, обеспечивая прочную теоретическую основу для исследования.