Compressibility Measures Complexity: Minimum Description Length Meets Singular Learning Theory
Urdshals, Lau, Hoogland et al.
We study neural network compressibility by using singular learning theory to extend the minimum description length (MDL) principle to singular models like neural networks. Through extensive experiments on the Pythia suite with quantization, factorization, and other compression techniques, we find that complexity estimates based on the local learning coefficient (LLC) are closely, and in some cases, linearly correlated with compressibility. Our results provide a path toward rigorously evaluating the limits of model compression.
academic
Сжимаемость измеряет сложность: принцип минимальной длины описания встречается с теорией сингулярного обучения
В данной статье принцип минимальной длины описания (Minimum Description Length, MDL) расширяется на сингулярные модели, такие как нейронные сети, с использованием теории сингулярного обучения (Singular Learning Theory, SLT). Исследуется сжимаемость нейронных сетей посредством крупномасштабных экспериментов с применением методов квантизации и факторизации на наборе моделей Pythia. Обнаружено, что оценки сложности, основанные на локальном коэффициенте обучения (Local Learning Coefficient, LLC), высоко коррелируют со сжимаемостью, в некоторых случаях демонстрируя линейную зависимость. Результаты исследования предоставляют теоретический путь для строгой оценки пределов сжатия модели.
Центральная проблема, которую решает данная статья, заключается в том, как теоретически измерить сложность нейросетевых моделей, особенно различить два режима обучения: "запоминание обучающих данных" и "обнаружение универсальных решений". Традиционные методы не могут определить только по функции потерь, действительно ли модель приобрела способность к обобщению.
Экономический стимул: Сжатие модели напрямую влияет на стоимость вывода. Сокращение памяти модели вдвое может удвоить её операционную ценность, что стимулирует значительные частные инвестиции в НИОКР
Теоретический пробел: Существующие методы сжатия лишены прочной теоретической базы, особенно в понимании пределов сжатия
Значение для безопасности: Понимание пределов сжатия имеет значение для безопасности при оценке информационных требований для передачи способностей модели
Ограничения классического MDL: Традиционный MDL предполагает, что модель является "регулярной" (отображение параметров в распределения взаимно однозначно, матрица информации Фишера невырождена), но нейронные сети нарушают эти предположения
Эвристические методы: Существующие методы сжатия (например, обрезка на основе спектра гессиана) лишены теоретической основы
Парадокс размерности: "Эффективная размерность" нейронной сети намного меньше количества параметров, но отсутствует строгое теоретическое объяснение
Принцип сингулярного MDL: Расширение принципа MDL на нейронные сети с использованием теории сингулярного обучения, доказательство существования двухчастного кодирования, асимптотическая избыточность которого включает локальный коэффициент обучения (LLC)
Мост между теорией и практикой: Установление теоретической связи между LLC и практическими методами сжатия (квантизация, факторизация)
Эмпирическая верификация: Проверка линейной зависимости между LLC и сжимаемостью на моделях серии Pythia (максимум 6,9B параметров) с R²≥0,98
Структура для оценки пределов сжатия: Предоставление теоретической структуры для строгой оценки пределов сжатия модели
Для заданного допуска потерь ε>0 и параметра схемы сжатия P найти максимальное сжатие P_max такое, чтобы потери увеличились с исходного значения L до порога L+ε. Сжимаемость определяется как максимальное количество сжатия, которое может быть допущено.
Пространство выборок X (конечное), распределение генерации данных q^(n) ∈ Δ(X^n)
Параметризованная статистическая модель M = {p_w^(n) ∈ Δ(X^n) | w ∈ W ⊂ ℝ^d}
Двухчастное кодирование: сначала отправляется представление кодирующего распределения p ⟦p⟧, затем отправляются данные, закодированные с помощью p ⟦x^(n)⟧_p
Основная теорема (Теорема 1):
Существует двухчастное кодирование такое, что для любого реализуемого распределения генерации данных q ∈ M асимптотическая избыточность равна:
Кодирование, ориентированное на объём: В отличие от традиционного равномерного распределения, более короткие коды назначаются гипотезам, занимающим больший объём параметров
Обработка сингулярности: Обработка вырожденной геометрической структуры нейронных сетей посредством теоремы о разрешении особенностей
Локальный коэффициент обучения: Использование LLC λ(w*) и кратности m(w*) для характеристики геометрических свойств локальных минимумов
Для сжатия квантизацией устанавливается условие объёма:
Vol(C_h) ≤ V(ε)
то есть объём единицы квантизации ≤ объём ε-подуровневого множества.
Получается бюджет бит на координату:
b*(ε) = λ(w*)/d · log₂(1/ε) + O(log log(1/ε)/d)
Ключевое понимание: Критическое количество бит растёт линейно с LLC. Чем больше LLC (меньше вырождение), тем больше бит требуется для поддержания точности.
Возможные систематические отклонения между оценками и истинными значениями
Предположение о независимости и одинаковом распределении: Теоретическая структура предполагает i.i.d., но языковое моделирование нарушает это предположение
Вычислительные затраты: Одна оценка LLC для Pythia-6.9B требует примерно 3,5 часов на GPU H200