2025-11-18T04:52:13.672359

Compressibility Measures Complexity: Minimum Description Length Meets Singular Learning Theory

Urdshals, Lau, Hoogland et al.

We study neural network compressibility by using singular learning theory to extend the minimum description length (MDL) principle to singular models like neural networks. Through extensive experiments on the Pythia suite with quantization, factorization, and other compression techniques, we find that complexity estimates based on the local learning coefficient (LLC) are closely, and in some cases, linearly correlated with compressibility. Our results provide a path toward rigorously evaluating the limits of model compression.

academic

Сжимаемость измеряет сложность: принцип минимальной длины описания встречается с теорией сингулярного обучения

Основная информация

ID статьи: 2510.12077
Название: Compressibility Measures Complexity: Minimum Description Length Meets Singular Learning Theory
Авторы: Einar Urdshals, Edmund Lau, Jesse Hoogland, Stan van Wingerden, Daniel Murfet
Классификация: stat.ML cs.LG
Дата публикации: 15 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.12077

Аннотация

В данной статье принцип минимальной длины описания (Minimum Description Length, MDL) расширяется на сингулярные модели, такие как нейронные сети, с использованием теории сингулярного обучения (Singular Learning Theory, SLT). Исследуется сжимаемость нейронных сетей посредством крупномасштабных экспериментов с применением методов квантизации и факторизации на наборе моделей Pythia. Обнаружено, что оценки сложности, основанные на локальном коэффициенте обучения (Local Learning Coefficient, LLC), высоко коррелируют со сжимаемостью, в некоторых случаях демонстрируя линейную зависимость. Результаты исследования предоставляют теоретический путь для строгой оценки пределов сжатия модели.

Исследовательский контекст и мотивация

Основная проблема

Центральная проблема, которую решает данная статья, заключается в том, как теоретически измерить сложность нейросетевых моделей, особенно различить два режима обучения: "запоминание обучающих данных" и "обнаружение универсальных решений". Традиционные методы не могут определить только по функции потерь, действительно ли модель приобрела способность к обобщению.

Значимость проблемы

Экономический стимул: Сжатие модели напрямую влияет на стоимость вывода. Сокращение памяти модели вдвое может удвоить её операционную ценность, что стимулирует значительные частные инвестиции в НИОКР
Теоретический пробел: Существующие методы сжатия лишены прочной теоретической базы, особенно в понимании пределов сжатия
Значение для безопасности: Понимание пределов сжатия имеет значение для безопасности при оценке информационных требований для передачи способностей модели

Ограничения существующих методов

Ограничения классического MDL: Традиционный MDL предполагает, что модель является "регулярной" (отображение параметров в распределения взаимно однозначно, матрица информации Фишера невырождена), но нейронные сети нарушают эти предположения
Эвристические методы: Существующие методы сжатия (например, обрезка на основе спектра гессиана) лишены теоретической основы
Парадокс размерности: "Эффективная размерность" нейронной сети намного меньше количества параметров, но отсутствует строгое теоретическое объяснение

Основные вклады

Принцип сингулярного MDL: Расширение принципа MDL на нейронные сети с использованием теории сингулярного обучения, доказательство существования двухчастного кодирования, асимптотическая избыточность которого включает локальный коэффициент обучения (LLC)
Мост между теорией и практикой: Установление теоретической связи между LLC и практическими методами сжатия (квантизация, факторизация)
Эмпирическая верификация: Проверка линейной зависимости между LLC и сжимаемостью на моделях серии Pythia (максимум 6,9B параметров) с R²≥0,98
Структура для оценки пределов сжатия: Предоставление теоретической структуры для строгой оценки пределов сжатия модели

Подробное описание методов

Определение задачи

Для заданного допуска потерь ε>0 и параметра схемы сжатия P найти максимальное сжатие P_max такое, чтобы потери увеличились с исходного значения L до порога L+ε. Сжимаемость определяется как максимальное количество сжатия, которое может быть допущено.

Теоретическая структура

Принцип сингулярного MDL

Установка:

Пространство выборок X (конечное), распределение генерации данных q^(n) ∈ Δ(X^n)
Параметризованная статистическая модель M = {p_w^(n) ∈ Δ(X^n) | w ∈ W ⊂ ℝ^d}
Двухчастное кодирование: сначала отправляется представление кодирующего распределения p ⟦p⟧, затем отправляются данные, закодированные с помощью p ⟦x^(n)⟧_p

Основная теорема (Теорема 1): Существует двухчастное кодирование такое, что для любого реализуемого распределения генерации данных q ∈ M асимптотическая избыточность равна:

R_n = λ log n - (m-1) log log n + O_p(1)

где λ — коэффициент обучения, m — кратность.

Ключевые технические инновации

Кодирование, ориентированное на объём: В отличие от традиционного равномерного распределения, более короткие коды назначаются гипотезам, занимающим больший объём параметров
Обработка сингулярности: Обработка вырожденной геометрической структуры нейронных сетей посредством теоремы о разрешении особенностей
Локальный коэффициент обучения: Использование LLC λ(w*) и кратности m(w*) для характеристики геометрических свойств локальных минимумов

Вывод соотношения сжатия

Для сжатия квантизацией устанавливается условие объёма:

Vol(C_h) ≤ V(ε)

то есть объём единицы квантизации ≤ объём ε-подуровневого множества.

Получается бюджет бит на координату:

b*(ε) = λ(w*)/d · log₂(1/ε) + O(log log(1/ε)/d)

Ключевое понимание: Критическое количество бит растёт линейно с LLC. Чем больше LLC (меньше вырождение), тем больше бит требуется для поддержания точности.

Метод оценки LLC

Использование предусловленной стохастической динамики Ланжевена (pSGLD) для оценки:

λ̂(w*) = nβ[E^β_{w|w*,γ}[L_n(w)] - L_n(w*)]

где математическое ожидание основано на апостериорном распределении Гиббса:

p(w|w*, β, γ) ∝ exp{-nβL_n(w) - γ/2||w-w*||₂²}

Экспериментальная установка

Наборы данных

Набор моделей Pythia: Трансформер-модели с параметрами от 14M до 6,9B
Обучающие данные: Набор данных Pile, все модели обучены на одних и тех же данных в одном порядке
Контрольные точки: От 2k до 90k шагов обучения (исключены нестабильные контрольные точки на поздних этапах)

Методы сжатия

Симметричная квантизация:
- Квантизация параметров в n_q равномерно распределённых значений
- Оптимизация параметра обрезания m для минимизации потерь после квантизации
- Измерение критического n_q* для достижения порога потерь ε
Факторизация тензоров:
- SVD-разложение матриц весов W ← U×S×V
- Усечение фиксированной доли сингулярных значений
- Исключение первого, последнего и последовательных слоёв
Другие методы: Добавление гауссова шума, структурированная обрезка

Метрики оценки

Сжимаемость: Критический параметр сжатия при достижении порога потерь ε
Оценка LLC: Оценка сложности с использованием pSGLD
Линейная корреляция: Коэффициент R² для оценки линейной зависимости между LLC и сжимаемостью

Сильная линейная зависимость: Все модели показывают значительную линейную зависимость между LLC и критическим n_q (R²≥0,98)
Согласованность: Все модели Pythia от 14M до 6,9B параметров демонстрируют аналогичные закономерности
Робастность: Результаты качественно согласованы для различных порогов потерь ε (0,3, 0,5, 0,7)

Конкретные значения:

Pythia-160M: наклон=0,11, R²=0,98
Pythia-410M: наклон=0,08, R²=0,98
Pythia-1.4B: наклон=0,16, R²=0,98
Pythia-6.9B: наклон=0,14, R²=0,98

Эксперименты по факторизации

LLC и критическая доля сжатия в целом показывают положительную корреляцию
Pythia-6.9B демонстрирует плато на поздних этапах обучения, возможно связанное с особенностями кривой потерь

Абляционные эксперименты

Чувствительность к порогу потерь: Тестирование ε=0,3, 0,5, 0,7 показывает качественную нечувствительность кривых
Сравнение методов квантизации:
- Квантизация с минимизацией потерь показывает более сильную линейную зависимость
- Квантизация без оптимизации всё ещё коррелирует, но с более низким качеством подгонки
Другие методы сжатия: Добавление гауссова шума и обрезка также демонстрируют корреляцию между LLC и робастностью

Экспериментальные находки

Динамика обучения: LLC монотонно возрастает в процессе обучения, что согласуется со снижением сжимаемости
Независимость от масштаба: Линейная зависимость сохраняется между различными масштабами моделей
Универсальность методов: Несколько методов сжатия подтверждают предсказательную способность LLC

Связанные работы

Область сжатия сетей

Классические методы: От Optimal Brain Damage (LeCun и др., 1989) к современным методам квантизации
Эффективная размерность: Maddox и др. (2020) обнаружили, что эффективная размерность глубоких сетей намного меньше количества параметров
Внутренняя размерность: Методы типа LoRA (низкоранговая адаптация) при тонкой настройке

Теоретическая база

Принцип MDL: Классическая теория Grünwald и Roos (2019)
Теория сингулярного обучения: Пионерская работа Watanabe (2009)
Законы масштабирования: Связь сжатия с нейронными законами масштабирования

Преимущества данной работы

Первое применение SLT и MDL совместно для сжатия нейронных сетей
Предоставление теоретического предсказательного показателя для сжимаемости
Крупномасштабная эмпирическая верификация теоретических предсказаний

Выводы и обсуждение

Основные выводы

Теоретический вклад: Успешное расширение принципа MDL на сингулярные модели, установление теоретической связи между LLC и сжимаемостью
Эмпирические находки: LLC может точно предсказывать пределы сжатия нейронных сетей, особенно для квантизации
Верификация метода: Независимая верификация оценки LLC для крупномасштабных моделей трансформеров

Ограничения

Проблемы оценки LLC:
- Чувствительность к гиперпараметрам
- Пробелы в теоретической базе SGLD
- Возможные систематические отклонения между оценками и истинными значениями
Предположение о независимости и одинаковом распределении: Теоретическая структура предполагает i.i.d., но языковое моделирование нарушает это предположение
Вычислительные затраты: Одна оценка LLC для Pythia-6.9B требует примерно 3,5 часов на GPU H200

Направления будущих исследований

Совершенствование теории:
- Улучшение теоретической базы SGLD
- Расширение для обработки неi.i.d. данных
- Более точные методы оценки LLC
Практические приложения:
- Разработка алгоритмов сжатия на основе LLC
- Расширение на модели большего масштаба
- Исследование приложений в других модальностях

Глубокая оценка

Сильные стороны

Теоретическая инновация: Искусное сочетание SLT и MDL, предоставление прочной теоретической базы для сжатия
Достаточные эксперименты: Систематическая верификация на различных масштабах моделей и методах сжатия
Практическая ценность: Предоставление операционного теоретического инструмента для оценки пределов сжатия
Ясное изложение: Чёткое объяснение сложной теории, разумный дизайн экспериментов

Недостатки

Теоретические ограничения: Предположение о i.i.d. не соответствует реальным сценариям применения
Вычислительные затраты: Высокие вычислительные затраты на оценку LLC ограничивают практическое применение
Диапазон верификации: Верификация в основном на серии Pythia, требуется верификация на других архитектурах
Методы сжатия: Основной фокус на квантизации и факторизации, недостаточное охватывание других передовых методов сжатия

Влияние

Академическая ценность: Предоставление нового теоретического взгляда на измерение сложности нейронных сетей
Практическое значение: Помощь в руководстве проектированием и оптимизацией практических алгоритмов сжатия
Междисциплинарный вклад: Связь теории статистического обучения с практикой глубокого обучения
Основание для будущих исследований: Создание основы для дальнейших теоретических и эмпирических исследований

Применимые сценарии

Сжатие моделей: Оценка и предсказание потенциала сжатия нейронных сетей
Анализ сложности: Понимание эволюции сложности в процессе обучения модели
Проектирование архитектуры: Руководство проектированием сетевых структур, более поддающихся сжатию
Теоретические исследования: Предоставление примера применения теории сингулярного обучения в глубоком обучении

Библиография

Watanabe, S. (2009). Algebraic Geometry and Statistical Learning Theory
Grünwald, P. & Roos, T. (2019). Minimum description length revisited
Lau, E. et al. (2024). The Local Learning Coefficient: A Singularity-Aware Complexity Measure
Biderman, S. et al. (2023). Pythia: A suite for analyzing large language models across training and scaling