Self-improvement is among the most prominent techniques within the realm of large language models (LLM), aiming to enhance the LLM performance without relying on external data. Despite its significance, generally how LLM performances evolve during the self-improvement process remains underexplored. In this paper, we theoretically model the training dynamics of self-improvement via the concept of solver-verifier gap. This is inspired by the conjecture that the performance enhancement of self-improvement stems from the gap between LLM's solver capability and verifier capability. Based on the theoretical framework, we further show how to model the entire training trajectory. This framework allows quantifying the capability limit of self-improvement by fitting the theoretical model to the experiment results. We empirically validate the effectiveness of the theoretical framework on various LLMs and datasets. Beyond self-improvement, we extend our analysis to investigate how external data influences these dynamics within the framework. Notably, we find that under limited external data regimes, such external data can be utilized at any stage without significantly affecting final performances, which accords with the empirical observations.
- ID статьи: 2507.00075
- Название: Theoretical Modeling of LLM Self-Improvement Training Dynamics Through Solver-Verifier Gap
- Авторы: Yifan Sun*, Yushan Liang*, Zhen Zhang, Jiaye Teng (Школа статистики и науки о данных, Шанхайский университет финансов и экономики)
- Классификация: cs.LG cs.AI
- Дата публикации: arXiv:2507.00075v3 cs.LG 10 октября 2025
- Ссылка на статью: https://arxiv.org/abs/2507.00075v3
Самосовершенствование больших языковых моделей является одной из наиболее важных современных технологий, направленной на повышение производительности LLM без использования внешних данных. Несмотря на его значимость, механизмы эволюции производительности LLM в процессе самосовершенствования остаются недостаточно изученными. В данной работе проводится теоретическое моделирование динамики обучения при самосовершенствовании через концепцию разрыва между решателем и верификатором (solver-verifier gap). Исследование основано на гипотезе о том, что повышение производительности при самосовершенствовании обусловлено разрывом между способностями решателя LLM и способностями верификатора. На основе теоретической базы авторы демонстрируют, как моделировать всю траекторию обучения и количественно оценивать пределы возможностей самосовершенствования путём подгонки теоретической модели к экспериментальным результатам. Авторы проверяют действительность теоретической базы на нескольких LLM и наборах данных, а также расширяют анализ влияния внешних данных на эти динамические процессы.
- Основная проблема: Отсутствие теоретического понимания эволюции производительности LLM в процессе самосовершенствования, в частности математического моделирования динамики обучения
- Значимость:
- Узкое место данных: сбор крупномасштабных данных сталкивается с трудностями, в будущем может возникнуть дефицит данных
- Потребность в автономном обучении: необходимость моделей к самостоятельной адаптации и эволюции
- Теоретический пробел: существующие работы сосредоточены на эффективности методов, но не на глубоком понимании механизмов
- Недостаток теории: Отсутствие теоретических моделей динамики самосовершенствования
- Неясность механизмов: Ограниченное понимание движущих факторов повышения производительности
- Слабая предсказательная способность: Невозможность предсказать траекторию обучения и пределы производительности
На основе работ Song et al. (2025) и Huang et al. (2025) авторы предлагают, что разрыв между способностями решателя и верификатора является ключевым движущим фактором самосовершенствования, и устанавливают математическую базу для описания этого процесса.
- Теоретическая база: Предложена теоретическая модель динамики самосовершенствования, основанная на разрыве способностей между решателем и верификатором, с выведением закона экспоненциальной сходимости
- Математическое моделирование: Установлена система связанных дифференциальных уравнений, описывающих динамику обучения, и получены аналитические решения
- Экспериментальная верификация: Проверка теоретических предсказаний на нескольких моделях (серии Phi, Llama) и наборах данных (Math, GSM8k)
- Анализ кросс-улучшения: Расширение базы для анализа влияния внешних данных, обнаружение того, что при ограниченных внешних данных время использования оказывает незначительное влияние на конечную производительность
Решатель (Solver): Способность модели прямого генерирования ответов, измеряемая неопределённостью:
Us(t)=−n1∑i=1nlogπf(y^i(t)∣xi)
Верификатор (Verifier): Способность модели оценивать и выбирать оптимальный ответ, основанная на стратегии Best-of-N:
y^iBoN=argmin{y^i,j:s(y^i,j)≥σ}L(y^i,j)1Uf(y^i,j∣xi)
Неопределённость верификатора:
Uv(t)=−n1∑i=1nlogπf(y^iBoN(t)∣xi)
G(t)=Us(t)−Uv(t)=−n1∑i=1nlogπf(y^iBoN(t)∣xi)πf(y^i(t)∣xi)
Вдохновлённые концепцией потенциальной энергии в физике, устанавливается система связанных дифференциальных уравнений:
dtdUs(t)=−αE(t),dtdUv(t)=−βE(t)
где E(t) — «потенциальная энергия разрыва», α>β>0 — коэффициенты.
Применяется разложение Тейлора первого порядка к функции потенциала: E(t)≈kG(t)−b
Предложение 3.1: При условии k(α−β)>0 динамика способностей подчиняется экспоненциальному затуханию:
Us(t)≈α′e−k(α−β)t+Us,∞Uv(t)≈β′e−k(α−β)t+Uv,∞G(t)≈δe−k(α−β)t+G∞
где:
- α′=α−βαδ, β′=α−ββδ
- δ=Us,0−Uv,0−kb
- Us,∞=Us,0−α′, Uv,∞=Uv,0−β′
Для ограниченных внешних данных M, использование доли ηt на раунде t (удовлетворяющей ∑t=1Tηt=1):
Способность верификатора под влиянием внешних данных:
Uvc(t)=(1+γηt)−1Uv(t−1)
Предложение 5.1: Конечная неопределённость зависит только от ∑t=1Tηt, а не от конкретного распределения ηt.
- Math: Набор данных для решения математических задач
- GSM8k: Набор данных с задачами элементарной математики
- ProntoQA: Набор данных для вопросно-ответной системы
- Серия Phi: Phi-4-mini, Phi-3.5-mini, Phi-3-mini
- Серия Llama: Llama-3.2-3B, Llama-3.1-8B
- TrueFalse (TF): Двоичная оценка корректности
- Quality Evaluation (QE): Непрерывная оценка качества 0,1
- Скорость обучения: 1e-5
- Количество образцов N: 16
- Ранг LoRA: 16
- Количество раундов обучения: 10
Экспериментальные результаты сильно подтверждают предсказанный теорией закон экспоненциальной сходимости:
- Качество подгонки: R² > 0,9, что указывает на хорошее описание эволюции неопределённости экспоненциальной моделью
- Согласованность: Экспоненциальная тенденция наблюдается на всех комбинациях модель-набор данных
- Универсальность: Верификатор всегда превосходит решателя, разрыв находится в диапазоне 0,067–0,284
- Стабильность: Разрыв остаётся постоянным при различных количествах образцов N и сценариях кросс-оценки
- Линейная зависимость: Разрыв G и его скорость изменения dG/dt показывают сильную линейную зависимость (R² > 0,8)
Все модели показывают значительное улучшение после самосовершенствования:
- Phi-4-mini: Точность на Math повышается с 30,31% до 45,08%, на GSM8k с 73,42% до 88,53%
- Аналогичные улучшения: Другие модели также демонстрируют повышение на 15–25%
Тестируются три стратегии: Early (использование всех в первом раунде), Uniform (равномерное распределение), Late (использование в последнем раунде)
Ключевые находки:
- Различия в производительности между стратегиями незначительны (<2,17%)
- Подтверждение теоретического предсказания: время распределения не влияет на конечную производительность
- Качество внешних данных важнее, чем время их использования
На примере Phi-4-mini:
- Набор данных Math: среднее улучшение 1,16% для всех трёх стратегий
- Набор данных GSM8k: среднее улучшение 0,10% для всех трёх стратегий
- Снижение разнообразия: Pass@K снижается при больших значениях K, указывая на уменьшение разнообразия генерации
- Повышение качества: Pass@K повышается при малых значениях K, подтверждая эффективность самосовершенствования
- Объяснение сходимости: Снижение разнообразия может быть причиной насыщения производительности
- Категории методов:
- Тонкая настройка выходов: обучение на основе данных, генерируемых LLM
- Самодистилляция: передача знаний от крупной модели к меньшей
- Самокоррекция: модель выявляет и исправляет ошибки
- Теоретические исследования:
- Анализ скорости сходимости линейных моделей
- Теория самодистилляции нейронных сетей
- Самосовершенствование в рамках обучения с подкреплением
- Данные с человеческой разметкой: Высокая стоимость, но надёжное качество
- Данные от мощных моделей: Ограниченный доступ, но значительный эффект
- Использование ограниченных данных: Центральная проблема данной работы
- Теоретическая верификация: Разрыв между решателем и верификатором действительно движет самосовершенствованием, динамика подчиняется закону экспоненциальной сходимости
- Предсказательная способность: База может предсказывать траекторию обучения и пределы производительности
- Практическое руководство: Время использования внешних данных гибко, основной акцент на качество данных
- Феноменологическое моделирование: Использование феноменологического подхода, отсутствие вывода из первых принципов
- Линейное приближение: Линейное приближение функции потенциала может ограничить область применения
- Предположение о стационарности: В кросс-улучшении предполагается, что параметр эффекта γ не зависит от времени
- Ограничение наборов данных: Верификация проводилась в основном на задачах математического рассуждения
- Исследование механизмов: Глубокое изучение механизмов экспоненциальной динамики на уровне нейронных сетей
- Связь параметров: Исследование связи α, β с архитектурой модели
- Расширение применения: Верификация применимости базы на большем количестве задач и областей
- Моделирование с изменением во времени: Ослабление предположения о стационарности, построение более точной динамической модели
- Теоретическая инновация: Впервые предложена математическая теоретическая база для самосовершенствования, заполнен важный пробел
- Достаточная экспериментальная верификация: Полная проверка на нескольких моделях и наборах данных, высокая согласованность результатов
- Практическая ценность: Предоставляет практические инструменты для предсказания производительности и руководства обучением
- Ясное изложение: Строгие математические выводы, разумный дизайн экспериментов
- Глубина теории: Феноменологическое моделирование не обеспечивает объяснение глубоких механизмов
- Область применения: Верификация проводилась в основном на математическом рассуждении, применимость к другим задачам требует проверки
- Ограничения предположений: Множество упрощающих предположений может влиять на точность модели
- Вычислительная эффективность: Недостаточное обсуждение вычислительных затрат стратегии Best-of-N
- Академический вклад: Предоставляет важную теоретическую базу для исследований самосовершенствования
- Практическое руководство: Предоставляет количественные инструменты для оптимизации стратегий обучения LLM
- Последующие исследования: Может стимулировать дополнительные работы по теоретическому моделированию
- Обучение LLM: Руководство по проектированию стратегий самосовершенствования
- Предсказание производительности: Оценка траектории обучения и точки сходимости
- Распределение ресурсов: Оптимизация стратегии использования внешних данных
- Теоретические исследования: Предоставление базы для дальнейшего исследования механизмов
Ключевые источники включают:
- Song et al. (2025): Введение концепции разрыва между генератором и верификатором
- Huang et al. (2025): Теория механизма заострения
- Zelikman et al. (2022): Метод самосовершенствования STaR
- Wang et al. (2023): Метод Self-Instruct
Общая оценка: Это высокачественная теоретическая работа, предоставляющая первую систематическую математическую теоретическую базу в важной области самосовершенствования LLM. Несмотря на некоторые ограничения в глубине теории и области применения, её инновационность, достаточность экспериментальной верификации и практическая ценность выделяются, имея важное значение для продвижения теоретического развития этой области.