2025-11-25T12:19:17.889498

Theoretical Modeling of LLM Self-Improvement Training Dynamics Through Solver-Verifier Gap

Sun, Liang, Zhang et al.

Self-improvement is among the most prominent techniques within the realm of large language models (LLM), aiming to enhance the LLM performance without relying on external data. Despite its significance, generally how LLM performances evolve during the self-improvement process remains underexplored. In this paper, we theoretically model the training dynamics of self-improvement via the concept of solver-verifier gap. This is inspired by the conjecture that the performance enhancement of self-improvement stems from the gap between LLM's solver capability and verifier capability. Based on the theoretical framework, we further show how to model the entire training trajectory. This framework allows quantifying the capability limit of self-improvement by fitting the theoretical model to the experiment results. We empirically validate the effectiveness of the theoretical framework on various LLMs and datasets. Beyond self-improvement, we extend our analysis to investigate how external data influences these dynamics within the framework. Notably, we find that under limited external data regimes, such external data can be utilized at any stage without significantly affecting final performances, which accords with the empirical observations.

academic

Теоретическое моделирование динамики самосовершенствования LLM через разрыв между решателем и верификатором

Основная информация

ID статьи: 2507.00075
Название: Theoretical Modeling of LLM Self-Improvement Training Dynamics Through Solver-Verifier Gap
Авторы: Yifan Sun*, Yushan Liang*, Zhen Zhang, Jiaye Teng (Школа статистики и науки о данных, Шанхайский университет финансов и экономики)
Классификация: cs.LG cs.AI
Дата публикации: arXiv:2507.00075v3 cs.LG 10 октября 2025
Ссылка на статью: https://arxiv.org/abs/2507.00075v3

Аннотация

Самосовершенствование больших языковых моделей является одной из наиболее важных современных технологий, направленной на повышение производительности LLM без использования внешних данных. Несмотря на его значимость, механизмы эволюции производительности LLM в процессе самосовершенствования остаются недостаточно изученными. В данной работе проводится теоретическое моделирование динамики обучения при самосовершенствовании через концепцию разрыва между решателем и верификатором (solver-verifier gap). Исследование основано на гипотезе о том, что повышение производительности при самосовершенствовании обусловлено разрывом между способностями решателя LLM и способностями верификатора. На основе теоретической базы авторы демонстрируют, как моделировать всю траекторию обучения и количественно оценивать пределы возможностей самосовершенствования путём подгонки теоретической модели к экспериментальным результатам. Авторы проверяют действительность теоретической базы на нескольких LLM и наборах данных, а также расширяют анализ влияния внешних данных на эти динамические процессы.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема: Отсутствие теоретического понимания эволюции производительности LLM в процессе самосовершенствования, в частности математического моделирования динамики обучения
Значимость:
- Узкое место данных: сбор крупномасштабных данных сталкивается с трудностями, в будущем может возникнуть дефицит данных
- Потребность в автономном обучении: необходимость моделей к самостоятельной адаптации и эволюции
- Теоретический пробел: существующие работы сосредоточены на эффективности методов, но не на глубоком понимании механизмов

Ограничения существующих методов

Недостаток теории: Отсутствие теоретических моделей динамики самосовершенствования
Неясность механизмов: Ограниченное понимание движущих факторов повышения производительности
Слабая предсказательная способность: Невозможность предсказать траекторию обучения и пределы производительности

Исследовательская мотивация

На основе работ Song et al. (2025) и Huang et al. (2025) авторы предлагают, что разрыв между способностями решателя и верификатора является ключевым движущим фактором самосовершенствования, и устанавливают математическую базу для описания этого процесса.

Основные вклады

Теоретическая база: Предложена теоретическая модель динамики самосовершенствования, основанная на разрыве способностей между решателем и верификатором, с выведением закона экспоненциальной сходимости
Математическое моделирование: Установлена система связанных дифференциальных уравнений, описывающих динамику обучения, и получены аналитические решения
Экспериментальная верификация: Проверка теоретических предсказаний на нескольких моделях (серии Phi, Llama) и наборах данных (Math, GSM8k)
Анализ кросс-улучшения: Расширение базы для анализа влияния внешних данных, обнаружение того, что при ограниченных внешних данных время использования оказывает незначительное влияние на конечную производительность

Подробное описание методов

Определение задачи

Решатель (Solver): Способность модели прямого генерирования ответов, измеряемая неопределённостью: $U_s(t) = -\frac{1}{n}\sum_{i=1}^n \log \pi_f(\hat{y}_i(t)|x_i)$

Верификатор (Verifier): Способность модели оценивать и выбирать оптимальный ответ, основанная на стратегии Best-of-N: $\hat{y}_i^{BoN} = \arg\min_{\{\hat{y}_{i,j}: s(\hat{y}_{i,j}) \geq \sigma\}} \frac{1}{L(\hat{y}_{i,j})} U_f(\hat{y}_{i,j}|x_i)$

Неопределённость верификатора: $U_v(t) = -\frac{1}{n}\sum_{i=1}^n \log \pi_f(\hat{y}_i^{BoN}(t)|x_i)$

Теоретическая база

1. Определение разрыва способностей

$G(t) = U_s(t) - U_v(t) = -\frac{1}{n}\sum_{i=1}^n \log \frac{\pi_f(\hat{y}_i(t)|x_i)}{\pi_f(\hat{y}_i^{BoN}(t)|x_i)}$

2. Уравнения динамики

Вдохновлённые концепцией потенциальной энергии в физике, устанавливается система связанных дифференциальных уравнений: $\frac{dU_s(t)}{dt} = -\alpha E(t), \quad \frac{dU_v(t)}{dt} = -\beta E(t)$

где $E(t)$ — «потенциальная энергия разрыва», $\alpha > \beta > 0$ — коэффициенты.

3. Линейное приближение

Применяется разложение Тейлора первого порядка к функции потенциала: $E(t) \approx kG(t) - b$

4. Аналитические решения

Предложение 3.1: При условии $k(\alpha-\beta) > 0$ динамика способностей подчиняется экспоненциальному затуханию:

$U_s(t) \approx \alpha' e^{-k(\alpha-\beta)t} + U_{s,\infty}$ $U_v(t) \approx \beta' e^{-k(\alpha-\beta)t} + U_{v,\infty}$ $G(t) \approx \delta e^{-k(\alpha-\beta)t} + G_\infty$

где:

$\alpha' = \frac{\alpha\delta}{\alpha-\beta}$ , $\beta' = \frac{\beta\delta}{\alpha-\beta}$
$\delta = U_{s,0} - U_{v,0} - \frac{b}{k}$
$U_{s,\infty} = U_{s,0} - \alpha'$ , $U_{v,\infty} = U_{v,0} - \beta'$

Моделирование кросс-улучшения

Для ограниченных внешних данных $M$ , использование доли $\eta_t$ на раунде $t$ (удовлетворяющей $\sum_{t=1}^T \eta_t = 1$ ):

Способность верификатора под влиянием внешних данных: $U_v^c(t) = (1 + \gamma\eta_t)^{-1}U_v(t-1)$

Предложение 5.1: Конечная неопределённость зависит только от $\sum_{t=1}^T \eta_t$ , а не от конкретного распределения $\eta_t$ .

Экспериментальная установка

Наборы данных

Math: Набор данных для решения математических задач
GSM8k: Набор данных с задачами элементарной математики
ProntoQA: Набор данных для вопросно-ответной системы

Модели

Серия Phi: Phi-4-mini, Phi-3.5-mini, Phi-3-mini
Серия Llama: Llama-3.2-3B, Llama-3.1-8B

Методы верификации

TrueFalse (TF): Двоичная оценка корректности
Quality Evaluation (QE): Непрерывная оценка качества 0,1

Экспериментальные параметры

Скорость обучения: 1e-5
Количество образцов N: 16
Ранг LoRA: 16
Количество раундов обучения: 10

Экспериментальные результаты

Основные результаты

1. Верификация экспоненциальной сходимости

Экспериментальные результаты сильно подтверждают предсказанный теорией закон экспоненциальной сходимости:

Качество подгонки: R² > 0,9, что указывает на хорошее описание эволюции неопределённости экспоненциальной моделью
Согласованность: Экспоненциальная тенденция наблюдается на всех комбинациях модель-набор данных

2. Верификация разрыва между решателем и верификатором

Универсальность: Верификатор всегда превосходит решателя, разрыв находится в диапазоне 0,067–0,284
Стабильность: Разрыв остаётся постоянным при различных количествах образцов N и сценариях кросс-оценки
Линейная зависимость: Разрыв G и его скорость изменения dG/dt показывают сильную линейную зависимость (R² > 0,8)

3. Повышение производительности

Все модели показывают значительное улучшение после самосовершенствования:

Phi-4-mini: Точность на Math повышается с 30,31% до 45,08%, на GSM8k с 73,42% до 88,53%
Аналогичные улучшения: Другие модели также демонстрируют повышение на 15–25%

Эксперименты по кросс-улучшению

Стратегии распределения внешних данных

Тестируются три стратегии: Early (использование всех в первом раунде), Uniform (равномерное распределение), Late (использование в последнем раунде)

Ключевые находки:

Различия в производительности между стратегиями незначительны (<2,17%)
Подтверждение теоретического предсказания: время распределения не влияет на конечную производительность
Качество внешних данных важнее, чем время их использования

Числовые результаты

На примере Phi-4-mini:

Набор данных Math: среднее улучшение 1,16% для всех трёх стратегий
Набор данных GSM8k: среднее улучшение 0,10% для всех трёх стратегий

Абляционные эксперименты

Анализ Pass@K

Снижение разнообразия: Pass@K снижается при больших значениях K, указывая на уменьшение разнообразия генерации
Повышение качества: Pass@K повышается при малых значениях K, подтверждая эффективность самосовершенствования
Объяснение сходимости: Снижение разнообразия может быть причиной насыщения производительности

Связанные работы

Исследования самосовершенствования

Категории методов:
- Тонкая настройка выходов: обучение на основе данных, генерируемых LLM
- Самодистилляция: передача знаний от крупной модели к меньшей
- Самокоррекция: модель выявляет и исправляет ошибки
Теоретические исследования:
- Анализ скорости сходимости линейных моделей
- Теория самодистилляции нейронных сетей
- Самосовершенствование в рамках обучения с подкреплением

Исследования кросс-улучшения

Данные с человеческой разметкой: Высокая стоимость, но надёжное качество
Данные от мощных моделей: Ограниченный доступ, но значительный эффект
Использование ограниченных данных: Центральная проблема данной работы

Заключение и обсуждение

Основные выводы

Теоретическая верификация: Разрыв между решателем и верификатором действительно движет самосовершенствованием, динамика подчиняется закону экспоненциальной сходимости
Предсказательная способность: База может предсказывать траекторию обучения и пределы производительности
Практическое руководство: Время использования внешних данных гибко, основной акцент на качество данных

Ограничения

Феноменологическое моделирование: Использование феноменологического подхода, отсутствие вывода из первых принципов
Линейное приближение: Линейное приближение функции потенциала может ограничить область применения
Предположение о стационарности: В кросс-улучшении предполагается, что параметр эффекта γ не зависит от времени
Ограничение наборов данных: Верификация проводилась в основном на задачах математического рассуждения

Направления будущих исследований

Исследование механизмов: Глубокое изучение механизмов экспоненциальной динамики на уровне нейронных сетей
Связь параметров: Исследование связи α, β с архитектурой модели
Расширение применения: Верификация применимости базы на большем количестве задач и областей
Моделирование с изменением во времени: Ослабление предположения о стационарности, построение более точной динамической модели

Глубокая оценка

Преимущества

Теоретическая инновация: Впервые предложена математическая теоретическая база для самосовершенствования, заполнен важный пробел
Достаточная экспериментальная верификация: Полная проверка на нескольких моделях и наборах данных, высокая согласованность результатов
Практическая ценность: Предоставляет практические инструменты для предсказания производительности и руководства обучением
Ясное изложение: Строгие математические выводы, разумный дизайн экспериментов

Недостатки

Глубина теории: Феноменологическое моделирование не обеспечивает объяснение глубоких механизмов
Область применения: Верификация проводилась в основном на математическом рассуждении, применимость к другим задачам требует проверки
Ограничения предположений: Множество упрощающих предположений может влиять на точность модели
Вычислительная эффективность: Недостаточное обсуждение вычислительных затрат стратегии Best-of-N

Влияние

Академический вклад: Предоставляет важную теоретическую базу для исследований самосовершенствования
Практическое руководство: Предоставляет количественные инструменты для оптимизации стратегий обучения LLM
Последующие исследования: Может стимулировать дополнительные работы по теоретическому моделированию

Применимые сценарии

Обучение LLM: Руководство по проектированию стратегий самосовершенствования
Предсказание производительности: Оценка траектории обучения и точки сходимости
Распределение ресурсов: Оптимизация стратегии использования внешних данных
Теоретические исследования: Предоставление базы для дальнейшего исследования механизмов

Библиография

Ключевые источники включают:

Song et al. (2025): Введение концепции разрыва между генератором и верификатором
Huang et al. (2025): Теория механизма заострения
Zelikman et al. (2022): Метод самосовершенствования STaR
Wang et al. (2023): Метод Self-Instruct

Общая оценка: Это высокачественная теоретическая работа, предоставляющая первую систематическую математическую теоретическую базу в важной области самосовершенствования LLM. Несмотря на некоторые ограничения в глубине теории и области применения, её инновационность, достаточность экспериментальной верификации и практическая ценность выделяются, имея важное значение для продвижения теоретического развития этой области.