2025-11-25T12:19:17.889498

Theoretical Modeling of LLM Self-Improvement Training Dynamics Through Solver-Verifier Gap

Sun, Liang, Zhang et al.

Self-improvement is among the most prominent techniques within the realm of large language models (LLM), aiming to enhance the LLM performance without relying on external data. Despite its significance, generally how LLM performances evolve during the self-improvement process remains underexplored. In this paper, we theoretically model the training dynamics of self-improvement via the concept of solver-verifier gap. This is inspired by the conjecture that the performance enhancement of self-improvement stems from the gap between LLM's solver capability and verifier capability. Based on the theoretical framework, we further show how to model the entire training trajectory. This framework allows quantifying the capability limit of self-improvement by fitting the theoretical model to the experiment results. We empirically validate the effectiveness of the theoretical framework on various LLMs and datasets. Beyond self-improvement, we extend our analysis to investigate how external data influences these dynamics within the framework. Notably, we find that under limited external data regimes, such external data can be utilized at any stage without significantly affecting final performances, which accords with the empirical observations.

academic

Modelado Teórico de la Dinámica de Entrenamiento de Automejoría de LLM a Través de la Brecha Solver-Verificador

Información Básica

ID del Artículo: 2507.00075
Título: Theoretical Modeling of LLM Self-Improvement Training Dynamics Through Solver-Verifier Gap
Autores: Yifan Sun*, Yushan Liang*, Zhen Zhang, Jiaye Teng (Escuela de Estadística y Ciencia de Datos, Universidad de Finanzas y Economía de Shanghai)
Clasificación: cs.LG cs.AI
Fecha de Publicación: arXiv:2507.00075v3 cs.LG 10 Oct 2025
Enlace del Artículo: https://arxiv.org/abs/2507.00075v3

Resumen

La automejoría de modelos de lenguaje grande es una de las tecnologías más importantes actualmente, con el objetivo de mejorar el rendimiento de LLM sin depender de datos externos. A pesar de su importancia significativa, el mecanismo de evolución del rendimiento de LLM durante el proceso de automejoría aún no ha sido suficientemente explorado. Este artículo realiza un modelado teórico de la dinámica de entrenamiento de automejoría a través del concepto de brecha solver-verificador (solver-verifier gap). La investigación se basa en una conjetura: la mejora de rendimiento en la automejoría proviene de la brecha entre la capacidad del solver de LLM y la capacidad del verificador. Basándose en el marco teórico, los autores demuestran cómo modelar toda la trayectoria de entrenamiento y cuantifican los límites de capacidad de la automejoría ajustando el modelo teórico a los resultados experimentales. Los autores validan la efectividad del marco teórico en múltiples LLM y conjuntos de datos, y extienden el análisis sobre cómo los datos externos afectan estos procesos dinámicos.

Contexto y Motivación de la Investigación

Definición del Problema

Problema Central: Falta de comprensión teórica sobre la evolución del rendimiento durante el proceso de automejoría de LLM, particularmente el modelado matemático de la dinámica de entrenamiento
Importancia:
- Cuello de botella de datos: La recopilación de datos a gran escala enfrenta desafíos, posible agotamiento de datos en el futuro
- Necesidad de aprendizaje autónomo: Se requiere que los modelos se adapten y evolucionen de forma autónoma
- Vacío teórico: Los trabajos existentes se centran principalmente en la efectividad de métodos, careciendo de comprensión profunda de mecanismos

Limitaciones de Métodos Existentes

Insuficiencia Teórica: Falta de modelos teóricos sobre la dinámica de automejoría
Mecanismo Poco Claro: Comprensión limitada de los factores impulsores de la mejora de rendimiento
Capacidad Predictiva Débil: Incapacidad para predecir trayectorias de entrenamiento y límites de rendimiento

Motivación de la Investigación

Basándose en trabajos de Song et al. (2025) y Huang et al. (2025), los autores proponen que la brecha solver-verificador es la fuerza impulsora clave de la automejoría, y establecen un marco matemático para describir este proceso.

Contribuciones Principales

Marco Teórico: Propone un modelo teórico de dinámica de automejoría basado en la brecha de capacidad solver-verificador, derivando leyes de convergencia exponencial
Modelado Matemático: Establece un sistema de ecuaciones diferenciales acopladas que describen la dinámica de entrenamiento y obtiene soluciones analíticas
Validación Experimental: Verifica las predicciones teóricas en múltiples modelos (serie Phi, serie Llama) y conjuntos de datos (Math, GSM8k)
Análisis de Mejora Cruzada: Extiende el marco para analizar el impacto de datos externos, descubriendo que el momento de uso tiene poco impacto en el rendimiento final bajo condiciones de datos externos limitados

Explicación Detallada del Método

Definición de Tareas

Solver (Resolutor): Capacidad del modelo para generar respuestas directamente, medida por incertidumbre: $U_s(t) = -\frac{1}{n}\sum_{i=1}^n \log \pi_f(\hat{y}_i(t)|x_i)$

Verifier (Verificador): Capacidad del modelo para evaluar y seleccionar la mejor respuesta, basada en estrategia Best-of-N: $\hat{y}_i^{BoN} = \arg\min_{\{\hat{y}_{i,j}: s(\hat{y}_{i,j}) \geq \sigma\}} \frac{1}{L(\hat{y}_{i,j})} U_f(\hat{y}_{i,j}|x_i)$

Incertidumbre del verificador: $U_v(t) = -\frac{1}{n}\sum_{i=1}^n \log \pi_f(\hat{y}_i^{BoN}(t)|x_i)$

Marco Teórico

1. Definición de Brecha de Capacidad

$G(t) = U_s(t) - U_v(t) = -\frac{1}{n}\sum_{i=1}^n \log \frac{\pi_f(\hat{y}_i(t)|x_i)}{\pi_f(\hat{y}_i^{BoN}(t)|x_i)}$

2. Ecuaciones de Dinámica

Inspiradas en el concepto de energía potencial de la física, se establecen ecuaciones diferenciales acopladas: $\frac{dU_s(t)}{dt} = -\alpha E(t), \quad \frac{dU_v(t)}{dt} = -\beta E(t)$

donde $E(t)$ es la "energía potencial de brecha" y $\alpha > \beta > 0$ son coeficientes.

3. Aproximación Lineal

Se realiza una expansión de Taylor de primer orden de la función potencial: $E(t) \approx kG(t) - b$

4. Soluciones Analíticas

Proposición 3.1: Bajo la condición $k(\alpha-\beta) > 0$ , la dinámica de capacidad sigue decaimiento exponencial:

$U_s(t) \approx \alpha' e^{-k(\alpha-\beta)t} + U_{s,\infty}$ $U_v(t) \approx \beta' e^{-k(\alpha-\beta)t} + U_{v,\infty}$ $G(t) \approx \delta e^{-k(\alpha-\beta)t} + G_\infty$

donde:

$\alpha' = \frac{\alpha\delta}{\alpha-\beta}$ , $\beta' = \frac{\beta\delta}{\alpha-\beta}$
$\delta = U_{s,0} - U_{v,0} - \frac{b}{k}$
$U_{s,\infty} = U_{s,0} - \alpha'$ , $U_{v,\infty} = U_{v,0} - \beta'$

Modelado de Mejora Cruzada

Para datos externos limitados $M$ , utilizando proporción $\eta_t$ en la ronda $t$ (satisfaciendo $\sum_{t=1}^T \eta_t = 1$ ):

La capacidad del verificador se ve afectada por datos externos: $U_v^c(t) = (1 + \gamma\eta_t)^{-1}U_v(t-1)$

Proposición 5.1: La incertidumbre final depende solo de $\sum_{t=1}^T \eta_t$ , no de la distribución específica de $\eta_t$ .

Configuración Experimental

Conjuntos de Datos

Math: Conjunto de datos de resolución de problemas matemáticos
GSM8k: Conjunto de datos de problemas de matemáticas de primaria
ProntoQA: Conjunto de datos de preguntas y respuestas

Modelos

Serie Phi: Phi-4-mini, Phi-3.5-mini, Phi-3-mini
Serie Llama: Llama-3.2-3B, Llama-3.1-8B

Métodos de Validación

TrueFalse (TF): Puntuación de corrección binaria
Quality Evaluation (QE): Puntuación de calidad continua 0,1

Parámetros Experimentales

Tasa de aprendizaje: 1e-5
Número de muestras N: 16
Rango LoRA: 16
Número de rondas de entrenamiento: 10

Resultados Experimentales

Resultados Principales

1. Verificación de Convergencia Exponencial

Los resultados experimentales apoyan fuertemente la ley de convergencia exponencial predicha por la teoría:

Bondad de Ajuste: R² > 0.9, indicando que el modelo exponencial describe bien la evolución de la incertidumbre
Consistencia: Se observa tendencia exponencial en todas las combinaciones modelo-conjunto de datos

2. Verificación de Brecha Solver-Verificador

Universalidad: El verificador siempre supera al solver, con brecha entre 0.067-0.284
Estabilidad: La brecha se mantiene consistente en diferentes números de muestras N y escenarios de evaluación cruzada
Relación Lineal: La brecha G y su tasa de cambio dG/dt muestran fuerte relación lineal (R² > 0.8)

3. Mejora de Rendimiento

Mejora significativa en todos los modelos después de automejoría:

Phi-4-mini: Precisión en Math aumenta de 30.31% a 45.08%, GSM8k de 73.42% a 88.53%
Mejoras Similares: Otros modelos también muestran mejoras de 15-25%

Experimentos de Mejora Cruzada

Estrategias de Asignación de Datos Externos

Se prueban tres estrategias: Early (usar todo en primera ronda), Uniform (distribución uniforme), Late (usar en última ronda)

Hallazgos Clave:

Diferencia de rendimiento entre estrategias mínima (<2.17%)
Valida predicción teórica: el momento de asignación no afecta el rendimiento final
La calidad de datos externos es más importante que el momento de uso

Resultados Numéricos

Tomando Phi-4-mini como ejemplo:

Conjunto de datos Math: mejora promedio de 1.16% entre tres estrategias
Conjunto de datos GSM8k: mejora promedio de 0.10% entre tres estrategias

Experimentos de Ablación

Análisis Pass@K

Disminución de Diversidad: Pass@K disminuye con valores K grandes, indicando reducción en diversidad de generación
Mejora de Calidad: Pass@K mejora con valores K pequeños, validando efectividad de automejoría
Explicación de Convergencia: La reducción de diversidad puede ser razón de saturación de rendimiento

Trabajo Relacionado

Investigación en Automejoría

Categorías de Métodos:
- Ajuste fino de salida: Entrenamiento basado en datos generados por LLM
- Autodestilación: Transferencia de conocimiento de modelo grande a pequeño
- Autocorrección: Identificación y corrección de errores por el modelo
Investigación Teórica:
- Análisis de tasa de convergencia de modelos lineales
- Teoría de autodestilación de redes neuronales
- Automejoría bajo marco de aprendizaje por refuerzo

Investigación en Mejora Cruzada

Datos Anotados Manualmente: Costo alto pero calidad confiable
Datos de Modelo Fuerte: Acceso limitado pero efecto significativo
Utilización de Datos Limitados: Problema central de este trabajo

Conclusiones y Discusión

Conclusiones Principales

Validación Teórica: La brecha solver-verificador efectivamente impulsa la automejoría, la dinámica sigue ley de convergencia exponencial
Capacidad Predictiva: El marco puede predecir trayectorias de entrenamiento y límites de rendimiento
Orientación Práctica: El momento de uso de datos externos es flexible, enfoque en calidad de datos

Limitaciones

Modelado Fenomenológico: Adopta enfoque fenomenológico, carece de derivación desde primeros principios
Aproximación Lineal: La aproximación lineal de función potencial puede limitar rango de aplicabilidad
Supuesto de Invariancia Temporal: En mejora cruzada se asume parámetro de efecto γ invariante en tiempo
Limitación de Conjuntos de Datos: Validación principalmente en tareas de razonamiento matemático

Direcciones Futuras

Exploración de Mecanismos: Investigación profunda de mecanismos de dinámica exponencial a nivel de red neuronal
Relaciones de Parámetros: Investigar relación entre α, β y arquitectura del modelo
Extensión de Aplicaciones: Validar aplicabilidad del marco en más tareas y dominios
Modelado Variante en Tiempo: Relajar supuesto de invariancia temporal, establecer modelo dinámico más preciso

Evaluación Profunda

Fortalezas

Innovación Teórica: Primer marco matemático teórico de automejoría, llena vacío importante
Validación Experimental Suficiente: Verificación completa en múltiples modelos y conjuntos de datos, consistencia fuerte de resultados
Valor Práctico: Proporciona herramientas prácticas para predicción de rendimiento y orientación de entrenamiento
Escritura Clara: Derivación matemática rigurosa, diseño experimental razonable

Insuficiencias

Profundidad Teórica: Modelado fenomenológico carece de explicación de mecanismo profundo
Rango de Aplicabilidad: Validación principalmente en razonamiento matemático, aplicabilidad en otras tareas pendiente
Limitaciones de Supuestos: Múltiples supuestos simplificadores pueden afectar precisión del modelo
Eficiencia Computacional: Discusión insuficiente sobre costo computacional de estrategia Best-of-N

Impacto

Contribución Académica: Proporciona base teórica importante para investigación en automejoría
Orientación Práctica: Proporciona herramientas cuantitativas para optimización de estrategias de entrenamiento de LLM
Investigación Posterior: Puede inspirar más trabajos de modelado teórico
Escenarios Aplicables: Orientación para diseño de estrategia de automejoría, predicción de rendimiento, asignación de recursos, investigación teórica

Escenarios de Aplicabilidad

Entrenamiento de LLM: Orientación para diseño de estrategia de automejoría
Predicción de Rendimiento: Estimación de trayectoria de entrenamiento y punto de convergencia
Asignación de Recursos: Optimización de estrategia de uso de datos externos
Investigación Teórica: Proporciona base para exploración de mecanismos posterior

Referencias

Las referencias clave incluyen:

Song et al. (2025): Propone concepto de brecha generación-verificación
Huang et al. (2025): Teoría de mecanismo de afilado
Zelikman et al. (2022): Método de automejoría STaR
Wang et al. (2023): Método Self-Instruct

Evaluación General: Este es un artículo de investigación teórica de alta calidad que proporciona el primer marco teórico matemático sistemático en el importante campo de automejoría de LLM. A pesar de algunas limitaciones en profundidad teórica y rango de aplicabilidad, su innovación, suficiencia de validación experimental y valor práctico son destacados, teniendo importancia significativa para impulsar el desarrollo teórico del campo.