2025-11-25T12:19:17.889498

Theoretical Modeling of LLM Self-Improvement Training Dynamics Through Solver-Verifier Gap

Sun, Liang, Zhang et al.
Self-improvement is among the most prominent techniques within the realm of large language models (LLM), aiming to enhance the LLM performance without relying on external data. Despite its significance, generally how LLM performances evolve during the self-improvement process remains underexplored. In this paper, we theoretically model the training dynamics of self-improvement via the concept of solver-verifier gap. This is inspired by the conjecture that the performance enhancement of self-improvement stems from the gap between LLM's solver capability and verifier capability. Based on the theoretical framework, we further show how to model the entire training trajectory. This framework allows quantifying the capability limit of self-improvement by fitting the theoretical model to the experiment results. We empirically validate the effectiveness of the theoretical framework on various LLMs and datasets. Beyond self-improvement, we extend our analysis to investigate how external data influences these dynamics within the framework. Notably, we find that under limited external data regimes, such external data can be utilized at any stage without significantly affecting final performances, which accords with the empirical observations.
academic

Modelado Teórico de la Dinámica de Entrenamiento de Automejoría de LLM a Través de la Brecha Solver-Verificador

Información Básica

  • ID del Artículo: 2507.00075
  • Título: Theoretical Modeling of LLM Self-Improvement Training Dynamics Through Solver-Verifier Gap
  • Autores: Yifan Sun*, Yushan Liang*, Zhen Zhang, Jiaye Teng (Escuela de Estadística y Ciencia de Datos, Universidad de Finanzas y Economía de Shanghai)
  • Clasificación: cs.LG cs.AI
  • Fecha de Publicación: arXiv:2507.00075v3 cs.LG 10 Oct 2025
  • Enlace del Artículo: https://arxiv.org/abs/2507.00075v3

Resumen

La automejoría de modelos de lenguaje grande es una de las tecnologías más importantes actualmente, con el objetivo de mejorar el rendimiento de LLM sin depender de datos externos. A pesar de su importancia significativa, el mecanismo de evolución del rendimiento de LLM durante el proceso de automejoría aún no ha sido suficientemente explorado. Este artículo realiza un modelado teórico de la dinámica de entrenamiento de automejoría a través del concepto de brecha solver-verificador (solver-verifier gap). La investigación se basa en una conjetura: la mejora de rendimiento en la automejoría proviene de la brecha entre la capacidad del solver de LLM y la capacidad del verificador. Basándose en el marco teórico, los autores demuestran cómo modelar toda la trayectoria de entrenamiento y cuantifican los límites de capacidad de la automejoría ajustando el modelo teórico a los resultados experimentales. Los autores validan la efectividad del marco teórico en múltiples LLM y conjuntos de datos, y extienden el análisis sobre cómo los datos externos afectan estos procesos dinámicos.

Contexto y Motivación de la Investigación

Definición del Problema

  1. Problema Central: Falta de comprensión teórica sobre la evolución del rendimiento durante el proceso de automejoría de LLM, particularmente el modelado matemático de la dinámica de entrenamiento
  2. Importancia:
    • Cuello de botella de datos: La recopilación de datos a gran escala enfrenta desafíos, posible agotamiento de datos en el futuro
    • Necesidad de aprendizaje autónomo: Se requiere que los modelos se adapten y evolucionen de forma autónoma
    • Vacío teórico: Los trabajos existentes se centran principalmente en la efectividad de métodos, careciendo de comprensión profunda de mecanismos

Limitaciones de Métodos Existentes

  1. Insuficiencia Teórica: Falta de modelos teóricos sobre la dinámica de automejoría
  2. Mecanismo Poco Claro: Comprensión limitada de los factores impulsores de la mejora de rendimiento
  3. Capacidad Predictiva Débil: Incapacidad para predecir trayectorias de entrenamiento y límites de rendimiento

Motivación de la Investigación

Basándose en trabajos de Song et al. (2025) y Huang et al. (2025), los autores proponen que la brecha solver-verificador es la fuerza impulsora clave de la automejoría, y establecen un marco matemático para describir este proceso.

Contribuciones Principales

  1. Marco Teórico: Propone un modelo teórico de dinámica de automejoría basado en la brecha de capacidad solver-verificador, derivando leyes de convergencia exponencial
  2. Modelado Matemático: Establece un sistema de ecuaciones diferenciales acopladas que describen la dinámica de entrenamiento y obtiene soluciones analíticas
  3. Validación Experimental: Verifica las predicciones teóricas en múltiples modelos (serie Phi, serie Llama) y conjuntos de datos (Math, GSM8k)
  4. Análisis de Mejora Cruzada: Extiende el marco para analizar el impacto de datos externos, descubriendo que el momento de uso tiene poco impacto en el rendimiento final bajo condiciones de datos externos limitados

Explicación Detallada del Método

Definición de Tareas

Solver (Resolutor): Capacidad del modelo para generar respuestas directamente, medida por incertidumbre: Us(t)=1ni=1nlogπf(y^i(t)xi)U_s(t) = -\frac{1}{n}\sum_{i=1}^n \log \pi_f(\hat{y}_i(t)|x_i)

Verifier (Verificador): Capacidad del modelo para evaluar y seleccionar la mejor respuesta, basada en estrategia Best-of-N: y^iBoN=argmin{y^i,j:s(y^i,j)σ}1L(y^i,j)Uf(y^i,jxi)\hat{y}_i^{BoN} = \arg\min_{\{\hat{y}_{i,j}: s(\hat{y}_{i,j}) \geq \sigma\}} \frac{1}{L(\hat{y}_{i,j})} U_f(\hat{y}_{i,j}|x_i)

Incertidumbre del verificador: Uv(t)=1ni=1nlogπf(y^iBoN(t)xi)U_v(t) = -\frac{1}{n}\sum_{i=1}^n \log \pi_f(\hat{y}_i^{BoN}(t)|x_i)

Marco Teórico

1. Definición de Brecha de Capacidad

G(t)=Us(t)Uv(t)=1ni=1nlogπf(y^i(t)xi)πf(y^iBoN(t)xi)G(t) = U_s(t) - U_v(t) = -\frac{1}{n}\sum_{i=1}^n \log \frac{\pi_f(\hat{y}_i(t)|x_i)}{\pi_f(\hat{y}_i^{BoN}(t)|x_i)}

2. Ecuaciones de Dinámica

Inspiradas en el concepto de energía potencial de la física, se establecen ecuaciones diferenciales acopladas: dUs(t)dt=αE(t),dUv(t)dt=βE(t)\frac{dU_s(t)}{dt} = -\alpha E(t), \quad \frac{dU_v(t)}{dt} = -\beta E(t)

donde E(t)E(t) es la "energía potencial de brecha" y α>β>0\alpha > \beta > 0 son coeficientes.

3. Aproximación Lineal

Se realiza una expansión de Taylor de primer orden de la función potencial: E(t)kG(t)bE(t) \approx kG(t) - b

4. Soluciones Analíticas

Proposición 3.1: Bajo la condición k(αβ)>0k(\alpha-\beta) > 0, la dinámica de capacidad sigue decaimiento exponencial:

Us(t)αek(αβ)t+Us,U_s(t) \approx \alpha' e^{-k(\alpha-\beta)t} + U_{s,\infty}Uv(t)βek(αβ)t+Uv,U_v(t) \approx \beta' e^{-k(\alpha-\beta)t} + U_{v,\infty}G(t)δek(αβ)t+GG(t) \approx \delta e^{-k(\alpha-\beta)t} + G_\infty

donde:

  • α=αδαβ\alpha' = \frac{\alpha\delta}{\alpha-\beta}, β=βδαβ\beta' = \frac{\beta\delta}{\alpha-\beta}
  • δ=Us,0Uv,0bk\delta = U_{s,0} - U_{v,0} - \frac{b}{k}
  • Us,=Us,0αU_{s,\infty} = U_{s,0} - \alpha', Uv,=Uv,0βU_{v,\infty} = U_{v,0} - \beta'

Modelado de Mejora Cruzada

Para datos externos limitados MM, utilizando proporción ηt\eta_t en la ronda tt (satisfaciendo t=1Tηt=1\sum_{t=1}^T \eta_t = 1):

La capacidad del verificador se ve afectada por datos externos: Uvc(t)=(1+γηt)1Uv(t1)U_v^c(t) = (1 + \gamma\eta_t)^{-1}U_v(t-1)

Proposición 5.1: La incertidumbre final depende solo de t=1Tηt\sum_{t=1}^T \eta_t, no de la distribución específica de ηt\eta_t.

Configuración Experimental

Conjuntos de Datos

  • Math: Conjunto de datos de resolución de problemas matemáticos
  • GSM8k: Conjunto de datos de problemas de matemáticas de primaria
  • ProntoQA: Conjunto de datos de preguntas y respuestas

Modelos

  • Serie Phi: Phi-4-mini, Phi-3.5-mini, Phi-3-mini
  • Serie Llama: Llama-3.2-3B, Llama-3.1-8B

Métodos de Validación

  1. TrueFalse (TF): Puntuación de corrección binaria
  2. Quality Evaluation (QE): Puntuación de calidad continua 0,1

Parámetros Experimentales

  • Tasa de aprendizaje: 1e-5
  • Número de muestras N: 16
  • Rango LoRA: 16
  • Número de rondas de entrenamiento: 10

Resultados Experimentales

Resultados Principales

1. Verificación de Convergencia Exponencial

Los resultados experimentales apoyan fuertemente la ley de convergencia exponencial predicha por la teoría:

  • Bondad de Ajuste: R² > 0.9, indicando que el modelo exponencial describe bien la evolución de la incertidumbre
  • Consistencia: Se observa tendencia exponencial en todas las combinaciones modelo-conjunto de datos

2. Verificación de Brecha Solver-Verificador

  • Universalidad: El verificador siempre supera al solver, con brecha entre 0.067-0.284
  • Estabilidad: La brecha se mantiene consistente en diferentes números de muestras N y escenarios de evaluación cruzada
  • Relación Lineal: La brecha G y su tasa de cambio dG/dt muestran fuerte relación lineal (R² > 0.8)

3. Mejora de Rendimiento

Mejora significativa en todos los modelos después de automejoría:

  • Phi-4-mini: Precisión en Math aumenta de 30.31% a 45.08%, GSM8k de 73.42% a 88.53%
  • Mejoras Similares: Otros modelos también muestran mejoras de 15-25%

Experimentos de Mejora Cruzada

Estrategias de Asignación de Datos Externos

Se prueban tres estrategias: Early (usar todo en primera ronda), Uniform (distribución uniforme), Late (usar en última ronda)

Hallazgos Clave:

  • Diferencia de rendimiento entre estrategias mínima (<2.17%)
  • Valida predicción teórica: el momento de asignación no afecta el rendimiento final
  • La calidad de datos externos es más importante que el momento de uso

Resultados Numéricos

Tomando Phi-4-mini como ejemplo:

  • Conjunto de datos Math: mejora promedio de 1.16% entre tres estrategias
  • Conjunto de datos GSM8k: mejora promedio de 0.10% entre tres estrategias

Experimentos de Ablación

Análisis Pass@K

  • Disminución de Diversidad: Pass@K disminuye con valores K grandes, indicando reducción en diversidad de generación
  • Mejora de Calidad: Pass@K mejora con valores K pequeños, validando efectividad de automejoría
  • Explicación de Convergencia: La reducción de diversidad puede ser razón de saturación de rendimiento

Trabajo Relacionado

Investigación en Automejoría

  1. Categorías de Métodos:
    • Ajuste fino de salida: Entrenamiento basado en datos generados por LLM
    • Autodestilación: Transferencia de conocimiento de modelo grande a pequeño
    • Autocorrección: Identificación y corrección de errores por el modelo
  2. Investigación Teórica:
    • Análisis de tasa de convergencia de modelos lineales
    • Teoría de autodestilación de redes neuronales
    • Automejoría bajo marco de aprendizaje por refuerzo

Investigación en Mejora Cruzada

  1. Datos Anotados Manualmente: Costo alto pero calidad confiable
  2. Datos de Modelo Fuerte: Acceso limitado pero efecto significativo
  3. Utilización de Datos Limitados: Problema central de este trabajo

Conclusiones y Discusión

Conclusiones Principales

  1. Validación Teórica: La brecha solver-verificador efectivamente impulsa la automejoría, la dinámica sigue ley de convergencia exponencial
  2. Capacidad Predictiva: El marco puede predecir trayectorias de entrenamiento y límites de rendimiento
  3. Orientación Práctica: El momento de uso de datos externos es flexible, enfoque en calidad de datos

Limitaciones

  1. Modelado Fenomenológico: Adopta enfoque fenomenológico, carece de derivación desde primeros principios
  2. Aproximación Lineal: La aproximación lineal de función potencial puede limitar rango de aplicabilidad
  3. Supuesto de Invariancia Temporal: En mejora cruzada se asume parámetro de efecto γ invariante en tiempo
  4. Limitación de Conjuntos de Datos: Validación principalmente en tareas de razonamiento matemático

Direcciones Futuras

  1. Exploración de Mecanismos: Investigación profunda de mecanismos de dinámica exponencial a nivel de red neuronal
  2. Relaciones de Parámetros: Investigar relación entre α, β y arquitectura del modelo
  3. Extensión de Aplicaciones: Validar aplicabilidad del marco en más tareas y dominios
  4. Modelado Variante en Tiempo: Relajar supuesto de invariancia temporal, establecer modelo dinámico más preciso

Evaluación Profunda

Fortalezas

  1. Innovación Teórica: Primer marco matemático teórico de automejoría, llena vacío importante
  2. Validación Experimental Suficiente: Verificación completa en múltiples modelos y conjuntos de datos, consistencia fuerte de resultados
  3. Valor Práctico: Proporciona herramientas prácticas para predicción de rendimiento y orientación de entrenamiento
  4. Escritura Clara: Derivación matemática rigurosa, diseño experimental razonable

Insuficiencias

  1. Profundidad Teórica: Modelado fenomenológico carece de explicación de mecanismo profundo
  2. Rango de Aplicabilidad: Validación principalmente en razonamiento matemático, aplicabilidad en otras tareas pendiente
  3. Limitaciones de Supuestos: Múltiples supuestos simplificadores pueden afectar precisión del modelo
  4. Eficiencia Computacional: Discusión insuficiente sobre costo computacional de estrategia Best-of-N

Impacto

  1. Contribución Académica: Proporciona base teórica importante para investigación en automejoría
  2. Orientación Práctica: Proporciona herramientas cuantitativas para optimización de estrategias de entrenamiento de LLM
  3. Investigación Posterior: Puede inspirar más trabajos de modelado teórico
  4. Escenarios Aplicables: Orientación para diseño de estrategia de automejoría, predicción de rendimiento, asignación de recursos, investigación teórica

Escenarios de Aplicabilidad

  1. Entrenamiento de LLM: Orientación para diseño de estrategia de automejoría
  2. Predicción de Rendimiento: Estimación de trayectoria de entrenamiento y punto de convergencia
  3. Asignación de Recursos: Optimización de estrategia de uso de datos externos
  4. Investigación Teórica: Proporciona base para exploración de mecanismos posterior

Referencias

Las referencias clave incluyen:

  1. Song et al. (2025): Propone concepto de brecha generación-verificación
  2. Huang et al. (2025): Teoría de mecanismo de afilado
  3. Zelikman et al. (2022): Método de automejoría STaR
  4. Wang et al. (2023): Método Self-Instruct

Evaluación General: Este es un artículo de investigación teórica de alta calidad que proporciona el primer marco teórico matemático sistemático en el importante campo de automejoría de LLM. A pesar de algunas limitaciones en profundidad teórica y rango de aplicabilidad, su innovación, suficiencia de validación experimental y valor práctico son destacados, teniendo importancia significativa para impulsar el desarrollo teórico del campo.