Self-improvement is among the most prominent techniques within the realm of large language models (LLM), aiming to enhance the LLM performance without relying on external data. Despite its significance, generally how LLM performances evolve during the self-improvement process remains underexplored. In this paper, we theoretically model the training dynamics of self-improvement via the concept of solver-verifier gap. This is inspired by the conjecture that the performance enhancement of self-improvement stems from the gap between LLM's solver capability and verifier capability. Based on the theoretical framework, we further show how to model the entire training trajectory. This framework allows quantifying the capability limit of self-improvement by fitting the theoretical model to the experiment results. We empirically validate the effectiveness of the theoretical framework on various LLMs and datasets. Beyond self-improvement, we extend our analysis to investigate how external data influences these dynamics within the framework. Notably, we find that under limited external data regimes, such external data can be utilized at any stage without significantly affecting final performances, which accords with the empirical observations.
- ID Articolo: 2507.00075
- Titolo: Theoretical Modeling of LLM Self-Improvement Training Dynamics Through Solver-Verifier Gap
- Autori: Yifan Sun*, Yushan Liang*, Zhen Zhang, Jiaye Teng (Scuola di Statistica e Data Science, Università Finanziaria di Shanghai)
- Classificazione: cs.LG cs.AI
- Data di Pubblicazione: arXiv:2507.00075v3 cs.LG 10 Ott 2025
- Link Articolo: https://arxiv.org/abs/2507.00075v3
L'auto-miglioramento dei modelli di linguaggio di grandi dimensioni rappresenta una delle tecnologie più importanti attuali, mirando a migliorare le prestazioni degli LLM senza dipendere da dati esterni. Nonostante la sua rilevanza significativa, i meccanismi di evoluzione delle prestazioni degli LLM durante il processo di auto-miglioramento rimangono ancora insufficientemente esplorati. Questo articolo fornisce una modellazione teorica della dinamica di addestramento dell'auto-miglioramento attraverso il concetto di divario solver-verifier. La ricerca si basa su un'ipotesi fondamentale: il miglioramento delle prestazioni nell'auto-miglioramento deriva dal divario tra la capacità del risolutore LLM e la capacità del verificatore. Basandosi sul framework teorico, gli autori dimostrano come modellare l'intera traiettoria di addestramento e quantificare i limiti di capacità dell'auto-miglioramento adattando il modello teorico ai risultati sperimentali. Gli autori validano l'efficacia del framework teorico su più LLM e dataset, estendendo ulteriormente l'analisi su come i dati esterni influenzano questi processi dinamici.
- Problema Centrale: Mancanza di comprensione teorica dell'evoluzione delle prestazioni durante il processo di auto-miglioramento degli LLM, in particolare della modellazione matematica della dinamica di addestramento
- Importanza:
- Collo di bottiglia dei dati: la raccolta di dati su larga scala affronta sfide significative, con possibile esaurimento dei dati in futuro
- Necessità di apprendimento autonomo: i modelli devono essere in grado di adattarsi e evolversi autonomamente
- Vuoto teorico: i lavori esistenti si concentrano principalmente sull'efficacia dei metodi, mancando di una comprensione approfondita dei meccanismi
- Insufficienza Teorica: Mancanza di modelli teorici della dinamica dell'auto-miglioramento
- Meccanismi Poco Chiari: Comprensione limitata dei fattori trainanti del miglioramento delle prestazioni
- Capacità Predittiva Debole: Impossibilità di prevedere le traiettorie di addestramento e i limiti di prestazione
Basandosi sui lavori di Song et al. (2025) e Huang et al. (2025), gli autori propongono che il divario solver-verifier sia il fattore trainante chiave dell'auto-miglioramento e stabiliscono un framework matematico per descrivere questo processo.
- Framework Teorico: Propone un modello teorico della dinamica dell'auto-miglioramento basato sul divario di capacità solver-verifier, derivando leggi di convergenza esponenziale
- Modellazione Matematica: Stabilisce un sistema di equazioni differenziali accoppiate che descrivono la dinamica di addestramento e ottiene soluzioni analitiche
- Validazione Sperimentale: Verifica le previsioni teoriche su più modelli (serie Phi, serie Llama) e dataset (Math, GSM8k)
- Analisi dell'Miglioramento Incrociato: Estende il framework per analizzare l'impatto dei dati esterni, scoprendo che con dati esterni limitati, il momento di utilizzo ha scarso impatto sulle prestazioni finali
Risolutore (Solver): Capacità del modello di generare direttamente risposte, misurata dall'incertezza:
Us(t)=−n1∑i=1nlogπf(y^i(t)∣xi)
Verificatore (Verifier): Capacità del modello di valutare e selezionare la risposta migliore, basata sulla strategia Best-of-N:
y^iBoN=argmin{y^i,j:s(y^i,j)≥σ}L(y^i,j)1Uf(y^i,j∣xi)
Incertezza del verificatore:
Uv(t)=−n1∑i=1nlogπf(y^iBoN(t)∣xi)
G(t)=Us(t)−Uv(t)=−n1∑i=1nlogπf(y^iBoN(t)∣xi)πf(y^i(t)∣xi)
Ispirato dal concetto di energia potenziale in fisica, si stabilisce un sistema di equazioni differenziali accoppiate:
dtdUs(t)=−αE(t),dtdUv(t)=−βE(t)
dove E(t) è l'"energia potenziale del divario" e α>β>0 sono coefficienti.
Espansione di Taylor del primo ordine della funzione potenziale: E(t)≈kG(t)−b
Proposizione 3.1: Sotto la condizione k(α−β)>0, la dinamica di capacità segue un decadimento esponenziale:
Us(t)≈α′e−k(α−β)t+Us,∞Uv(t)≈β′e−k(α−β)t+Uv,∞G(t)≈δe−k(α−β)t+G∞
dove:
- α′=α−βαδ, β′=α−ββδ
- δ=Us,0−Uv,0−kb
- Us,∞=Us,0−α′, Uv,∞=Uv,0−β′
Per dati esterni limitati M, utilizzando una proporzione ηt al round t (soddisfacendo ∑t=1Tηt=1):
La capacità del verificatore è influenzata dai dati esterni:
Uvc(t)=(1+γηt)−1Uv(t−1)
Proposizione 5.1: L'incertezza finale dipende solo da ∑t=1Tηt, non dalla distribuzione specifica di ηt.
- Math: Dataset di risoluzione di problemi matematici
- GSM8k: Dataset di problemi di matematica elementare
- ProntoQA: Dataset di domande e risposte
- Serie Phi: Phi-4-mini, Phi-3.5-mini, Phi-3-mini
- Serie Llama: Llama-3.2-3B, Llama-3.1-8B
- TrueFalse (TF): Punteggio di correttezza binaria
- Quality Evaluation (QE): Punteggio di qualità continua 0,1
- Tasso di apprendimento: 1e-5
- Numero di campioni N: 16
- Rank LoRA: 16
- Numero di round di addestramento: 10
I risultati sperimentali supportano fortemente la legge di convergenza esponenziale prevista dalla teoria:
- Bontà di Adattamento: R² > 0.9, indicando che il modello esponenziale descrive bene l'evoluzione dell'incertezza
- Coerenza: Tendenze esponenziali osservate in tutte le combinazioni modello-dataset
- Universalità: Il verificatore supera sempre il risolutore, con divario tra 0.067-0.284
- Stabilità: Il divario rimane coerente in diversi numeri di campioni N e scenari di valutazione incrociata
- Relazione Lineare: Il divario G e il suo tasso di variazione dG/dt mostrano una forte relazione lineare (R² > 0.8)
Significativi miglioramenti in tutti i modelli dopo l'auto-miglioramento:
- Phi-4-mini: Accuratezza su Math da 30.31% a 45.08%, su GSM8k da 73.42% a 88.53%
- Miglioramenti Simili: Altri modelli mostrano miglioramenti del 15-25%
Test di tre strategie: Early (utilizzo completo nel primo round), Uniform (allocazione uniforme), Late (utilizzo nell'ultimo round)
Scoperte Chiave:
- Differenze di prestazione minime tra strategie (<2.17%)
- Verifica della previsione teorica: il momento di allocazione non influenza le prestazioni finali
- La qualità dei dati esterni è più importante del momento di utilizzo
Usando Phi-4-mini come esempio:
- Dataset Math: miglioramento medio del 1.16% tra le tre strategie
- Dataset GSM8k: miglioramento medio dello 0.10% tra le tre strategie
- Diminuzione della Diversità: Pass@K diminuisce con K elevato, indicando ridotta diversità generativa
- Miglioramento della Qualità: Pass@K migliora con K basso, verificando l'efficacia dell'auto-miglioramento
- Spiegazione della Convergenza: La ridotta diversità potrebbe essere la ragione della saturazione delle prestazioni
- Categorie di Metodi:
- Fine-tuning dell'output: addestramento basato su dati generati da LLM
- Auto-distillazione: trasferimento di conoscenza da modelli grandi a piccoli
- Auto-correzione: il modello identifica e corregge gli errori
- Ricerca Teorica:
- Analisi del tasso di convergenza per modelli lineari
- Teoria dell'auto-distillazione per reti neurali
- Auto-miglioramento nel framework dell'apprendimento per rinforzo
- Dati Annotati Manualmente: Costi elevati ma qualità affidabile
- Dati da Modelli Forti: Accesso limitato ma effetti significativi
- Utilizzo di Dati Limitati: Problema centrale affrontato in questo articolo
- Verifica Teorica: Il divario solver-verifier effettivamente guida l'auto-miglioramento, con dinamica che segue leggi di convergenza esponenziale
- Capacità Predittiva: Il framework può prevedere traiettorie di addestramento e limiti di prestazione
- Guida Pratica: Il momento di utilizzo dei dati esterni è flessibile, con focus sulla qualità dei dati
- Modellazione Fenomenologica: Adotta un approccio fenomenologico, mancando di derivazione dai principi primi
- Approssimazione Lineare: L'approssimazione lineare della funzione potenziale potrebbe limitare l'intervallo di applicabilità
- Ipotesi di Invarianza Temporale: Nell'miglioramento incrociato si assume che il parametro di effetto γ sia invariante nel tempo
- Limitazioni dei Dataset: Validazione principalmente su compiti di ragionamento matematico
- Esplorazione dei Meccanismi: Ricerca approfondita dei meccanismi a livello di rete neurale della dinamica esponenziale
- Relazioni Parametriche: Studio della relazione tra α, β e l'architettura del modello
- Applicazioni Estese: Validazione dell'applicabilità del framework in più compiti e domini
- Modellazione Variante nel Tempo: Rilassamento dell'ipotesi di invarianza temporale, stabilendo modelli dinamici più precisi
- Innovazione Teorica: Primo framework matematico teorico per l'auto-miglioramento, colmando un vuoto importante
- Validazione Sperimentale Completa: Verifica comprensiva su più modelli e dataset, con forte coerenza dei risultati
- Valore Pratico: Fornisce strumenti pratici per la previsione delle prestazioni e la guida dell'addestramento
- Chiarezza della Presentazione: Derivazioni matematiche rigorose e design sperimentale razionale
- Profondità Teorica: La modellazione fenomenologica manca di spiegazione dei meccanismi sottostanti
- Intervallo di Applicabilità: Validazione principalmente su ragionamento matematico, applicabilità ad altri compiti da verificare
- Limitazioni delle Ipotesi: Molteplici ipotesi semplificative potrebbero influenzare l'accuratezza del modello
- Efficienza Computazionale: Discussione insufficiente del costo computazionale della strategia Best-of-N
- Contributo Accademico: Fornisce fondamenti teorici importanti per la ricerca sull'auto-miglioramento
- Guida Pratica: Fornisce strumenti quantitativi per l'ottimizzazione delle strategie di addestramento degli LLM
- Ricerca Successiva: Potrebbe stimolare ulteriori lavori di modellazione teorica
- Addestramento degli LLM: Guida la progettazione di strategie di auto-miglioramento
- Previsione delle Prestazioni: Stima delle traiettorie di addestramento e punti di convergenza
- Allocazione delle Risorse: Ottimizzazione delle strategie di utilizzo dei dati esterni
- Ricerca Teorica: Fornisce base per ulteriore esplorazione dei meccanismi
Le referenze chiave includono:
- Song et al. (2025): Propone il concetto di divario generazione-verifica
- Huang et al. (2025): Teoria del meccanismo di affinamento
- Zelikman et al. (2022): Metodo di auto-miglioramento STaR
- Wang et al. (2023): Metodo Self-Instruct
Valutazione Complessiva: Questo è un articolo di ricerca teorica di alta qualità che fornisce il primo framework matematico sistematico nel importante campo dell'auto-miglioramento degli LLM. Nonostante alcune limitazioni nella profondità teorica e nell'intervallo di applicabilità, la sua innovatività, la completezza della validazione sperimentale e il valore pratico sono tutti eccezionali, con significato importante per promuovere lo sviluppo teorico in questo campo.