2025-11-16T11:43:12.671286

Test-Time Alignment of LLMs via Sampling-Based Optimal Control in pre-logit space

Kanai, Yoshida, Takahashi et al.

Test-time alignment of large language models (LLMs) attracts attention because fine-tuning LLMs requires high computational costs. In this paper, we propose a new test-time alignment method called adaptive importance sampling on pre-logits (AISP) on the basis of the sampling-based model predictive control with the stochastic control input. AISP applies the Gaussian perturbation into pre-logits, which are outputs of the penultimate layer, so as to maximize expected rewards with respect to the mean of the perturbation. We demonstrate that the optimal mean is obtained by importance sampling with sampled rewards. AISP outperforms best-of-n sampling in terms of rewards over the number of used samples and achieves higher rewards than other reward-based test-time alignment methods.

academic

Allineamento Test-Time di LLM tramite Controllo Ottimale Basato su Campionamento nello Spazio Pre-logit

Informazioni Fondamentali

ID Articolo: 2510.26219
Titolo: Test-Time Alignment of LLMs via Sampling-Based Optimal Control in pre-logit space
Autori: Sekitoshi Kanai, Tsukasa Yoshida, Hiroshi Takahashi (NTT, Inc.), Haru Kuroki, Kazumune Hashimoto (The University of Osaka)
Classificazione: cs.LG cs.AI
Data di Pubblicazione: 30 ottobre 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2510.26219v1

Riassunto

L'allineamento test-time dei modelli linguistici di grandi dimensioni (LLM) ha attirato attenzione per evitare i costi elevati del fine-tuning. Questo articolo propone un nuovo metodo di allineamento test-time denominato Adaptive Importance Sampling in Pre-logit space (AISP), basato sul controllo predittivo del modello con campionamento con ingressi di controllo stocastici. AISP applica perturbazioni gaussiane agli output dello strato penultimo (pre-logits), realizzando l'allineamento massimizzando la ricompensa attesa della media perturbata. L'articolo dimostra che la media ottimale può essere ottenuta attraverso il campionamento per importanza delle ricompense campionate. AISP supera il campionamento best-of-n in termini di efficienza nell'uso dei campioni e supera altri metodi di allineamento test-time basati su ricompensa nei valori di ricompensa.

Contesto di Ricerca e Motivazione

Problema da Risolvere

L'allineamento dei modelli linguistici di grandi dimensioni è una tecnologia chiave per garantire la sicurezza degli LLM e la loro ampia applicazione. I metodi tradizionali di apprendimento per rinforzo da feedback umano (RLHF) richiedono il fine-tuning dei parametri dell'LLM, comportando enormi costi computazionali. L'allineamento test-time (test-time alignment) mira a generare risposte conformi alle preferenze umane senza aggiornare i parametri del modello durante l'inferenza.

Importanza del Problema

Costo Computazionale: Il fine-tuning di LLM su larga scala richiede risorse GPU significative e tempo di addestramento
Flessibilità: L'allineamento test-time consente di regolare dinamicamente il comportamento del modello durante la fase di inferenza
Praticità: Elimina la necessità di riaddestrare il modello per ogni compito specifico

Limitazioni dei Metodi Esistenti

Campionamento Best-of-N (BoN): Sebbene semplice ed efficace, non esplora attivamente risposte ottimali, con bassa efficienza campionaria
RE-Control: Richiede l'addestramento di una funzione di valore, necessitando di grandi dataset (ad es. 349.000 campioni di addestramento) e costi di archiviazione
Controllo Ottimale Tradizionale: Non applicabile a sistemi non lineari e su larga scala come gli LLM

Motivazione della Ricerca

È possibile controllare gli LLM nell'esplorazione di risposte ottimali attraverso metodi che non richiedono addestramento? Questo articolo parte da una prospettiva della teoria del controllo, adottando la tecnica del controllo predittivo del modello basato su campionamento (MPPI), proponendo un metodo di allineamento test-time senza necessità di addestramento.

Contributi Fondamentali

Propone il Metodo AISP: Applica per la prima volta il controllo predittivo del modello basato su campionamento (MPPI) all'allineamento di LLM, realizzando l'allineamento test-time senza addestramento attraverso perturbazioni gaussiane nello spazio pre-logit
Contributi Teorici:
- Dimostra che la distribuzione pre-logit ottimale può essere ottenuta attraverso il limite dell'energia libera (free energy)
- Deriva la soluzione in forma chiusa basata sul campionamento per importanza adattivo
- Rivela il collegamento teorico tra AISP e BoN (AISP degenera in BoN sotto parametri specifici)
Analisi della Ragionevolezza dell'Assunzione Gaussiana: Argomenta il collegamento tra l'assunzione di distribuzione gaussiana del pre-logit e i presupposti intrinseci dello strato softmax della rete neurale
Miglioramento delle Prestazioni:
- Significativamente superiore a BoN in efficienza campionaria (ricompensa più alta con lo stesso numero di campioni)
- Supera RE-Control senza necessità di addestramento
- Propone AISP in Batch per l'accelerazione parallela

Dettagli del Metodo

Definizione del Compito

Dato un prompt di input $x = [x_1, ..., x_{T_x}]$ , l'LLM genera una risposta $y = [y_1, ..., y_{T_y}]$ . L'obiettivo è massimizzare la ricompensa attesa mantenendo un vincolo di divergenza KL rispetto all'LLM base, dato un modello di ricompensa $r(x,y)$ :

$\min_U J(x, U) = -\mathbb{E}_{V\sim Q_{U,\sigma^2}}[r(x,y(V))] + \lambda D_{KL}(Q_{U,\sigma^2}|P)$

Architettura del Modello

1. Progettazione dell'Ingresso di Controllo Stocastico

A differenza di RE-Control che utilizza ingressi di controllo deterministici, AISP utilizza ingressi di controllo stocastici $v_t \sim \mathcal{N}(u_t, \sigma^2I)$ :