2025-11-16T11:43:12.671286

Test-Time Alignment of LLMs via Sampling-Based Optimal Control in pre-logit space

Kanai, Yoshida, Takahashi et al.

Test-time alignment of large language models (LLMs) attracts attention because fine-tuning LLMs requires high computational costs. In this paper, we propose a new test-time alignment method called adaptive importance sampling on pre-logits (AISP) on the basis of the sampling-based model predictive control with the stochastic control input. AISP applies the Gaussian perturbation into pre-logits, which are outputs of the penultimate layer, so as to maximize expected rewards with respect to the mean of the perturbation. We demonstrate that the optimal mean is obtained by importance sampling with sampled rewards. AISP outperforms best-of-n sampling in terms of rewards over the number of used samples and achieves higher rewards than other reward-based test-time alignment methods.

academic

Test-Time Alignment von LLMs durch Sampling-basierte optimale Kontrolle im Pre-Logit-Raum

Grundinformationen

Paper-ID: 2510.26219
Titel: Test-Time Alignment of LLMs via Sampling-Based Optimal Control in pre-logit space
Autoren: Sekitoshi Kanai, Tsukasa Yoshida, Hiroshi Takahashi (NTT, Inc.), Haru Kuroki, Kazumune Hashimoto (The University of Osaka)
Klassifizierung: cs.LG cs.AI
Veröffentlichungsdatum: 30. Oktober 2025 (arXiv Preprint)
Paper-Link: https://arxiv.org/abs/2510.26219v1

Zusammenfassung

Die Test-Zeit-Ausrichtung großer Sprachmodelle (LLMs) hat aufgrund der Vermeidung kostspieliger Feinabstimmung an Aufmerksamkeit gewonnen. Dieses Paper präsentiert eine neue Test-Zeit-Ausrichtungsmethode – Adaptive Importance Sampling in Pre-Logit-Raum (AISP) – die auf stochastischer Modellvorhersageregelung mit zufälligen Steuereingaben basiert. AISP wendet Gaußsche Störungen auf die Ausgabe der vorletzten Schicht (Pre-Logits) an und erreicht Ausrichtung durch Maximierung der erwarteten Belohnung der gestörten Mittelwerte. Das Paper beweist, dass der optimale Mittelwert durch Importance Sampling der Stichprobenbelohnungen erhalten werden kann. AISP übertrifft Best-of-N-Sampling in der Stichprobeneffizienz und übertrifft andere belohnungsbasierte Test-Zeit-Ausrichtungsmethoden in Belohnungswerten.

Forschungshintergrund und Motivation

Zu lösende Probleme

Die Ausrichtung großer Sprachmodelle ist eine Schlüsseltechnologie zur Gewährleistung der LLM-Sicherheit und breiter Anwendung. Traditionelle Methoden des Reinforcement Learning from Human Feedback (RLHF) erfordern die Feinabstimmung von LLM-Parametern, was enorme Rechenkosten mit sich bringt. Test-Zeit-Ausrichtung zielt darauf ab, dass LLMs menschliche Vorlieben entsprechende Antworten generieren, ohne Modellparameter zu aktualisieren.

Bedeutung des Problems

Rechenkosten: Die Feinabstimmung großflächiger LLMs erfordert erhebliche GPU-Ressourcen und Trainingszeit
Flexibilität: Test-Zeit-Ausrichtung ermöglicht dynamische Anpassung des Modellverhaltens in der Inferenzphase
Praktikabilität: Keine Notwendigkeit, Modelle für jede spezifische Aufgabe neu zu trainieren

Einschränkungen bestehender Methoden

Best-of-N (BoN) Sampling: Obwohl einfach und effektiv, erkundet es nicht aktiv optimale Antworten, mit niedriger Stichprobeneffizienz
RE-Control: Erfordert Trainieren von Wertfunktionen, benötigt große Datensätze (z.B. 349.000 Trainingsmuster) und Speicherkosten
Traditionelle optimale Kontrolle: Nicht geeignet für nichtlineare, großflächige LLM-Systeme

Forschungsmotivation

Kann man durch trainingsfreie Methoden LLMs steuern, um optimale Antworten zu erkunden? Dieses Paper geht von der Kontrolltheorie aus und wendet Sampling-basierte Modellvorhersageregelung (MPPI) an, um eine trainingsfreie Test-Zeit-Ausrichtungsmethode vorzuschlagen.

Kernbeiträge

Vorschlag der AISP-Methode: Erstmalige Anwendung von Sampling-basierter Modellvorhersageregelung (MPPI) auf LLM-Ausrichtung durch Anwendung von Gaußschen Störungen im Pre-Logit-Raum zur Erreichung trainingsfreier Test-Zeit-Ausrichtung
Theoretische Beiträge:
- Beweis, dass die optimale Pre-Logit-Verteilung durch die Freie-Energie-Grenze erhalten werden kann
- Herleitung einer geschlossenen Lösung basierend auf adaptivem Importance Sampling
- Offenlegung der theoretischen Verbindung zwischen AISP und BoN (unter bestimmten Parametern degeneriert AISP zu BoN)
Rationalitätsanalyse der Gaußschen Annahme: Argumentation für die Verbindung zwischen der Gaußschen Verteilungsannahme von Pre-Logits und der inneren Struktur der Softmax-Schicht neuronaler Netze
Leistungsverbesserung:
- Signifikant höhere Stichprobeneffizienz als BoN (höhere Belohnung bei gleicher Stichprobenzahl)
- Übertreffung von RE-Control ohne Training erforderlich
- Vorschlag von Batched AISP für Parallelisierungsbeschleunigung

Methodendetails

Aufgabendefinition

Gegeben ein Eingabe-Prompt $x = [x_1, ..., x_{T_x}]$ generiert das LLM eine Antwort $y = [y_1, ..., y_{T_y}]$ . Das Ziel ist, bei gegebenem Belohnungsmodell $r(x,y)$ die erwartete Belohnung zu maximieren, während die KL-Divergenz-Einschränkung zur Basis-LLM beibehalten wird:

$\min_U J(x, U) = -\mathbb{E}_{V\sim Q_{U,\sigma^2}}[r(x,y(V))] + \lambda D_{KL}(Q_{U,\sigma^2}|P)$

Modellarchitektur

1. Entwurf stochastischer Steuereingaben

Im Gegensatz zu RE-Control, das deterministische Steuereingaben verwendet, nutzt AISP stochastische Steuereingaben $v_t \sim \mathcal{N}(u_t, \sigma^2I)$ :