2025-11-16T11:43:12.671286

Test-Time Alignment of LLMs via Sampling-Based Optimal Control in pre-logit space

Kanai, Yoshida, Takahashi et al.

Test-time alignment of large language models (LLMs) attracts attention because fine-tuning LLMs requires high computational costs. In this paper, we propose a new test-time alignment method called adaptive importance sampling on pre-logits (AISP) on the basis of the sampling-based model predictive control with the stochastic control input. AISP applies the Gaussian perturbation into pre-logits, which are outputs of the penultimate layer, so as to maximize expected rewards with respect to the mean of the perturbation. We demonstrate that the optimal mean is obtained by importance sampling with sampled rewards. AISP outperforms best-of-n sampling in terms of rewards over the number of used samples and achieves higher rewards than other reward-based test-time alignment methods.

academic

पूर्व-लॉजिट स्पेस में नमूना-आधारित इष्टतम नियंत्रण के माध्यम से LLM का परीक्षण-समय संरेखण

मूल जानकारी

पेपर ID: 2510.26219
शीर्षक: Test-Time Alignment of LLMs via Sampling-Based Optimal Control in pre-logit space
लेखक: Sekitoshi Kanai, Tsukasa Yoshida, Hiroshi Takahashi (NTT, Inc.), Haru Kuroki, Kazumune Hashimoto (The University of Osaka)
वर्गीकरण: cs.LG cs.AI
प्रकाशन तिथि: 30 अक्टूबर 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.26219v1

सारांश

बड़े भाषा मॉडल (LLM) का परीक्षण-समय संरेखण महंगे फाइन-ट्यूनिंग लागत से बचने के लिए ध्यान आकर्षित कर रहा है। यह पेपर एक नई परीक्षण-समय संरेखण विधि प्रस्तावित करता है - पूर्व-लॉजिट अनुकूली महत्व नमूनाकरण (AISP), जो यादृच्छिक नियंत्रण इनपुट के साथ नमूना मॉडल पूर्वानुमानित नियंत्रण पर आधारित है। AISP अंतिम-से-पहले परत आउटपुट (पूर्व-लॉजिट) पर गॉसियन विक्षोभ लागू करता है, विक्षोभ माध्य के अपेक्षित पुरस्कार को अधिकतम करके संरेखण प्राप्त करता है। पेपर साबित करता है कि इष्टतम माध्य नमूना पुरस्कार पर महत्व नमूनाकरण के माध्यम से प्राप्त किया जा सकता है। AISP नमूना उपयोग दक्षता में सर्वश्रेष्ठ-n नमूनाकरण से बेहतर है, और पुरस्कार मूल्य में अन्य पुरस्कार-आधारित परीक्षण-समय संरेखण विधियों को पार करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या को हल करना

बड़े भाषा मॉडल का संरेखण LLM सुरक्षा और व्यापक अनुप्रयोग सुनिश्चित करने के लिए एक महत्वपूर्ण तकनीक है। मानव प्रतिक्रिया से सुदृढीकरण सीखना (RLHF) की पारंपरिक विधि को LLM पैरामीटर को फाइन-ट्यून करने की आवश्यकता होती है, जिससे विशाल कम्प्यूटेशनल लागत आती है। परीक्षण-समय संरेखण (test-time alignment) का लक्ष्य मॉडल पैरामीटर को अपडेट किए बिना LLM को मानव वरीयताओं के अनुरूप प्रतिक्रियाएं उत्पन्न करना है।

समस्या की महत्ता

कम्प्यूटेशनल लागत: बड़े पैमाने पर LLM को फाइन-ट्यून करने के लिए बड़ी मात्रा में GPU संसाधन और प्रशिक्षण समय की आवश्यकता होती है
लचीलापन: परीक्षण-समय संरेखण अनुमान चरण में मॉडल व्यवहार को गतिशील रूप से समायोजित करने की अनुमति देता है
व्यावहारिकता: प्रत्येक विशिष्ट कार्य के लिए मॉडल को फिर से प्रशिक्षित करने की आवश्यकता नहीं है

मौजूदा विधियों की सीमाएं

Best-of-N (BoN) नमूनाकरण: सरल और प्रभावी होने के बावजूद, सक्रिय रूप से इष्टतम प्रतिक्रिया की खोज नहीं करता है, नमूना दक्षता कम है
RE-Control: मूल्य फ़ंक्शन को प्रशिक्षित करने की आवश्यकता है, बड़े डेटासेट (जैसे 349,000 प्रशिक्षण नमूने) और भंडारण लागत की आवश्यकता है
पारंपरिक इष्टतम नियंत्रण: गैर-रैखिक, बड़े पैमाने पर LLM सिस्टम के लिए उपयुक्त नहीं है

अनुसंधान प्रेरणा

क्या प्रशिक्षण-मुक्त विधि के माध्यम से LLM को इष्टतम प्रतिक्रिया की खोज के लिए नियंत्रित किया जा सकता है? यह पेपर नियंत्रण सिद्धांत के दृष्टिकोण से शुरू होता है, नमूना-आधारित मॉडल पूर्वानुमानित नियंत्रण (MPPI) तकनीक को अपनाता है, और एक प्रशिक्षण-मुक्त परीक्षण-समय संरेखण विधि प्रस्तावित करता है।

मुख्य योगदान

AISP विधि प्रस्तावित करना: पहली बार नमूना-आधारित मॉडल पूर्वानुमानित नियंत्रण (MPPI) को LLM संरेखण पर लागू करना, पूर्व-लॉजिट स्पेस में गॉसियन विक्षोभ लागू करके प्रशिक्षण-मुक्त परीक्षण-समय संरेखण प्राप्त करना
सैद्धांतिक योगदान:
- साबित करता है कि इष्टतम पूर्व-लॉजिट वितरण मुक्त ऊर्जा (free energy) सीमा के माध्यम से प्राप्त किया जा सकता है
- अनुकूली महत्व नमूनाकरण के आधार पर बंद-रूप समाधान प्राप्त करता है
- AISP और BoN के बीच सैद्धांतिक संबंध प्रकट करता है (विशिष्ट पैरामीटर के तहत AISP BoN में विघटित होता है)
गॉसियन धारणा की तर्कसंगतता विश्लेषण: पूर्व-लॉजिट के गॉसियन वितरण धारणा और तंत्रिका नेटवर्क softmax परत के आंतरिक संबंध का तर्क देता है
प्रदर्शन सुधार:
- नमूना दक्षता में BoN से काफी बेहतर (समान नमूने संख्या के तहत उच्च पुरस्कार प्राप्त करता है)
- प्रशिक्षण के बिना RE-Control से आगे निकल जाता है
- Batched AISP प्रस्तावित करता है समानांतर त्वरण के लिए