2025-11-25T18:43:18.843313

Test-Time Alignment for Large Language Models via Textual Model Predictive Control

Wang, Chen, Hung et al.

Aligning Large Language Models (LLMs) with human preferences through finetuning is resource-intensive, motivating lightweight alternatives at test time. We address test-time alignment through the lens of sequential decision making, a perspective that reveals two fundamental challenges. When actions are defined at the token level, as in guided decoding, alignment suffers from the curse of horizon. Conversely, when actions are at the response level, as in traditional iterative refinement, the curse of dimensionality emerges. To resolve this trade-off, we draw inspiration from Model Predictive Control (MPC) in control theory to propose Textual Model Predictive Control (TMPC), a novel predictive planning framework adapted for aligning LLMs at inference time. A key limitation of standard MPC is its reliance on predefined, hard segment boundaries, which are often absent in text generation. TMPC overcomes this by introducing two principles inspired by hierarchical reinforcement learning: (1) Hindsight Subgoal Identification, where TMPC analyzes generation subgoals to retrospectively identify high-reward intermediate outputs as subgoals. This allows the framework to discover meaningful, task-specific planning steps (e.g., a sentence in machine translation or a bug fix in code generation.). (2) Subgoal-Conditioned Re-Generation, where these identified subgoals are used to guide subsequent planning iterations. By conditioning on these proven, high-quality subgoals, TMPC ensures stable improvement by building upon previously validated successes. TMPC is evaluated on three tasks with distinct segmentation properties: discourse-level translation, long-form response generation, and program synthesis. The results demonstrate that TMPC consistently improves performance, highlighting the generality.

academic

बड़े भाषा मॉडल के लिए पाठ्य मॉडल पूर्वानुमानित नियंत्रण के माध्यम से परीक्षण-समय संरेखण

बुनियादी जानकारी

पेपर ID: 2502.20795
शीर्षक: Test-Time Alignment for Large Language Models via Textual Model Predictive Control
लेखक: Kuang-Da Wang, Teng-Ruei Chen, Yu-Heng Hung, Guo-Xun Ko, Shuoyang Ding, Yueh-Hua Wu, Yu-Chiang Frank Wang, Chao-Han Huck Yang, Wen-Chih Peng, Ping-Chun Hsieh
संस्थान: National Yang Ming Chiao Tung University, NVIDIA
वर्गीकरण: cs.CL (कम्प्यूटेशनल भाषाविज्ञान)
प्रकाशन समय: फरवरी 2025
पेपर लिंक: https://arxiv.org/abs/2502.20795v3

सारांश

बड़े भाषा मॉडल को मानव वरीयताओं के साथ संरेखित करने के लिए आमतौर पर सूक्ष्म-ट्यूनिंग की आवश्यकता होती है, लेकिन यह विधि संसाधन-गहन है, इसलिए हल्के-फुल्के परीक्षण-समय संरेखण विकल्प की आवश्यकता है। यह पेपर अनुक्रमिक निर्णय लेने के दृष्टिकोण से परीक्षण-समय संरेखण समस्या को संबोधित करता है और दो मौलिक चुनौतियों को प्रकट करता है: जब क्रिया टोकन स्तर पर परिभाषित होती है (जैसे निर्देशित डिकोडिंग), तो संरेखण "आयाम श्राप" का सामना करता है; जब क्रिया प्रतिक्रिया स्तर पर परिभाषित होती है (जैसे पारंपरिक पुनरावृत्तिमूलक अनुकूलन), तो यह "समय आयाम श्राप" का सामना करता है। इस संतुलन को हल करने के लिए, लेखक नियंत्रण सिद्धांत से मॉडल पूर्वानुमानित नियंत्रण (MPC) से प्रेरणा लेते हैं और पाठ्य मॉडल पूर्वानुमानित नियंत्रण (TMPC) प्रस्तावित करते हैं, जो अनुमान समय LLM संरेखण के लिए एक नया पूर्वानुमानित नियोजन ढांचा है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या की पृष्ठभूमि

संरेखण समस्या की महत्ता: हालांकि बड़े भाषा मॉडल विभिन्न NLP कार्यों पर उत्कृष्ट प्रदर्शन करते हैं, लेकिन उनके आउटपुट को मानव वरीयताओं के साथ संरेखित करना अभी भी एक महत्वपूर्ण चुनौती है, विशेष रूप से छोटे पैमाने के LLM (जैसे 10B पैरामीटर से कम) के लिए।
पारंपरिक विधियों की सीमाएं:
- प्रशिक्षण-समय संरेखण विधियां (जैसे RLHF, DPO) संसाधन-गहन हैं, महंगे पुनः प्रशिक्षण की आवश्यकता है
- परीक्षण-समय संरेखण विधियां मौलिक संतुलन का सामना करती हैं:
  - टोकन-स्तरीय निर्देशित डिकोडिंग "क्षितिज का श्राप" का सामना करती है
  - प्रतिक्रिया-स्तरीय पुनरावृत्तिमूलक अनुकूलन "आयाम श्राप" का सामना करता है
अनुसंधान प्रेरणा: एक ऐसी विधि की आवश्यकता है जो महंगे मॉडल पुनः प्रशिक्षण से बचे और समय आयाम और खोज स्थान जटिलता के बीच प्रभावी ढंग से संतुलन बनाए।

मुख्य योगदान

नवीन समस्या मॉडलिंग: पहली बार परीक्षण-समय संरेखण समस्या को अनुक्रमिक निर्णय लेने की समस्या के रूप में मॉडल किया, मौजूदा विधियों को एकीकृत किया और उनके मौलिक संतुलन को प्रकट किया।
TMPC ढांचा: पाठ्य मॉडल पूर्वानुमानित नियंत्रण ढांचा प्रस्तावित किया, नियंत्रण सिद्धांत अवधारणाओं को भाषा पीढ़ी कार्यों के लिए अनुकूलित किया।
दो मुख्य सिद्धांत:
- पश्चदृष्टि उप-लक्ष्य पहचान (Hindsight Subgoal Identification): रोलआउट से अर्थपूर्ण नियोजन चरणों की खोज
- उप-लक्ष्य-सशर्त पुनः पीढ़ी (Subgoal-Conditioned Re-Generation): सत्यापित उप-लक्ष्यों के आधार पर पुनरावृत्तिमूलक सुधार
व्यापक प्रायोगिक सत्यापन: तीन अलग-अलग विशेषताओं वाले कार्यों पर विधि की प्रभावशीलता और सामान्यता को सत्यापित किया।

विधि विवरण

कार्य परिभाषा

पाठ पीढ़ी को परिमित समय मार्कोव निर्णय प्रक्रिया (MDP) के रूप में मॉडल किया:

अवस्था स्पेस S: सभी संभावित पाठ उपसर्ग
क्रिया स्पेस A: सभी संभावित पीढ़ी इकाइयां
संक्रमण फ़ंक्शन P: नियतात्मक संक्रमण
पुरस्कार फ़ंक्शन R: संरेखण गुणवत्ता का मूल्यांकन करने वाली स्केलर प्रतिक्रिया
लक्ष्य: इष्टतम क्रिया अनुक्रम खोजें $a^* = \arg\max_{a_{0:T-1}} \sum_{t=0}^{T-1} R(s_t, a_t)$

TMPC ढांचा आर्किटेक्चर

1. मूल MPC अनुकूलन

TMPC पाठ पीढ़ी के लिए पारंपरिक MPC को अनुकूलित करता है:

a^{TMPC}(s) ← G({τ^{(i)}}_{i=1}^K, {J(τ^{(i)})}_{i=1}^K; s)

जहां G एकत्रीकरण फ़ंक्शन है, τ प्रक्षेपवक्र है, J संचयी पुरस्कार है।

2. मुख्य सिद्धांत कार्यान्वयन

पश्चदृष्टि उप-लक्ष्य पहचान:

कई उम्मीदवार प्रतिक्रियाएं उत्पन्न करने के बाद, उच्च-गुणवत्ता वाले मध्यवर्ती बिंदुओं को उप-लक्ष्य के रूप में पहचानने के लिए पूर्वव्यापी विश्लेषण
अपडेट नियम:

B ← {
  B ∪ ã^{TMPC}_t(s), if |B| < capacity,
  B \ {a ∈ B | R(s,a) < R(s,a')} ∪ {a'}, otherwise
}

उप-लक्ष्य-सशर्त पुनः पीढ़ी:

एकत्रीकरण फ़ंक्शन:

ã^{TMPC}_t(s) ← G({τ^{(i)}_t}_{i=1}^K, R(·) | s, B) := {a | R(s,a) ≥ α and a ∈ {τ^{(i)}_t}_{i=1}^K}

नए रोलआउट बफर B में उच्च-पुरस्कार लक्ष्यों को सशर्त संकेत के रूप में स्पष्ट रूप से उपयोग करके उत्पन्न होते हैं

तकनीकी नवाचार बिंदु

गतिशील सीमा खोज: पूर्वनिर्धारित कठोर विभाजन सीमाओं पर निर्भर नहीं, कार्य-विशिष्ट अर्थपूर्ण नियोजन चरणों की खोज कर सकते हैं
पदानुक्रमित सुदृढ़ शिक्षा प्रेरणा: पदानुक्रमित RL के विचारों को जोड़ता है, उप-लक्ष्य अपघटन के माध्यम से दीर्घकालीन नियोजन कार्यों को विभाजित करता है
स्थिर संचयी प्रगति: सत्यापित उप-लक्ष्यों के आधार पर निर्माण करके, स्थिर प्रदर्शन सुधार सुनिश्चित करता है
अतिरिक्त प्रशिक्षण की आवश्यकता नहीं: पूर्व-प्रशिक्षित LLM को गतिशीलता मॉडल और प्रस्ताव वितरण के रूप में उपयोग करता है, सूक्ष्म-ट्यूनिंग की आवश्यकता नहीं है

प्रायोगिक सेटअप

डेटासेट

पैराग्राफ-स्तरीय मशीन अनुवाद:
- WMT'24 Discourse-Level Literary Translation benchmark
- भाषा जोड़े: चीनी→अंग्रेजी, चीनी→जर्मन, चीनी→रूसी
- प्रत्येक उदाहरण अधिकतम 1024 टोकन में विभाजित
लंबे पाठ प्रतिक्रिया पीढ़ी:
- Dahoas/full-hh-rlhf डेटासेट
- प्रशिक्षण के लिए 6K सबसे लंबी प्रतिक्रियाएं, परीक्षण के लिए 1024 चुनी गईं
प्रोग्राम संश्लेषण:
- MBPP डेटासेट आधिकारिक परीक्षण सेट
- 500 समस्याएं (कार्य ID 11-510)

मूल्यांकन मेट्रिक्स

मशीन अनुवाद: SEGALEcomet स्कोर, Null Alignment (NA) अनुपात
लंबे पाठ प्रतिक्रिया: औसत पुरस्कार स्कोर, GPT-4 जीत दर
प्रोग्राम संश्लेषण: पास दर (Pass Rate)

तुलनात्मक विधियां

परीक्षण-समय संरेखण विधियां:

ARGS: टोकन-स्तरीय निर्देशित डिकोडिंग
RAIN: पेड़ संरचना-आधारित स्व-मूल्यांकन
RE-Control: आंतरिक प्रतिनिधित्व संशोधन के साथ ग्रेडिएंट अनुकूलन
GenARM: स्वचालित प्रतिगमन पुरस्कार मॉडल
TPO: पाठ अनुकूलन विधि
Best-of-N नमूनाकरण

प्रशिक्षण-समय संरेखण विधियां:

पर्यवेक्षित सूक्ष्म-ट्यूनिंग (SFT)
प्रत्यक्ष वरीयता अनुकूलन (DPO)
SimPO

कार्यान्वयन विवरण

बैकबोन मॉडल: LLaMA-3.1-8B-Instruct
पुनरावृत्ति संख्या: 3-5
प्रति पुनरावृत्ति रोलआउट संख्या: 2-3
गुणवत्ता थ्रेशोल्ड α: कार्य-विशिष्ट सेटिंग
बफर क्षमता: 3-6 उप-लक्ष्य

प्रायोगिक परिणाम

मुख्य परिणाम

पैराग्राफ-स्तरीय मशीन अनुवाद

WMT'24 साहित्यिक अनुवाद कार्य पर, TMPC सभी परीक्षण-समय संरेखण आधारभूत में सर्वश्रेष्ठ प्रदर्शन करता है:

दिशा	TMPC SEGALEcomet	Best-of-60	TPO	NA अनुपात
zh→en	94.62	90.97	88.81	0.00
zh→ru	91.53	84.86	92.63	1.19
zh→de	91.73	82.74	87.67	2.40

TMPC zh→en दिशा में GPT-4o (94.58) को भी पार करता है
मजबूत आधारभूत Best-of-60 से काफी बेहतर, लेकिन कम्प्यूटेशनल लागत कम है

लंबे पाठ प्रतिक्रिया पीढ़ी

औसत पुरस्कार: 4.60 (TMPC) बनाम 4.18 (Best-of-20) बनाम 3.95 (DPO)
GPT-4 जीत दर: DPO और Best-of-20 के साथ तुलना में दोनों में जीत
केवल 10 पीढ़ियों की आवश्यकता (3 पुनरावृत्तियां × 3 रोलआउट + 1 प्रारंभिक पीढ़ी)

प्रोग्राम संश्लेषण

पास दर: 61% (TMPC) बनाम 50% (Best-of-35) बनाम 48% (TPO)
आंशिक सही समाधान पथों का पता लगाने के लिए व्यवस्थित रूप से निर्माण करता है

विलोपन प्रयोग

हाइपरपैरामीटर मजबूती: बफर आकार और खंड लंबाई में भिन्नता का प्रदर्शन पर 0.1 अंक से कम प्रभाव पड़ता है
पुरस्कार मॉडल संवेदनशीलता:
- कमजोर पुरस्कार मॉडल का उपयोग करने पर भी अच्छा प्रदर्शन बनाए रखता है
- शोर इंजेक्शन का प्रभाव सीमित है, उप-लक्ष्य बफर के फ़िल्टरिंग प्रभाव को प्रदर्शित करता है
पुनरावृत्ति विश्लेषण: प्रदर्शन पहली 3 पुनरावृत्तियों में स्थिर रूप से सुधरता है, उसके बाद थोड़ा गिरावट

केस विश्लेषण

पेपर दिखाता है कि TMPC विभिन्न कार्यों में उप-लक्ष्यों की खोज और उपयोग कैसे करता है:

मशीन अनुवाद: वाक्य-स्तरीय संरेखण
प्रतिक्रिया पीढ़ी: शब्दार्थ रूप से सुसंगत पाठ ब्लॉक
प्रोग्राम संश्लेषण: इकाई परीक्षणों को पास करने वाले कार्यात्मक मील के पत्थर

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

एकीकृत ढांचा: परीक्षण-समय संरेखण को अनुक्रमिक निर्णय समस्या के रूप में सफलतापूर्वक एकीकृत किया, मौजूदा विधियों के मौलिक संतुलन को प्रकट किया
प्रभावी संतुलन: TMPC समय आयाम श्राप और आयाम श्राप को प्रभावी ढंग से संतुलित करता है
व्यापक प्रयोज्यता: तीन अलग-अलग विशेषताओं वाले कार्यों पर सुसंगत सुधार प्राप्त किए

सीमाएं

मॉडल क्षमता बाधा: अंतर्निहित भाषा मॉडल की अभिव्यक्ति क्षमता द्वारा सीमित
वितरण बदलाव: जब अपेक्षित आउटपुट मॉडल के मूल वितरण से दूर हो तो खराब प्रदर्शन हो सकता है
पुरस्कार संकेत निर्भरता: प्रदर्शन बड़े हद तक पुरस्कार मॉडल की गुणवत्ता पर निर्भर करता है

भविष्य की दिशाएं

प्रशिक्षण-समय विधियों के साथ संयोजन: हल्के-फुल्के सूक्ष्म-ट्यूनिंग या पुरस्कार मॉडल सहयोगी अनुकूलन की खोज
मजबूत वितरण अनुकूलन: वितरण बदलाव के तहत मजबूती में सुधार
स्वचालित उप-लक्ष्य खोज: अधिक बुद्धिमान उप-लक्ष्य पहचान तंत्र विकसित करना

गहन मूल्यांकन

शक्तियां

महत्वपूर्ण सैद्धांतिक योगदान: पहली बार परीक्षण-समय संरेखण की मौलिक चुनौतियों का व्यवस्थित विश्लेषण, एकीकृत सैद्धांतिक ढांचा प्रदान करता है
मजबूत विधि नवाचार: MPC को पाठ पीढ़ी के लिए सफलतापूर्वक अनुकूलित किया, सुंदर डिजाइन और स्पष्ट सिद्धांत
व्यापक पर्याप्त प्रयोग: तीन अलग-अलग विशेषताओं वाले कार्यों पर सत्यापन, विस्तृत विलोपन प्रयोग और मजबूती विश्लेषण सहित
उच्च व्यावहारिक मूल्य: पुनः प्रशिक्षण की आवश्यकता नहीं, कम्प्यूटेशनल दक्षता अधिक, तैनाती में आसान

कमियां

उप-लक्ष्य खोज की अनुमानी प्रकृति: प्रभावी होने के बावजूद, उप-लक्ष्य पहचान अभी भी अनुमानी विधियों पर निर्भर करती है
कार्य-विशिष्ट ट्यूनिंग: विभिन्न कार्यों के लिए विशिष्ट प्रॉम्प्ट डिजाइन और पैरामीटर समायोजन की आवश्यकता है
दीर्घकालीन निर्भरता प्रसंस्करण: अत्यंत लंबे अनुक्रमों के प्रसंस्करण क्षमता अभी भी सत्यापन की प्रतीक्षा में है
सैद्धांतिक गारंटी का अभाव: अभिसरण या इष्टतमता के सैद्धांतिक गारंटी का अभाव

प्रभाव

शैक्षणिक मूल्य: परीक्षण-समय संरेखण के लिए नया अनुसंधान प्रतिमान प्रदान करता है, बाद के कार्यों को प्रेरित कर सकता है
व्यावहारिक महत्व: संसाधन-सीमित वातावरण में LLM संरेखण के लिए व्यवहार्य समाधान प्रदान करता है
अंतःविषय योगदान: नियंत्रण सिद्धांत और NLP के अंतःविषय संलयन को बढ़ावा देता है

लागू परिदृश्य

संसाधन-सीमित तैनाती: जहां बड़े पैमाने पर सूक्ष्म-ट्यूनिंग संभव नहीं है
गतिशील वरीयता समायोजन: विभिन्न वरीयताओं के लिए तेजी से अनुकूलन की आवश्यकता वाले अनुप्रयोग
बहु-कार्य प्रणाली: विभिन्न कार्यों के बीच संरेखण रणनीति को लचीले ढंग से स्विच करने की आवश्यकता वाली प्रणाली
सुरक्षा-महत्वपूर्ण अनुप्रयोग: अनुमान समय पर अतिरिक्त सुरक्षा जांच की आवश्यकता वाले परिदृश्य

संदर्भ

पेपर संबंधित कार्यों के विस्तृत संदर्भ उद्धृत करता है, मुख्य रूप से:

बड़े भाषा मॉडल मौलिक अनुसंधान (GPT श्रृंखला, LLaMA, Gemma आदि)
वरीयता संरेखण विधियां (RLHF, DPO, SimPO आदि)
परीक्षण-समय संरेखण तकनीकें (ARGS, RAIN, RE-Control आदि)
नियंत्रण सिद्धांत मौलिक (MPC, MPPI आदि)
सुदृढ़ शिक्षा सिद्धांत (पदानुक्रमित RL, प्रक्षेपवक्र अनुकूलन आदि)

सारांश: यह सैद्धांतिक नवाचार और व्यावहारिक अनुप्रयोग दोनों में महत्वपूर्ण योगदान वाला एक उच्च-गुणवत्ता वाला पेपर है। लेखकों ने नियंत्रण सिद्धांत के MPC ढांचे को भाषा पीढ़ी की वरीयता संरेखण समस्या के लिए सफलतापूर्वक अनुकूलित किया है, नवीन TMPC विधि प्रस्तावित की है, और व्यापक प्रयोगों के माध्यम से इसकी प्रभावशीलता को सत्यापित किया है। यह कार्य परीक्षण-समय संरेखण के लिए नई अनुसंधान दिशा प्रदान करता है और महत्वपूर्ण शैक्षणिक मूल्य और व्यावहारिक महत्व रखता है।