2025-11-16T11:43:12.671286

Test-Time Alignment of LLMs via Sampling-Based Optimal Control in pre-logit space

Kanai, Yoshida, Takahashi et al.
Test-time alignment of large language models (LLMs) attracts attention because fine-tuning LLMs requires high computational costs. In this paper, we propose a new test-time alignment method called adaptive importance sampling on pre-logits (AISP) on the basis of the sampling-based model predictive control with the stochastic control input. AISP applies the Gaussian perturbation into pre-logits, which are outputs of the penultimate layer, so as to maximize expected rewards with respect to the mean of the perturbation. We demonstrate that the optimal mean is obtained by importance sampling with sampled rewards. AISP outperforms best-of-n sampling in terms of rewards over the number of used samples and achieves higher rewards than other reward-based test-time alignment methods.
academic

पूर्व-लॉजिट स्पेस में नमूना-आधारित इष्टतम नियंत्रण के माध्यम से LLM का परीक्षण-समय संरेखण

मूल जानकारी

  • पेपर ID: 2510.26219
  • शीर्षक: Test-Time Alignment of LLMs via Sampling-Based Optimal Control in pre-logit space
  • लेखक: Sekitoshi Kanai, Tsukasa Yoshida, Hiroshi Takahashi (NTT, Inc.), Haru Kuroki, Kazumune Hashimoto (The University of Osaka)
  • वर्गीकरण: cs.LG cs.AI
  • प्रकाशन तिथि: 30 अक्टूबर 2025 (arXiv प्रीप्रिंट)
  • पेपर लिंक: https://arxiv.org/abs/2510.26219v1

सारांश

बड़े भाषा मॉडल (LLM) का परीक्षण-समय संरेखण महंगे फाइन-ट्यूनिंग लागत से बचने के लिए ध्यान आकर्षित कर रहा है। यह पेपर एक नई परीक्षण-समय संरेखण विधि प्रस्तावित करता है - पूर्व-लॉजिट अनुकूली महत्व नमूनाकरण (AISP), जो यादृच्छिक नियंत्रण इनपुट के साथ नमूना मॉडल पूर्वानुमानित नियंत्रण पर आधारित है। AISP अंतिम-से-पहले परत आउटपुट (पूर्व-लॉजिट) पर गॉसियन विक्षोभ लागू करता है, विक्षोभ माध्य के अपेक्षित पुरस्कार को अधिकतम करके संरेखण प्राप्त करता है। पेपर साबित करता है कि इष्टतम माध्य नमूना पुरस्कार पर महत्व नमूनाकरण के माध्यम से प्राप्त किया जा सकता है। AISP नमूना उपयोग दक्षता में सर्वश्रेष्ठ-n नमूनाकरण से बेहतर है, और पुरस्कार मूल्य में अन्य पुरस्कार-आधारित परीक्षण-समय संरेखण विधियों को पार करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या को हल करना

बड़े भाषा मॉडल का संरेखण LLM सुरक्षा और व्यापक अनुप्रयोग सुनिश्चित करने के लिए एक महत्वपूर्ण तकनीक है। मानव प्रतिक्रिया से सुदृढीकरण सीखना (RLHF) की पारंपरिक विधि को LLM पैरामीटर को फाइन-ट्यून करने की आवश्यकता होती है, जिससे विशाल कम्प्यूटेशनल लागत आती है। परीक्षण-समय संरेखण (test-time alignment) का लक्ष्य मॉडल पैरामीटर को अपडेट किए बिना LLM को मानव वरीयताओं के अनुरूप प्रतिक्रियाएं उत्पन्न करना है।

समस्या की महत्ता

  1. कम्प्यूटेशनल लागत: बड़े पैमाने पर LLM को फाइन-ट्यून करने के लिए बड़ी मात्रा में GPU संसाधन और प्रशिक्षण समय की आवश्यकता होती है
  2. लचीलापन: परीक्षण-समय संरेखण अनुमान चरण में मॉडल व्यवहार को गतिशील रूप से समायोजित करने की अनुमति देता है
  3. व्यावहारिकता: प्रत्येक विशिष्ट कार्य के लिए मॉडल को फिर से प्रशिक्षित करने की आवश्यकता नहीं है

मौजूदा विधियों की सीमाएं

  1. Best-of-N (BoN) नमूनाकरण: सरल और प्रभावी होने के बावजूद, सक्रिय रूप से इष्टतम प्रतिक्रिया की खोज नहीं करता है, नमूना दक्षता कम है
  2. RE-Control: मूल्य फ़ंक्शन को प्रशिक्षित करने की आवश्यकता है, बड़े डेटासेट (जैसे 349,000 प्रशिक्षण नमूने) और भंडारण लागत की आवश्यकता है
  3. पारंपरिक इष्टतम नियंत्रण: गैर-रैखिक, बड़े पैमाने पर LLM सिस्टम के लिए उपयुक्त नहीं है

अनुसंधान प्रेरणा

क्या प्रशिक्षण-मुक्त विधि के माध्यम से LLM को इष्टतम प्रतिक्रिया की खोज के लिए नियंत्रित किया जा सकता है? यह पेपर नियंत्रण सिद्धांत के दृष्टिकोण से शुरू होता है, नमूना-आधारित मॉडल पूर्वानुमानित नियंत्रण (MPPI) तकनीक को अपनाता है, और एक प्रशिक्षण-मुक्त परीक्षण-समय संरेखण विधि प्रस्तावित करता है।

मुख्य योगदान

  1. AISP विधि प्रस्तावित करना: पहली बार नमूना-आधारित मॉडल पूर्वानुमानित नियंत्रण (MPPI) को LLM संरेखण पर लागू करना, पूर्व-लॉजिट स्पेस में गॉसियन विक्षोभ लागू करके प्रशिक्षण-मुक्त परीक्षण-समय संरेखण प्राप्त करना
  2. सैद्धांतिक योगदान:
    • साबित करता है कि इष्टतम पूर्व-लॉजिट वितरण मुक्त ऊर्जा (free energy) सीमा के माध्यम से प्राप्त किया जा सकता है
    • अनुकूली महत्व नमूनाकरण के आधार पर बंद-रूप समाधान प्राप्त करता है
    • AISP और BoN के बीच सैद्धांतिक संबंध प्रकट करता है (विशिष्ट पैरामीटर के तहत AISP BoN में विघटित होता है)
  3. गॉसियन धारणा की तर्कसंगतता विश्लेषण: पूर्व-लॉजिट के गॉसियन वितरण धारणा और तंत्रिका नेटवर्क softmax परत के आंतरिक संबंध का तर्क देता है
  4. प्रदर्शन सुधार:
    • नमूना दक्षता में BoN से काफी बेहतर (समान नमूने संख्या के तहत उच्च पुरस्कार प्राप्त करता है)
    • प्रशिक्षण के बिना RE-Control से आगे निकल जाता है
    • Batched AISP प्रस्तावित करता है समानांतर त्वरण के लिए

विधि विवरण

कार्य परिभाषा

इनपुट प्रॉम्प्ट x=[x1,...,xTx]x = [x_1, ..., x_{T_x}] दिया गया है, LLM प्रतिक्रिया y=[y1,...,yTy]y = [y_1, ..., y_{T_y}] उत्पन्न करता है। लक्ष्य पुरस्कार मॉडल r(x,y)r(x,y) दिए गए अपेक्षित पुरस्कार को अधिकतम करना है जबकि आधार LLM के साथ KL विचलन बाधा बनाए रखना है:

minUJ(x,U)=EVQU,σ2[r(x,y(V))]+λDKL(QU,σ2P)\min_U J(x, U) = -\mathbb{E}_{V\sim Q_{U,\sigma^2}}[r(x,y(V))] + \lambda D_{KL}(Q_{U,\sigma^2}|P)

मॉडल आर्किटेक्चर

1. यादृच्छिक नियंत्रण इनपुट डिजाइन

RE-Control द्वारा निर्धारक नियंत्रण इनपुट का उपयोग करने के विपरीत, AISP यादृच्छिक नियंत्रण इनपुट vtN(ut,σ2I)v_t \sim \mathcal{N}(u_t, \sigma^2I) का उपयोग करता है:

\text{softmax}(W_{LLM}(z_t + v_t) + b_{LLM}), & v_t \sim \mathcal{N}(u_t, \sigma^2I), \text{ for } 1 \leq t \leq \tau \\ \text{softmax}(W_{LLM}z_t + b_{LLM}), & \text{for } \tau < t \end{cases}$$ जहां: - $z_t = \phi_{LLM}(y_{<t})$ पूर्व-लॉजिट (अंतिम-से-पहले परत आउटपुट) है - $u_t$ अनुकूलित किया जाने वाला विक्षोभ माध्य है - $\sigma^2I$ निश्चित सहप्रसरण मैट्रिक्स है - $\tau$ नियंत्रण समय विंडो है #### 2. इनपुट प्रक्षेपवक्र वितरण इनपुट प्रक्षेपवक्र $V = [v_1, ..., v_\tau]$ संयुक्त गॉसियन वितरण का पालन करता है: $$q(V|U, \sigma^2) = \frac{1}{(2\pi\sigma^2)^{d\tau/2}} \exp\left(-\frac{1}{2\sigma^2}\sum_{t=1}^\tau (v_t - u_t)^\top(v_t - u_t)\right)$$ आधार वितरण शून्य माध्य गॉसियन है: $p(V|0, \sigma^2)$ #### 3. इष्टतम वितरण व्युत्पत्ति मुक्त ऊर्जा के माध्यम से: $$F(r, p, x, \lambda) = \log\left(\mathbb{E}_{V\sim P}\left[\exp\left(\frac{1}{\lambda}r(x,y(V))\right)\right]\right)$$ **प्रमेय 3.1** साबित करता है कि इष्टतम घनत्व फ़ंक्शन है: $$q^*(V) = \frac{1}{\eta}\exp\left(\frac{1}{\lambda}r(x,y(V))\right)p(V)$$ जहां $\eta$ सामान्यीकरण स्थिरांक है। #### 4. अनुकूली महत्व नमूनाकरण चूंकि इष्टतम वितरण की सीधे गणना करना कठिन है, महत्व नमूनाकरण का उपयोग करके अनुमान लगाया जाता है। **प्रमेय 3.2** साबित करता है कि इष्टतम माध्य है: $$u_t^* = \mathbb{E}_{V\sim Q^*}[v_t] = \mathbb{E}_{V\sim Q_{\hat{U},\sigma^2}}[w(V)v_t]$$ भार फ़ंक्शन है: $$\tilde{w}^i = \frac{\exp\left(\frac{1}{\lambda}r(x,y(V^i)) - \frac{1-\alpha}{\sigma^2}\sum_{t=1}^\tau \hat{u}_t^\top v_t^i\right)}{\sum_j \exp\left(\frac{1}{\lambda}r(x,y(V^j)) - \frac{1-\alpha}{\sigma^2}\sum_{t=1}^\tau \hat{u}_t^\top v_t^j\right)}$$ जहां संख्यात्मक स्थिरता बढ़ाने के लिए एक शिथिलता पैरामीटर $\alpha \in (0,1)$ पेश किया गया है। #### 5. पुनरावृत्तीय अपडेट $\kappa$ पुनरावृत्तियों के माध्यम से, प्रत्येक बार $n$ नमूने उत्पन्न करते हैं: $$\hat{u}_t^{k+1} = \sum_{i=1}^n \tilde{w}^i v_t^{i,k}, \quad v_t^{i,k} \sim \mathcal{N}(\hat{u}_t^k, \sigma^2I)$$ अंत में सभी नमूनों में सर्वोच्च पुरस्कार वाली प्रतिक्रिया का चयन करता है। ### तकनीकी नवाचार बिंदु #### 1. पूर्व-लॉजिट स्पेस बनाम टोकन स्पेस - **लाभ**: पूर्व-लॉजिट वितरण को बंद-रूप गॉसियन वितरण द्वारा व्यक्त किया जा सकता है, जबकि टोकन अनुक्रम वितरण को मॉडल करना कठिन है - **गणनीयता**: भार फ़ंक्शन की गणना करना आसान है, जटिल सामान्यीकरण प्रवाह आदि की आवश्यकता नहीं है #### 2. गॉसियन धारणा की तर्कसंगतता पेपर सैद्धांतिक रूप से गॉसियन धारणा और softmax परत के बीच संबंध का विश्लेषण करता है: यदि $p(z_t|y_t=y_i) = \mathcal{N}(\mu_{y_i}, \Sigma)$, तो बेयस प्रमेय द्वारा: $$P(y_t=y_i|z_t) = \frac{\exp(\mu_{y_i}^\top\Sigma^{-1}z - \frac{1}{2}\mu_{y_i}\Sigma^{-1}\mu_{y_i} + \ln P(y_t=y_i))}{\sum_j \exp(\mu_{y_j}^\top\Sigma^{-1}z - \frac{1}{2}\mu_{y_j}\Sigma^{-1}\mu_{y_j} + \ln P(y_t=y_j))}$$ यह softmax फ़ंक्शन रूप के अनुरूप है, जो दर्शाता है कि गॉसियन धारणा तंत्रिका भाषा मॉडल की निहित धारणा के साथ सुसंगत है। #### 3. BoN के साथ सैद्धांतिक संबंध **प्रमेय 3.3** साबित करता है: जब $\lambda \to 0^+$ और $\kappa=1$ हो, तो AISP BoN में विघटित होता है। यह दर्शाता है कि AISP BoN का निरंतर अनुमान और सामान्यीकरण है, अधिक लचीली अनुकूलन रूपरेखा प्रदान करता है। #### 4. निश्चित नियंत्रण विंडो MPPI की स्लाइडिंग विंडो के विपरीत, AISP निश्चित विंडो $t \in [1, \tau]$ का उपयोग करता है, निश्चित उपसर्ग टोकन के कारण विविधता हानि से बचता है। ## प्रयोगात्मक सेटअप ### डेटासेट 1. **Anthropic HH-RLHF**: LLM संरेखण के लिए उपयोगिता और हानिरहितता के लिए 2. **Stanford Human Preferences (SHP)**: मानव वरीयता डेटासेट 3. **पैमाना**: परीक्षण सेट से 1000 नमूने यादृच्छिक रूप से चुने गए (कम्प्यूटेशनल संसाधन सीमा के कारण) ### आधार मॉडल - **LLMs**: Llama-3-8B, Vicuna-7B-v1.5, Gemma3-4B - **पुरस्कार मॉडल**: UltraRM-13b, Eurus-RM-7b ### मूल्यांकन मेट्रिक्स 1. **पुरस्कार मूल्य**: UltraRM का उपयोग करके $r(x,y)$ का मूल्यांकन करना 2. **विविधता (Diversity)**: $\sum_{n=2}^4 \frac{\text{unique n-gram}(y)}{\text{total n-gram}(y)}$, प्रतिक्रिया में पुनरावृत्ति की डिग्री का मूल्यांकन करना 3. **सुसंगतता (Coherence)**: SimCSE का उपयोग करके प्रॉम्प्ट और प्रतिक्रिया एम्बेडिंग की कोसाइन समानता की गणना करना 4. **जीत दर (Win Rate)**: AISP को BoN के सापेक्ष मूल्यांकन करने के लिए GPT-4 का उपयोग करना ### तुलना विधियां 1. **BoN (top-p)**: nucleus नमूनाकरण का उपयोग करके Best-of-N, N=1024 (= κn) 2. **RE-Control**: प्रशिक्षित मूल्य फ़ंक्शन पर आधारित नियंत्रण विधि 3. **ARGS-greedy**: logit पर भारित पुरस्कार जोड़ने की विधि ### कार्यान्वयन विवरण - **AISP पैरामीटर**: $n=32$, $\kappa=32$, कुल नमूना संख्या 1024 - **हाइपरपैरामीटर ट्यूनिंग**: 10 प्रशिक्षण नमूनों पर ग्रिड खोज - $\lambda \in [0.1, 0.3, 0.5, 0.7]$ (UltraRM), $[60, 120, 240, 480]$ (Eurus) - $\sigma^2 \in [0.1, 0.3, 0.5, 0.7]$ - $\alpha \in [0.99, 0.999, 0.9999, 0.99999]$ - **पीढ़ी सेटिंग्स**: अधिकतम नई टोकन लंबाई 128, आधी सटीकता (bfloat16) - **हार्डवेयर**: NVIDIA A100 (40GB) और H100 (80GB) ## प्रयोगात्मक परिणाम ### मुख्य परिणाम #### औसत पुरस्कार तुलना (तालिका 1) 6 मॉडल-पुरस्कार मॉडल संयोजन, 2 डेटासेट पर परिणाम दिखाते हैं: **SHP डेटासेट**: - **Llama3 & UltraRM**: AISP (-1.39) vs BoN (-2.38), **41.6%** सुधार - **Vicuna & UltraRM**: AISP (-1.46) vs BoN (-1.78), 18.0% सुधार - **Gemma3 & UltraRM**: AISP (-2.39) vs BoN (-3.43), 30.3% सुधार **HH-RLHF डेटासेट**: - **Llama3 & UltraRM**: AISP (-5.02) vs BoN (-5.074), 1.1% सुधार - **Vicuna & UltraRM**: AISP (-4.73) vs BoN (-4.85), 2.5% सुधार **मुख्य निष्कर्ष**: - AISP सभी सेटिंग्स में BoN के औसत पुरस्कार को प्राप्त या पार करता है - प्रशिक्षण की आवश्यकता वाले RE-Control की तुलना में, AISP अधिकांश मामलों में बेहतर प्रदर्शन करता है (जैसे Llama3 & UltraRM: -1.39 vs -9.28) - ARGS इस प्रयोग में खराब प्रदर्शन करता है, संभवतः क्योंकि प्रक्षेपवक्र-स्तरीय पुरस्कार मॉडल टोकन-स्तरीय मूल्यांकन के लिए उपयुक्त नहीं है #### जीत दर विश्लेषण (तालिका 2) 100 नमूना जोड़ियों का मूल्यांकन करने के लिए GPT-4 का उपयोग करना: **SHP डेटासेट**: - Llama & UltraRM: AISP 51.3% vs BoN 42.0% - Gemma3 & UltraRM: AISP 53.0% vs BoN 41.3% - औसत जीत दर BoN से काफी अधिक है **HH-RLHF डेटासेट**: - परिणाम अधिक संतुलित हैं, लेकिन AISP अधिकांश सेटिंग्स में अभी भी लाभ बनाए रखता है - कुछ सेटिंग्स (जैसे Vicuna) उच्च ड्रॉ दर दिखाते हैं (27.7%-36.0%) ### नमूना दक्षता विश्लेषण (चित्र 3) **अभिसरण वक्र** AISP के मुख्य लाभ दिखाते हैं: - **प्रारंभिक**: BoN पहली कुछ पुनरावृत्तियों में बेहतर प्रदर्शन करता है (क्योंकि सीधे नमूनाकरण उच्च विविधता है) - **मध्य**: AISP तेजी से पकड़ता है, लगभग k=10-15 पुनरावृत्तियों के बाद BoN को पार करता है - **बाद में**: AISP निरंतर सुधार करता है, अंत में BoN से काफी बेहतर है **तीन वक्र विश्लेषण**: 1. **AISP (Mean at k)**: $\frac{1}{n}\sum_i r(x,y(V^{i,k}))$, पुनरावृत्ति के साथ स्थिर रूप से बढ़ता है 2. **AISP (Best at k)**: $\max_i r(x,y(V^{i,k}))$, एकल पुनरावृत्ति सर्वश्रेष्ठ 3. **AISP (Best so far)**: $\max_{i,1\leq j\leq k} r(x,y(V^{i,j}))$, वैश्विक सर्वश्रेष्ठ **महत्वपूर्ण अंतर्दृष्टि**: AISP न केवल एकल प्रतिक्रिया को अनुकूलित करता है, बल्कि प्रतिक्रिया वितरण को भी अनुकूलित करता है, Mean वक्र का उदय वितरण अनुकूलन की प्रभावशीलता को साबित करता है। ### Batched AISP प्रयोग (चित्र 4) समान पुनरावृत्ति संख्या के तहत तुलना (BoN N=128 vs AISP κ=b, n=N/b): **सेटिंग तुलना**: - AISP1: (b=8, n=16) - AISP2: (b=16, n=8) - AISP3: (b=32, n=4) - AISP4: (b=64, n=2) **परिणाम**: - सभी AISP सेटिंग्स BoN (-4.2 से -4.4 vs BoN लगभग -4.7) से बेहतर हैं - जब तक प्रत्येक पुनरावृत्ति में कम से कम 4 नमूने हों, AISP BoN को पार कर सकता है - समय बाधा के तहत AISP की व्यावहारिकता को साबित करता है ### KL विचलन विश्लेषण (तालिका 3) **विभिन्न हाइपरपैरामीटर के तहत KL विचलन**: - AISP (λ=0.1, α=0.9999): KL=140.9, Reward=-2.15 - AISP (λ=10.0, α=0.99): KL=2.98, Reward=-3.37 - RE-Control: KL=0.172, Reward=-9.30 - ARGS: KL=78.8, Reward=-5.11 **मुख्य निष्कर्ष**: - λ और α को समायोजित करके, AISP आधार LLM से विचलन की डिग्री को लचीले ढंग से नियंत्रित कर सकता है - यहां तक कि ARGS (18.9 vs 78.8) से कम KL विचलन के साथ, AISP अभी भी उच्च पुरस्कार प्राप्त करता है (-2.75 vs -5.11) - पुरस्कार वृद्धि और आधार LLM विशेषताओं को बनाए रखने के बीच AISP के अच्छे संतुलन को साबित करता है ### विलोपन प्रयोग #### हाइपरपैरामीटर संवेदनशीलता (परिशिष्ट D.1, चित्र 6-7) **λ का प्रभाव**: - छोटा λ (0.1): माध्य वृद्धि नहीं होती है, अनुकूलन विफल होता है - बड़ा λ (0.7): माध्य वृद्धि दर बढ़ती है, लेकिन संख्यात्मक स्थिरता बनाए रखने की आवश्यकता है - अंतिम पुरस्कार λ∈[0.1, 0.7] श्रेणी में BoN से बेहतर है **σ का प्रभाव**: - छोटा σ (0.1): अन्वेषण स्पेस सीमित है, पुरस्कार जल्दी संतृप्त होता है - बड़ा σ (0.7): पर्याप्त अन्वेषण लेकिन थोड़ी अस्थिरता - सर्वश्रेष्ठ मान लगभग σ=0.5 है **α का प्रभाव**: - छोटा α (0.5-0.8): विचलन को अत्यधिक दंडित करता है, पुरस्कार सुधार सीमित है - बड़ा α (0.999-0.9999): पर्याप्त अन्वेषण की अनुमति देता है, पुरस्कार स्थिर रूप से बढ़ता है **समग्र मूल्यांकन**: हाइपरपैरामीटर व्यवहार सहज है, ट्यूनिंग अपेक्षाकृत आसान है ### प्रयोगात्मक निष्कर्ष 1. **नमूना दक्षता**: AISP समान नमूना संख्या के तहत उच्च पुरस्कार प्राप्त करता है, पुनरावृत्ति प्रक्रिया में तेजी से सुधार प्रदर्शित करता है 2. **प्रशिक्षण-मुक्त लाभ**: RE-Control की तुलना में बड़ी डेटा संग्रह और प्रशिक्षण लागत बचाता है 3. **वितरण अनुकूलन**: न केवल एकल प्रतिक्रिया को अनुकूलित करता है, बल्कि समग्र प्रतिक्रिया वितरण को अनुकूलित करता है 4. **लचीलापन**: हाइपरपैरामीटर के माध्यम से पुरस्कार वृद्धि और आधार LLM निष्ठा के बीच संतुलन को नियंत्रित किया जा सकता है 5. **समानांतरकरण क्षमता**: Batched AISP समय बाधा के तहत प्रदर्शन लाभ बनाए रखता है 6. **क्रॉस-मॉडल सामान्यीकरण**: कई LLM (Llama3, Vicuna, Gemma3) और पुरस्कार मॉडल पर प्रभावी है ## संबंधित कार्य ### परीक्षण-समय संरेखण विधि वर्गीकरण #### 1. प्रशिक्षण-आधारित विधियां - **RE-Control** (Kong et al., 2024): पूर्व-लॉजिट अनुकूलन के लिए मूल्य फ़ंक्शन प्रशिक्षित करना - **Critic-Guide Decoding** (Kim et al., 2023): स्थिति मूल्य भविष्यवाणी के लिए आलोचक नेटवर्क प्रशिक्षित करना - **Controlled Decoding** (Mudgal et al., 2024): ब्लॉक-स्तरीय पीढ़ी के लिए मूल्य फ़ंक्शन प्रशिक्षित करना - **सीमाएं**: बड़े पैमाने पर डेटासेट (जैसे RE-Control 349,000 नमूने का उपयोग करता है) और प्रशिक्षण लागत की आवश्यकता है #### 2. नमूना-आधारित विधियां - **Best-of-N (BoN)**: सरल और प्रभावी, लेकिन नमूना दक्षता कम है - Yang et al. (2024) BoN की KL-बाधित RL उद्देश्य के लिए स्पर्शोन्मुख इष्टतमता साबित करता है - Beirami et al. (2024) BoN जीत दर की ऊपरी सीमा N/(N+1) साबित करता है - **Soft Reasoning** (Zhu et al., 2025): बेयस अनुकूलन पर आधारित, लेकिन केवल प्रारंभिक टोकन एम्बेडिंग को विक्षुब्ध करता है - **महत्व नमूनाकरण विधि** (Loula et al., 2025): टोकन स्पेस में महत्व नमूनाकरण का उपयोग करता है, कार्य-विशिष्ट संभावित फ़ंक्शन की आवश्यकता है #### 3. Logit संचालन विधि - **ARGS** (Khanov et al., 2024): logit पर भारित पुरस्कार जोड़ना - **सीमाएं**: टोकन-स्तरीय पुरस्कार मॉडल की आवश्यकता है ### इस पेपर के लाभ 1. **vs BoN**: सक्रिय रूप से इष्टतम प्रतिक्रिया की खोज करता है, नमूना दक्षता अधिक है 2. **vs RE-Control**: प्रशिक्षण की आवश्यकता नहीं है, डेटा संग्रह और प्रशिक्षण लागत से बचता है 3. **vs Soft Reasoning**: पूर्ण पूर्व-लॉजिट अनुक्रम को अनुकूलित करता है, केवल प्रारंभिक एम्बेडिंग नहीं 4. **vs Loula et al.**: पूर्व-लॉजिट स्पेस में आसानी से संभाले जाने वाले गॉसियन वितरण का उपयोग करता है ### सैद्धांतिक आधार **नियंत्रण सिद्धांत दृष्टिकोण**: - पारंपरिक इष्टतम नियंत्रण (जैसे Pontryagin अधिकतम सिद्धांत) गैर-रैखिक बड़े पैमाने पर LLM के लिए उपयुक्त नहीं है - **MPPI** (Williams et al., 2017, 2018): नमूना-आधारित मॉडल पूर्वानुमानित नियंत्रण, GPU समानांतर गणना का लाभ उठाता है - AISP MPPI को LLM संरेखण पर लागू करता है, अनुकूली महत्व नमूनाकरण पेश करता है ## निष्कर्ष और चर्चा ### मुख्य निष्कर्ष 1. **विधि प्रभावशीलता**: AISP एक प्रशिक्षण-मुक्त परीक्षण-समय संरेखण विधि के रूप में, पुरस्कार अनुकूलन में BoN और RE-Control से काफी बेहतर है 2. **सैद्धांतिक योगदान**: पूर्व-लॉजिट स्पेस में यादृच्छिक नियंत्रण रूपरेखा स्थापित करता है, साबित करता है कि इष्टतम वितरण अनुकूली महत्व नमूनाकरण के माध्यम से अनुमानित किया जा सकता है 3. **नमूना दक्षता**: AISP नमूना उपयोग दक्षता में BoN से बेहतर है, समान नमूना संख्या के तहत उच्च पुरस्कार प्राप्त करता है 4. **व्यावहारिकता**: Batched AISP समय बाधा के तहत प्रदर्शन बनाए रखता है, वास्तविक अनुप्रयोग के लिए उपयुक्त है 5. **नियंत्रणीयता**: हाइपरपैरामीटर के माध्यम से पुरस्कार वृद्धि और आधार LLM निष्ठा के बीच संतुलन को लचीले ढंग से समायोजित किया जा सकता है ### सीमाएं #### 1. कम्प्यूटेशनल जटिलता - **क्रमिक पुनरावृत्ति**: κ क्रमिक पुनरावृत्तियों की आवश्यकता है, समय जटिलता O(κ) है - **अतिरिक्त गणना**: भार फ़ंक्शन को $\sum_{t=1}^\tau \hat{u}_t^\top v_t^i$ की गणना करने की आवश्यकता है, हालांकि O(τd) ओवरहेड अपेक्षाकृत नगण्य है #### 2. गॉसियन धारणा - **धारणा सीमा**: पूर्व-लॉजिट वितरण की गॉसियन धारणा पूरी तरह सटीक नहीं हो सकती है - **सरलीकरण लागत**: संभाले जाने वाले बंद-रूप समाधान प्राप्त करने के लिए सरलीकरण #### 3. हाइपरपैरामीटर ट्यूनिंग - **तीन हाइपरपैरामीटर**: λ, σ², α को ट्यून करने की आवश्यकता है - **डेटासेट निर्भरता**: विभिन्न पुरस्कार मॉडल (UltraRM vs Eurus) के लिए विभिन्न λ श्रेणियों की आवश्यकता है #### 4. प्रयोगात्मक पैमाना - **नमूना सीमा**: कम्प्यूटेशनल संसाधन के कारण केवल 1000 परीक्षण नमूने का उपयोग किया गया है - **मॉडल पैमाना**: मुख्य रूप से 7B-13B पैमाने के मॉडल पर परीक्षण किया गया है, बड़े मॉडल का प्रदर्शन अज्ञात है #### 5. विविधता और सुसंगतता - कुछ सेटिंग्स में, AISP की विविधता और सुसंगतता BoN से कम है - संभवतः क्योंकि पुरस्कार मॉडल इन आयामों को प्राथमिकता नहीं देता है ### भविष्य की दिशाएं 1. **माइक्रोफाइनिंग के साथ संयोजन**: AISP और पैरामीटर-कुशल माइक्रोफाइनिंग (जैसे LoRA) के संयोजन की खोज करना 2. **विभिन्न नमूनाकरण तकनीकें**: अन्य महत्व नमूनाकरण वेरिएंट (जैसे sequential Monte Carlo) का अनुसंधान करना 3. **अधिक जटिल वितरण**: सामान्यीकृत प्रवाह आदि का उपयोग करके अधिक जटिल पूर्व-लॉजिट वितरण को मॉडल करना 4. **बहु-उद्देश्य अनुकूलन**: पुरस्कार, विविधता और सुसंगतता को एक साथ अनुकूलित करना 5. **बड़े पैमाने पर मॉडल**: बड़े पैमाने पर LLM (जैसे 70B+) पर विधि को सत्यापित करना 6. **सैद्धांतिक विश्लेषण**: अभिसरण दर और नमूना जटिलता के लिए सैद्धांतिक गारंटी प्रदान करना ## गहन मूल्यांकन ### लाभ #### 1. नवाचार - **अंतःविषय संलयन**: पहली बार MPPI नियंत्रण सिद्धांत को LLM संरेखण पर लागू करता है, नई अनुसंधान दिशा खोलता है - **पूर्व-लॉजिट स्पेस**: टोकन स्पेस के बजाय पूर्व-लॉजिट स्पेस में संचालन करता है, गॉसियन वितरण की संभाले जाने की क्षमता का लाभ उठाता है - **सैद्धांतिक पूर्णता**: पूर्ण सैद्धांतिक व्युत्पत्ति (प्रमेय 3.1-3.3) और बंद-रूप समाधान प्रदान करता है #### 2. व्यावहारिकता - **प्रशिक्षण-मुक्त**: RE-Control की तुलना में बड़ी डेटा संग्रह और प्रशिक्षण लागत बचाता है - **तुरंत लागू**: पूर्व-प्रशिक्षित LLM पर सीधे लागू किया जा सकता है, मॉडल संरचना संशोधन की आवश्यकता नहीं है - **Batched संस्करण**: समानांतर योजना प्रदान करता है, वास्तविक तैनाती आवश्यकताओं के अनुकूल है #### 3. प्रयोगात्मक पूर्णता - **बहु-आयामी मूल्यांकन**: पुरस्कार, विविधता, सुसंगतता, जीत दर, KL विचलन - **विविध सेटिंग्स**: 3 LLM × 2 पुरस्कार मॉडल × 2 डेटासेट = 12 संयोजन - **विलोपन प्रयोग**: विस्तृत हाइपरपैरामीटर संवेदनशीलता विश्लेषण (परिशिष्ट) - **अभिसरण विश्लेषण**: नमूना दक्षता लाभ की गतिशील प्रक्रिया प्रदर्शित करता है #### 4. सैद्धांतिक अंतर्दृष्टि - **गॉसियन धारणा तर्कसंगतता**: softmax परत से पूर्व-लॉजिट गॉसियन वितरण की तर्कसंगतता व्युत्पन्न करता है - **BoN के साथ संबंध**: साबित करता है कि AISP BoN का सामान्यीकरण है, एकीकृत रूपरेखा प्रदान करता है - **मुक्त ऊर्जा सीमा**: परिवर्तनशील अनुमान विचार का उपयोग करता है, सुंदर सैद्धांतिक रूपरेखा स्थापित करता है #### 5. लेखन गुणवत्ता - संरचना स्पष्ट है, समस्या परिभाषा से सैद्धांतिक व्युत्पत्ति तक प्रयोगात्मक सत्यापन तक स्तरीय है - विस्तृत एल्गोरिथम छद्मकोड (Algorithm 1) और कार्यान्वयन विवरण प्रदान करता है - परिशिष्ट में पूर्ण प्रमाण और अतिरिक्त प्रयोग शामिल हैं ### कमियां #### 1. विधि सीमाएं - **कम्प्यूटेशनल ओवरहेड**: प्रशिक्षण की आवश्यकता न होने के बावजूद, अनुमान समय में κn अग्रिम पास की आवश्यकता है, κ=32, n=32 के लिए, कुल 1024 अग्रिम पास - **क्रमिक निर्भरता**: κ पुनरावृत्तियां क्रमिक रूप से निष्पादित होनी चाहिए, समानांतरकरण क्षमता सीमित है - **मेमोरी आवश्यकता**: n नमूनों के पूर्व-लॉजिट प्रक्षेपवक्र को संग्रहीत करने की आवश्यकता है, स्पेस जटिलता O(nτd) है #### 2. प्रयोगात्मक डिजाइन - **नमूना पैमाना**: केवल 1000 परीक्षण नमूने, सांख्यिकीय महत्व अपर्याप्त हो सकता है - **टोकन लंबाई सीमा**: मेमोरी सीमा के कारण, prompt और पीढ़ी लंबाई पर कठोर सीमा (128 टोकन) - **बड़े मॉडल प्रयोग की कमी**: बड़े पैमाने के मॉडल (जैसे Llama-70B) पर सत्यापित नहीं किया गया है #### 3. तुलना निष्पक्षता - **BoN सेटिंग**: BoN top-p नमूनाकरण का उपयोग करता है, जबकि AISP आंतरिक रूप से लालची डिकोडिंग का उपयोग करता है, पूरी तरह निष्पक्ष नहीं हो सकता है - **RE-Control प्रशिक्षण**: RE-Control परीक्षण सेट पर मूल्य फ़ंक्शन को प्रशिक्षित करता है, ओवरफिटिंग हो सकती है #### 4. सैद्धांतिक विश्लेषण अपर्याप्त - **अभिसरण गारंटी**: अनुकूली महत्व नमूनाकरण के अभिसरण दर विश्लेषण की कमी है - **प्रभावी नमूना संख्या**: महत्व नमूनाकरण की प्रभावी नमूना संख्या (ESS) का विश्लेषण नहीं किया गया है - **गॉसियन धारणा सत्यापन**: वास्तविक पूर्व-लॉजिट वितरण के अनुभवजन्य सत्यापन की कमी है #### 5. विविधता समस्या - कुछ सेटिंग्स में, AISP की विविधता और सुसंगतता BoN से कम है - इस घटना के गहन विश्लेषण और समाधान की कमी है ### प्रभाव #### 1. शैक्षणिक योगदान - **नई प्रतिमान**: परीक्षण-समय संरेखण के लिए नियंत्रण सिद्धांत दृष्टिकोण प्रदान करता है, बाद के अनुसंधान को प्रेरित कर सकता है - **सैद्धांतिक पुल**: नियंत्रण सिद्धांत, परिवर्तनशील अनुमान और LLM संरेखण को जोड़ता है - **पद्धति**: पूर्व-लॉजिट स्पेस में अनुकूली महत्व नमूनाकरण का सफल अनुप्रयोग अन्य पीढ़ी कार्यों तक विस्तारित किया जा सकता है #### 2. व्यावहारिक मूल्य - **लागत-लाभ**: प्रशिक्षण-मुक्त विशेषता संसाधन-सीमित परिदृश्यों में महत्वपूर्ण मूल्य है - **लचीलापन**: विभिन्न LLM और पुरस्कार मॉडल के साथ संयोजित किया जा सकता है, मजबूत अनुकूलता है - **स्केलेबिलिटी**: Batched AISP व्यावहारिक तैनाती पथ प्रदान करता है #### 3. पुनरुत्पादनीयता - **कोड उपलब्धता**: पेपर कोड ओपन-सोर्सिंग का स्पष्ट रूप से उल्लेख नहीं करता है, लेकिन विस्तृत एल्गोरिथम और हाइपरपैरामीटर प्रदान करता है - **कार्यान्वयन जटिलता**: एल्गोरिथम अपेक्षाकृत सरल है, मानक महत्व नमूनाकरण पर आधारित है, पुनरुत्पादन करना आसान है - **कम्प्यूटेशनल आवश्यकता**: GPU संसाधन की आवश्यकता है (H100 80GB या A100 40GB), व्यक्तिगत शोधकर्ताओं के लिए सीमा है #### 4. सीमाएं - **लागू परिदृश्य**: मुख्य रूप से स्पष्ट पुरस्कार मॉडल वाले परिदृश्यों के लिए उपयुक्त है - **विस्तारशीलता**: बड़े मॉडल या लंबे अनुक्रमों पर प्रदर्शन अज्ञात है - **औद्योगिक अनुप्रयोग**: 1024 अग्रिम पास की अनुमान लागत उत्पादन वातावरण में अस्वीकार्य हो सकती है ### लागू परिदृश्य #### सबसे उपयुक्त परिदृश्य 1. **स्पष्ट पुरस्कार मॉडल**: जैसे सुरक्षा पहचान, तथ्य सटीकता मूल्यांकन 2. **मध्यम पैमाने के मॉडल**: 7B-13B पैरामीटर LLM 3. **ऑफलाइन बैच प्रोसेसिंग**: κ क्रमिक पुनरावृत्तियों की देरी को सहन कर सकता है 4. **संसाधन-सीमित**: माइक्रोफाइनिंग लागत वहन नहीं कर सकता लेकिन अनुमान संसाधन है #### कम उपयुक्त परिदृश्य 1. **वास्तविक समय इंटरैक्शन**: कम विलंबता प्रतिक्रिया की आवश्यकता वाली संवाद प्रणाली 2. **अति-बड़े पैमाने के मॉडल**: मेमोरी और कम्प्यूटेशनल लागत बहुत अधिक हो सकती है 3. **बिना पुरस्कार मॉडल**: स्पष्ट पुरस्कार संकेत पर निर्भर करता है 4. **चरम लंबे अनुक्रम**: नियंत्रण विंडो τ बहुत बड़ा होगा, कम्प्यूटेशन में काफी वृद्धि करेगा #### संभावित विस्तार 1. **बहु-मोडल पीढ़ी**: विधि को छवि-पाठ पीढ़ी तक विस्तारित करना 2. **सुदृढीकरण सीखना**: अन्वेषण रणनीति के रूप में उपयोग करना 3. **सक्रिय सीखना**: अनिश्चितता नमूनाकरण के लिए उपयोग करना 4. **प्रतिकूल मजबूती**: सबसे खराब स्थिति प्रतिक्रिया की खोज करना ## संदर्भ ### मुख्य उद्धरण 1. **Williams et al. (2017, 2018)**: Model Predictive Path Integral Control - AISP का सैद्धांतिक आधार 2. **Kong et al. (2024)**: RE-Control - मुख्य तुलना विधि 3. **Yang et al. (2024)**: BoN का सैद्धांतिक विश्लेषण 4. **Lee et al. (2018)**: तंत्रिका नेटवर्क में गॉसियन धारणा का अनुप्रयोग ### संबंधित कार्य 5. **Ouyang et al. (2022)**: RLHF मूल पेपर 6. **Snell et al. (2024)**: परीक्षण-समय गणना का इष्टतम आवंटन 7. **Beirami et al. (2024)**: BoN की सैद्धांतिक गारंटी 8. **Khanov et al. (2024)**: ARGS विधि --- ## सारांश इस पेपर द्वारा प्रस्तावित AISP विधि नियंत्रण सिद्धांत को LLM संरेखण में पेश करके, एक सैद्धांतिक रूप से सुंदर और व्यावहारिक रूप से प्रभावी परीक्षण-समय संरेखण योजना प्रदान करती है। इसका मुख्य नवाचार पूर्व-लॉजिट स्पेस में गॉसियन विक्षोभ लागू करना है, अनुकूली महत्व नमूनाकरण के माध्यम से विक्षोभ वितरण को अनुकूलित करता है, प्रशिक्षण के बिना मौजूदा विधियों के प्रदर्शन को पार करने को प्राप्त करता है। **मुख्य लाभ** उच्च नमूना दक्षता, प्रशिक्षण-मुक्त, सैद्धांतिक पूर्णता हैं; **मुख्य सीमाएं** उच्च अनुमान लागत, क्रमिक पुनरावृत्ति आवश्यकता, अति-बड़े मॉडल के लिए विस्तारशीलता अज्ञात हैं। यह विधि परीक्षण-समय संरेखण के लिए नई अनुसंधान दिशा प्रदान करती है, विशेष रूप से संसाधन-सीमित लेकिन स्पष्ट पुरस्कार मॉडल वाले परिदृश्यों में महत्वपूर्ण अनुप्रयोग मूल्य है। भविष्य का अनुसंधान अनुमान लागत को कम करने, बड़े मॉडल तक विस्तारित करने, माइक्रोफाइनिंग विधियों के साथ संयोजन करने आदि दिशाओं में आगे सुधार कर सकता है। समग्र रूप से, यह उच्च गुणवत्ता का अनुसंधान कार्य है, जो सैद्धांतिक गहराई और व्यावहारिक मूल्य दोनों को जोड़ता है।