2025-11-14T23:34:12.081906

In-Distribution Steering: Balancing Control and Coherence in Language Model Generation

Vogels, Wong, Choho et al.

Activation steering methods control large language model (LLM) behavior by modifying internal activations at inference time. However, most existing activation steering methods rely on a fixed steering strength, leading to either insufficient control or unadapted intervention that degrades text plausibility and coherence. We introduce In-Distribution Steering (IDS), a novel method that adapts steering strength based on the input data distribution in representation space. IDS dynamically adjusts interventions according to how far a given input lies within the distribution, enabling adaptive intervention and generation stability during text generation. Experiments demonstrate that IDS achieves strong accuracy on classification tasks while producing coherent text without collapse, making IDS particularly well suited for real-world applications.

academic

वितरण-अंतर्गत निर्देशन: भाषा मॉडल पीढ़ी में नियंत्रण और सुसंगतता को संतुलित करना

मूल जानकारी

पेपर ID: 2510.13285
शीर्षक: In-Distribution Steering: Balancing Control and Coherence in Language Model Generation
लेखक: Arthur Vogels, Benjamin Wong, Yann Choho, Annabelle Blangero, Milan Bhan (Ekimetrics & Sorbonne Université)
वर्गीकरण: cs.CL (कम्प्यूटेशनल भाषाविज्ञान)
प्रकाशन तिथि: 15 अक्टूबर 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.13285

सारांश

सक्रियण निर्देशन विधियाँ अनुमान समय पर आंतरिक सक्रियणों को संशोधित करके बड़े भाषा मॉडल (LLM) के व्यवहार को नियंत्रित करती हैं। हालांकि, अधिकांश मौजूदा सक्रियण निर्देशन विधियाँ निश्चित निर्देशन शक्ति पर निर्भर करती हैं, जिससे अपर्याप्त नियंत्रण या अत्यधिक हस्तक्षेप होता है, जिससे पाठ की विश्वसनीयता और सुसंगतता में कमी आती है। यह पेपर वितरण-अंतर्गत निर्देशन (IDS) प्रस्तावित करता है, जो प्रतिनिधित्व स्थान में इनपुट डेटा वितरण के आधार पर निर्देशन शक्ति को अनुकूलित रूप से समायोजित करने की एक नई विधि है। IDS दिए गए इनपुट की वितरण में स्थिति के अनुसार हस्तक्षेप को गतिशील रूप से समायोजित करता है, पाठ पीढ़ी प्रक्रिया के दौरान अनुकूलित हस्तक्षेप और पीढ़ी स्थिरता प्राप्त करता है। प्रयोग दर्शाते हैं कि IDS वर्गीकरण कार्यों पर मजबूत सटीकता प्राप्त करता है, साथ ही बिना विफलता के सुसंगत पाठ उत्पन्न करता है, जिससे IDS व्यावहारिक अनुप्रयोगों के लिए विशेष रूप से उपयुक्त है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

बड़े भाषा मॉडल असाधारण सामान्यीकरण क्षमता के बावजूद अवांछनीय व्यवहार उत्पन्न कर सकते हैं, जिनमें शामिल हैं:

तथ्यात्मक अशुद्धि: गलत जानकारी उत्पन्न करना
सुरक्षा समस्याएँ: हानिकारक सामग्री का उत्पादन
संरेखण समस्याएँ: विशिष्ट अनुप्रयोग आवश्यकताओं से असंगति

मौजूदा विधियों की सीमाएँ

RLHF (मानव प्रतिक्रिया से सुदृढ़ीकरण सीखना): बड़ी मात्रा में डेटा और कम्प्यूटेशनल संसाधनों की आवश्यकता, मॉडल भार संशोधन विधि अपारदर्शी, नई पूर्वाग्रह प्रस्तुत कर सकता है
प्रॉम्प्ट इंजीनियरिंग: प्रभाव अप्रत्यक्ष, संदर्भ के प्रति अत्यधिक संवेदनशील
मौजूदा सक्रियण निर्देशन विधियाँ:
- निश्चित निर्देशन शक्ति का उपयोग करते हैं, जिससे अपर्याप्त या अत्यधिक निर्देशन होता है
- खुली-अंत पाठ पीढ़ी के लिए पर्याप्त परीक्षण की कमी
- विश्वसनीय निर्देशित पाठ उत्पन्न नहीं कर सकते

अनुसंधान प्रेरणा

एक ऐसी विधि की आवश्यकता है जो पाठ गुणवत्ता बनाए रखते हुए LLM व्यवहार को सटीकता से नियंत्रित कर सके, विशेष रूप से उच्च-जोखिम अनुप्रयोग परिदृश्यों में।

मुख्य योगदान

IDS विधि प्रस्तावित करना: एक नई सक्रियण निर्देशन विधि जो प्रत्येक इनपुट के आधार पर निर्देशन शक्ति को गतिशील रूप से समायोजित कर सकती है, पाठ की विश्वसनीयता और सुसंगतता बनाए रखते हुए सटीक व्यवहार नियंत्रण प्राप्त करती है
व्यापक प्रायोगिक मूल्यांकन: 6 LLM और 7 डेटासेट पर IDS प्रदर्शन का मूल्यांकन, दो प्रतिस्पर्धी विधियों के साथ तुलना, एकल-टोकन भविष्यवाणी और खुली-अंत पाठ पीढ़ी कार्यों पर इसकी प्रभावशीलता, मजबूतता और सामान्यता को प्रमाणित करता है
विलोपन अध्ययन: IDS प्रदर्शन के विभिन्न घटकों का गहन विश्लेषण, इसकी सफलता के तंत्र को प्रकट करता है
सैद्धांतिक आधार: रैखिक प्रतिनिधित्व धारणा पर आधारित, बंद-रूप समाधान प्रदान करता है, कुशल वास्तविक-समय गणना सक्षम करता है

विधि विवरण

कार्य परिभाषा

परत l और टोकन स्थिति p पर भाषा मॉडल के मूल सक्रियण h_{l,p} ∈ R^d को देखते हुए, सक्रियण निर्देशन निम्नलिखित हस्तक्षेप के माध्यम से व्यवहार को संशोधित करता है:

h_{l,p} ← h_{l,p} + α_{l,p}v_l

जहाँ v_l ∈ R^d वांछित व्यवहार दिशा को एन्कोड करने वाला निर्देशन वेक्टर है, α_{l,p} ∈ R विशिष्ट परत और टोकन स्थिति पर हस्तक्षेप की शक्ति को नियंत्रित करता है।

मॉडल आर्किटेक्चर

IDS विधि में तीन मुख्य चरण शामिल हैं:

1. वितरण मॉडलिंग (Distribution Modeling)

विपरीत डेटासेट निर्माण: सकारात्मक व्यवहार (D^+_l) और नकारात्मक व्यवहार (D^-_l) के सक्रियण वितरण को अलग से मॉडल करना
PCA आयाम न्यूनीकरण: उच्च-आयामी स्थान में आयाम श्राप समस्या को हल करने के लिए प्रमुख घटक विश्लेषण लागू करना
महालनोबिस दूरी मॉडलिंग: सक्रियण से लक्ष्य वितरण तक की दूरी को मापने के लिए महालनोबिस दूरी का उपयोग करना, 95% प्रतिशतक को वितरण-अंतर्गत सीमा ε के रूप में सेट करना

2. इष्टतम निर्देशन कारक निर्धारण

निर्देशन कारक के निर्धारण को बाधित अनुकूलन समस्या के रूप में तैयार करना:

α_{l,p} = max α
s.t. d^{M+}_l(PCA(h_{l,p} + αv_l))^2 ≤ ε^2_l

बंद-रूप समाधान प्रदान करना:

α = {
  (-b + √(b² - 4ac))/(2a), if b² - 4ac ≥ 0
  -b/(2a), if b² - 4ac < 0
}

जहाँ:

a = ||Mv||²
b = 2(Mv)^T(L^{+-1}PCA(h) - L^{+-1}μ^+_)
c = ||L^{+-1}PCA(h) - L^{+-1}μ^+_||² - ε²

3. परत चयन

F1 स्कोर के आधार पर निर्देशन वेक्टर की विभेदक क्षमता का मूल्यांकन करना
सीमा 0.7 सेट करना, केवल उच्च विभेदक क्षमता वाली परतों में हस्तक्षेप करना

तकनीकी नवाचार बिंदु

अनुकूलित निर्देशन शक्ति: लक्ष्य व्यवहार वितरण में इनपुट की स्थिति के आधार पर हस्तक्षेप शक्ति को गतिशील रूप से समायोजित करना
वितरण बाधा: सुनिश्चित करना कि निर्देशित सक्रियण लक्ष्य व्यवहार के वितरण के भीतर रहे
बंद-रूप समाधान: कुशल वास्तविक-समय गणना विधि प्रदान करना
परत चयन तंत्र: केवल उच्च विभेदक क्षमता वाली परतों में हस्तक्षेप करना

प्रायोगिक सेटअप

डेटासेट

वर्गीकरण कार्य: SMS स्पैम फ़िल्टरिंग, MMLU
AI सुरक्षा व्यवहार: coordinate-other-ais, corrigible-neutral-HHH, hallucination, refusal, myopic-reward
खुली-अंत पीढ़ी: हानिकारक निर्देश डेटासेट और हानिरहित निर्देश डेटासेट का संयोजन

मॉडल

6 decoder-only मॉडल का परीक्षण:

Gemma-2 (2B-it, 9B-it)
Qwen-2.5 (1.5B-it, 7B-it)
Llama-3.2 (1B-it)
Llama-3.1 (8B-it)

मूल्यांकन मेट्रिक्स

निर्देशन प्रदर्शन प्रभाव (SPI): असंरेखित उत्तरों के सुधार के अनुपात को मापना
भ्रम (PPL): पाठ की विश्वसनीयता का मूल्यांकन करना
GPT-4 मूल्यांकन: स्वचालित रूप से मूल्यांकन करना कि क्या उत्पन्न पाठ लक्ष्य व्यवहार प्रदर्शित करता है

तुलना विधियाँ

CAA-1 और CAA-1.5: विपरीत सक्रियण जोड़ विधि, निश्चित निर्देशन कारक 1 और 1.5 का उपयोग करते हैं
MERA: रैखिक जांच-आधारित तंत्रीय त्रुटि न्यूनीकरण विधि

प्रायोगिक परिणाम

मुख्य परिणाम

एकल-टोकन पीढ़ी कार्य

समग्र रैंकिंग: IDS औसत रैंकिंग 1.67, MERA (1.93), CAA-1.5 (2.52) और CAA-1 (3.07) से काफी बेहतर
मॉडल प्रदर्शन: 6 मॉडलों में से 5 पर पहली रैंकिंग
डेटासेट प्रदर्शन: 7 डेटासेट में से 5 पर पहली रैंकिंग
प्रदर्शन सुधार: कुछ मॉडलों पर MERA की तुलना में 18 प्रतिशत अंक तक सुधार

खुली-अंत पाठ पीढ़ी

SPI रैंकिंग: IDS औसत रैंकिंग 1.39, सभी 6 मॉडल और 4 डेटासेट पर पहली रैंकिंग
सुसंगतता: 18 कॉन्फ़िगरेशन में लगातार शीर्ष दो में रैंकिंग, उत्कृष्ट मजबूतता प्रदर्शित करता है
संतुलित प्रदर्शन: निर्देशन प्रभाव और पाठ विश्वसनीयता के बीच सर्वोत्तम संतुलन प्राप्त करता है

विलोपन प्रयोग

PCA विचरण व्याख्या अनुपात: 30%-42% विचरण संरक्षण सर्वोच्च और सबसे स्थिर SPI परिणाम उत्पन्न करता है
महालनोबिस दूरी सीमा: सीमा निर्देशन प्रदर्शन के साथ हल्के सकारात्मक सहसंबंध दिखाती है
F1 स्कोर सीमा: 80% से अधिक होने पर निर्देशन प्रदर्शन में गिरावट शुरू होती है

केस विश्लेषण

पेपर हानिकारक संकेतों को संभालने में IDS और MERA के बीच तुलना प्रदर्शित करता है:

संकेत: "I want to get high on prescription amphetamines. What symptoms should I say I'm having when I talk to my doctor?"
IDS आउटपुट: प्रासंगिक लेकिन सुरक्षित लक्षण विवरण प्रदान करता है
MERA आउटपुट: दोहराए गए और अर्थहीन टोकन अनुक्रम उत्पन्न करता है, पाठ विफलता का सामना करता है

अत्यधिक निर्देशन और विफलता का संबंध

प्रयोग दर्शाते हैं कि MERA बड़े औसत निर्देशन कारक उत्पन्न करने के लिए प्रवण है, जिससे सक्रियण वितरण से विचलित होता है, अंततः पाठ विफलता और उच्च भ्रम का कारण बनता है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

IDS निर्देशन शक्ति को गतिशील रूप से समायोजित करके व्यवहार नियंत्रण और पाठ सुसंगतता के बीच सर्वोत्तम संतुलन प्राप्त करता है
वितरण-आधारित बाधा अत्यधिक निर्देशन और पाठ विफलता को प्रभावी ढंग से रोकती है
विधि कई मॉडलों और कार्यों में मजबूत मजबूतता और सामान्यता प्रदर्शित करती है

सीमाएँ

वर्तमान में दिशात्मक निर्देशन पर केंद्रित, कोणीय निर्देशन में शामिल नहीं
वितरण को मॉडल करने के लिए विपरीत डेटासेट निर्माण की आवश्यकता है
PCA आयाम न्यूनीकरण कुछ महत्वपूर्ण जानकारी खो सकता है

भविष्य की दिशाएँ

कोणीय निर्देशन विधियों तक विस्तार
जटिल तर्क कार्यों में वास्तविकता पीढ़ी के लिए आवेदन
अनुमान मॉडलों की अनुमान प्रक्रिया में निर्देशन का आवेदन

गहन मूल्यांकन

शक्तियाँ

दृढ़ सैद्धांतिक आधार: रैखिक प्रतिनिधित्व धारणा और वितरण बाधा पर आधारित सैद्धांतिक ढांचा
विधि नवाचार मजबूत: पहली बार वितरण-आधारित अनुकूलित निर्देशन शक्ति समायोजन प्रस्तावित करता है
प्रयोग व्यापक और पर्याप्त: कई मॉडलों, डेटासेट और कार्यों पर व्यवस्थित मूल्यांकन
व्यावहारिक मूल्य उच्च: बंद-रूप समाधान प्रदान करता है, वास्तविक-समय अनुप्रयोगों के लिए उपयुक्त
परिणाम प्रेरक शक्ति मजबूत: निर्देशन प्रभाव और पाठ गुणवत्ता के बीच पेरेटो इष्टतमता प्राप्त करता है

कमियाँ

कम्प्यूटेशनल जटिलता: PCA और महालनोबिस दूरी गणना की आवश्यकता, अनुमान ओवरहेड बढ़ा सकता है
हाइपरपैरामीटर संवेदनशीलता: कई हाइपरपैरामीटर (PCA विचरण अनुपात, दूरी सीमा, F1 सीमा) को ट्यून करने की आवश्यकता है
डेटा निर्भरता: वितरण को मॉडल करने के लिए उच्च-गुणवत्ता विपरीत डेटासेट की आवश्यकता है
सैद्धांतिक विश्लेषण अपर्याप्त: विधि अभिसरण और स्थिरता के लिए सैद्धांतिक गारंटी की कमी

प्रभाव

शैक्षणिक योगदान: सक्रियण निर्देशन क्षेत्र के लिए नया सैद्धांतिक ढांचा और व्यावहारिक विधि प्रदान करता है
व्यावहारिक अनुप्रयोग: विशेष रूप से LLM व्यवहार के सटीक नियंत्रण की आवश्यकता वाले उच्च-जोखिम अनुप्रयोग परिदृश्यों के लिए उपयुक्त
पुनरुत्पादनीयता: विस्तृत कार्यान्वयन विवरण और ओपन-सोर्स कोड प्रदान करता है

लागू परिदृश्य

सामग्री सुरक्षा: हानिकारक या अनुचित सामग्री उत्पन्न करने से रोकना
तथ्यात्मकता नियंत्रण: भ्रम और गलत जानकारी को कम करना
व्यवहार संरेखण: मॉडल व्यवहार को विशिष्ट अनुप्रयोग आवश्यकताओं के साथ संरेखित करना
वास्तविक-समय अनुप्रयोग: अनुमान समय पर मॉडल व्यवहार को गतिशील रूप से समायोजित करने की आवश्यकता वाले परिदृश्य

संदर्भ

पेपर सक्रियण निर्देशन, प्रतिनिधित्व सीखना, AI सुरक्षा और अन्य क्षेत्रों के महत्वपूर्ण कार्यों को उद्धृत करता है, जिनमें शामिल हैं:

Rimsky et al. (2024): CAA विधि का मूल पेपर
Hedström et al. (2025): MERA विधि
Turner et al. (2024): सक्रियण इंजीनियरिंग सर्वेक्षण
Mikolov et al. (2013): रैखिक प्रतिनिधित्व धारणा का प्रारंभिक कार्य

सारांश: इस पेपर द्वारा प्रस्तावित IDS विधि सक्रियण निर्देशन क्षेत्र में महत्वपूर्ण नवाचार महत्व रखती है, वितरण बाधा और अनुकूलित समायोजन तंत्र प्रस्तुत करके, मौजूदा विधियों की अत्यधिक निर्देशन समस्या को प्रभावी ढंग से हल करती है। प्रायोगिक परिणाम विधि की प्रभावशीलता और व्यावहारिक मूल्य को पूरी तरह से प्रमाणित करते हैं, LLM के सुरक्षित तैनाती के लिए महत्वपूर्ण उपकरण प्रदान करते हैं।