In-Distribution Steering: Balancing Control and Coherence in Language Model Generation
Vogels, Wong, Choho et al.
Activation steering methods control large language model (LLM) behavior by modifying internal activations at inference time. However, most existing activation steering methods rely on a fixed steering strength, leading to either insufficient control or unadapted intervention that degrades text plausibility and coherence. We introduce In-Distribution Steering (IDS), a novel method that adapts steering strength based on the input data distribution in representation space. IDS dynamically adjusts interventions according to how far a given input lies within the distribution, enabling adaptive intervention and generation stability during text generation. Experiments demonstrate that IDS achieves strong accuracy on classification tasks while producing coherent text without collapse, making IDS particularly well suited for real-world applications.
academic
वितरण-अंतर्गत निर्देशन: भाषा मॉडल पीढ़ी में नियंत्रण और सुसंगतता को संतुलित करना
सक्रियण निर्देशन विधियाँ अनुमान समय पर आंतरिक सक्रियणों को संशोधित करके बड़े भाषा मॉडल (LLM) के व्यवहार को नियंत्रित करती हैं। हालांकि, अधिकांश मौजूदा सक्रियण निर्देशन विधियाँ निश्चित निर्देशन शक्ति पर निर्भर करती हैं, जिससे अपर्याप्त नियंत्रण या अत्यधिक हस्तक्षेप होता है, जिससे पाठ की विश्वसनीयता और सुसंगतता में कमी आती है। यह पेपर वितरण-अंतर्गत निर्देशन (IDS) प्रस्तावित करता है, जो प्रतिनिधित्व स्थान में इनपुट डेटा वितरण के आधार पर निर्देशन शक्ति को अनुकूलित रूप से समायोजित करने की एक नई विधि है। IDS दिए गए इनपुट की वितरण में स्थिति के अनुसार हस्तक्षेप को गतिशील रूप से समायोजित करता है, पाठ पीढ़ी प्रक्रिया के दौरान अनुकूलित हस्तक्षेप और पीढ़ी स्थिरता प्राप्त करता है। प्रयोग दर्शाते हैं कि IDS वर्गीकरण कार्यों पर मजबूत सटीकता प्राप्त करता है, साथ ही बिना विफलता के सुसंगत पाठ उत्पन्न करता है, जिससे IDS व्यावहारिक अनुप्रयोगों के लिए विशेष रूप से उपयुक्त है।
RLHF (मानव प्रतिक्रिया से सुदृढ़ीकरण सीखना): बड़ी मात्रा में डेटा और कम्प्यूटेशनल संसाधनों की आवश्यकता, मॉडल भार संशोधन विधि अपारदर्शी, नई पूर्वाग्रह प्रस्तुत कर सकता है
प्रॉम्प्ट इंजीनियरिंग: प्रभाव अप्रत्यक्ष, संदर्भ के प्रति अत्यधिक संवेदनशील
मौजूदा सक्रियण निर्देशन विधियाँ:
निश्चित निर्देशन शक्ति का उपयोग करते हैं, जिससे अपर्याप्त या अत्यधिक निर्देशन होता है
IDS विधि प्रस्तावित करना: एक नई सक्रियण निर्देशन विधि जो प्रत्येक इनपुट के आधार पर निर्देशन शक्ति को गतिशील रूप से समायोजित कर सकती है, पाठ की विश्वसनीयता और सुसंगतता बनाए रखते हुए सटीक व्यवहार नियंत्रण प्राप्त करती है
व्यापक प्रायोगिक मूल्यांकन: 6 LLM और 7 डेटासेट पर IDS प्रदर्शन का मूल्यांकन, दो प्रतिस्पर्धी विधियों के साथ तुलना, एकल-टोकन भविष्यवाणी और खुली-अंत पाठ पीढ़ी कार्यों पर इसकी प्रभावशीलता, मजबूतता और सामान्यता को प्रमाणित करता है
विलोपन अध्ययन: IDS प्रदर्शन के विभिन्न घटकों का गहन विश्लेषण, इसकी सफलता के तंत्र को प्रकट करता है
सैद्धांतिक आधार: रैखिक प्रतिनिधित्व धारणा पर आधारित, बंद-रूप समाधान प्रदान करता है, कुशल वास्तविक-समय गणना सक्षम करता है
परत l और टोकन स्थिति p पर भाषा मॉडल के मूल सक्रियण h_{l,p} ∈ R^d को देखते हुए, सक्रियण निर्देशन निम्नलिखित हस्तक्षेप के माध्यम से व्यवहार को संशोधित करता है:
h_{l,p} ← h_{l,p} + α_{l,p}v_l
जहाँ v_l ∈ R^d वांछित व्यवहार दिशा को एन्कोड करने वाला निर्देशन वेक्टर है, α_{l,p} ∈ R विशिष्ट परत और टोकन स्थिति पर हस्तक्षेप की शक्ति को नियंत्रित करता है।
विपरीत डेटासेट निर्माण: सकारात्मक व्यवहार (D^+_l) और नकारात्मक व्यवहार (D^-_l) के सक्रियण वितरण को अलग से मॉडल करना
PCA आयाम न्यूनीकरण: उच्च-आयामी स्थान में आयाम श्राप समस्या को हल करने के लिए प्रमुख घटक विश्लेषण लागू करना
महालनोबिस दूरी मॉडलिंग: सक्रियण से लक्ष्य वितरण तक की दूरी को मापने के लिए महालनोबिस दूरी का उपयोग करना, 95% प्रतिशतक को वितरण-अंतर्गत सीमा ε के रूप में सेट करना
प्रयोग दर्शाते हैं कि MERA बड़े औसत निर्देशन कारक उत्पन्न करने के लिए प्रवण है, जिससे सक्रियण वितरण से विचलित होता है, अंततः पाठ विफलता और उच्च भ्रम का कारण बनता है।
पेपर सक्रियण निर्देशन, प्रतिनिधित्व सीखना, AI सुरक्षा और अन्य क्षेत्रों के महत्वपूर्ण कार्यों को उद्धृत करता है, जिनमें शामिल हैं:
Rimsky et al. (2024): CAA विधि का मूल पेपर
Hedström et al. (2025): MERA विधि
Turner et al. (2024): सक्रियण इंजीनियरिंग सर्वेक्षण
Mikolov et al. (2013): रैखिक प्रतिनिधित्व धारणा का प्रारंभिक कार्य
सारांश: इस पेपर द्वारा प्रस्तावित IDS विधि सक्रियण निर्देशन क्षेत्र में महत्वपूर्ण नवाचार महत्व रखती है, वितरण बाधा और अनुकूलित समायोजन तंत्र प्रस्तुत करके, मौजूदा विधियों की अत्यधिक निर्देशन समस्या को प्रभावी ढंग से हल करती है। प्रायोगिक परिणाम विधि की प्रभावशीलता और व्यावहारिक मूल्य को पूरी तरह से प्रमाणित करते हैं, LLM के सुरक्षित तैनाती के लिए महत्वपूर्ण उपकरण प्रदान करते हैं।