2025-11-22T14:58:15.937648

Precise Attribute Intensity Control in Large Language Models via Targeted Representation Editing

Zhang, Ye, Heng et al.
Precise attribute intensity control--generating Large Language Model (LLM) outputs with specific, user-defined attribute intensities--is crucial for AI systems adaptable to diverse user expectations. Current LLM alignment methods, however, typically provide only directional or open-ended guidance, failing to reliably achieve exact attribute intensities. We address this limitation with three key designs: (1) reformulating precise attribute intensity control as a target-reaching problem, rather than simple maximization; (2) training a lightweight value function via temporal-difference learning to predict final attribute intensity scores from partial generations, thereby steering LLM outputs; and (3) employing gradient-based interventions on hidden representations to navigate the model precisely towards specific attribute intensity targets. Our method enables fine-grained, continuous control over attribute intensities, moving beyond simple directional alignment. Experiments on LLaMA-3.2-3b and Phi-4-mini confirm our method's ability to steer text generation to user-specified attribute intensities with high accuracy. Finally, we demonstrate efficiency enhancements across three downstream tasks: preference data synthesis, Pareto frontier approximation and optimization, and distillation of aligned behaviors for intervention-free inference. Our code is available on https://github.com/Pre-Control/pre-control
academic

बड़े भाषा मॉडल में लक्षित प्रतिनिधित्व संपादन के माध्यम से सटीक विशेषता तीव्रता नियंत्रण

बुनियादी जानकारी

  • पेपर ID: 2510.12121
  • शीर्षक: Precise Attribute Intensity Control in Large Language Models via Targeted Representation Editing
  • लेखक: Rongzhi Zhang, Liqin Ye, Yuzhao Heng, Xiang Chen, Tong Yu, Lingkai Kong, Sudheer Chava, Chao Zhang
  • वर्गीकरण: cs.AI cs.CL cs.LG
  • प्रकाशन समय/सम्मेलन: प्रीप्रिंट (समीक्षाधीन)
  • पेपर लिंक: https://arxiv.org/abs/2510.12121

सारांश

यह पेपर बड़े भाषा मॉडल (LLM) में विशेषता तीव्रता को सटीकता से नियंत्रित करने के लिए PRE-CONTROL विधि प्रस्तावित करता है। यह विधि तीन मुख्य डिजाइन के माध्यम से सटीक विशेषता तीव्रता नियंत्रण प्राप्त करती है: (1) सटीक विशेषता तीव्रता नियंत्रण को साधारण अधिकतमकरण के बजाय लक्ष्य प्राप्ति समस्या के रूप में पुनः तैयार करना; (2) आंशिक पीढ़ी से अंतिम विशेषता तीव्रता स्कोर की भविष्यवाणी करने के लिए समय-अंतर सीखने का उपयोग करके हल्के वजन के मूल्य फलन को प्रशिक्षित करना; (3) छिपे हुए प्रतिनिधित्व पर ढाल-आधारित हस्तक्षेप को अपनाना, मॉडल को विशिष्ट विशेषता तीव्रता लक्ष्य तक सटीकता से निर्देशित करना। प्रयोग दर्शाते हैं कि यह विधि पाठ पीढ़ी को उपयोगकर्ता-निर्दिष्ट विशेषता तीव्रता तक निर्देशित कर सकती है, और वरीयता डेटा संश्लेषण, पेरेटो सीमांत सन्निकटन और संरेखण व्यवहार आसवन जैसे डाउनस्ट्रीम कार्यों में दक्षता वृद्धि प्रदर्शित करती है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

वर्तमान LLM संरेखण विधियों में एक महत्वपूर्ण सीमा है: वे केवल दिशात्मक या खुली-अंत निर्देशन प्रदान कर सकते हैं, सटीक विशेषता तीव्रता तक विश्वसनीय रूप से नहीं पहुंच सकते। उदाहरण के लिए, एक उपयोगकर्ता चाह सकता है कि ईमेल की औपचारिकता 3 (5-बिंदु पैमाने पर) हो, न कि केवल "अधिक औपचारिक" या "कम औपचारिक"।

समस्या की महत्ता

सटीक विशेषता तीव्रता नियंत्रण विविध उपयोगकर्ता अपेक्षाओं के अनुकूल AI प्रणालियों के निर्माण के लिए महत्वपूर्ण है, विशेष रूप से बहु-उद्देश्य संरेखण परिदृश्यों में, जहां विभिन्न विशेषताओं के बीच संघर्ष होता है, सर्वोत्तम समझौता खोजने के लिए निरंतर पैमाने पर अदिश-स्तरीय समायोजन की आवश्यकता होती है।

मौजूदा विधियों की सीमाएं

  1. RLHF और DPO: स्थिर मॉडल का उत्पादन करते हैं, अपेक्षित व्यवहार के औसत को कैप्चर करते हैं, प्राथमिकताओं को समायोजित करने के लिए महंगे पुनः प्रशिक्षण की आवश्यकता होती है
  2. संकेत विधियां: पूरी तरह से शैली निर्देशों की मॉडल की व्याख्या पर निर्भर करती हैं, असंगत परिणाम
  3. निर्देशित डिकोडिंग: आमतौर पर विशेषता तीव्रता को निरंतर मान के बजाय वर्गीकरण के रूप में मानती है
  4. बहु-उद्देश्य संरेखण विधियां: वैश्विक पेरेटो सेट को अनुमानित करने के लिए बड़े पैमाने पर प्रशिक्षण की आवश्यकता होती है

अनुसंधान प्रेरणा

मौजूदा विधियों में सटीक विशेषता तीव्रता नियंत्रण की क्षमता का अभाव है, यह पेपर साधारण दिशात्मक संरेखण से परे सूक्ष्म-दानेदार, निरंतर विशेषता तीव्रता नियंत्रण प्राप्त करने का लक्ष्य रखता है।

मुख्य योगदान

  1. समस्या पुनः तैयारी: सटीक विशेषता तीव्रता नियंत्रण को साधारण अधिकतमकरण/न्यूनतमकरण के बजाय लक्ष्य प्राप्ति समस्या के रूप में तैयार करना
  2. मूल्य फलन विधि: समय-अंतर सीखने के माध्यम से हल्के वजन के मूल्य फलन को प्रशिक्षित करना, आंशिक पीढ़ी से अंतिम विशेषता स्कोर की भविष्यवाणी करना
  3. प्रतिनिधित्व संपादन तकनीक: ढाल-आधारित छिपे हुए प्रतिनिधित्व हस्तक्षेप को अपनाना, विशिष्ट विशेषता तीव्रता लक्ष्य तक सटीकता से नेविगेट करना
  4. कुशल अनुप्रयोग: पेरेटो सीमांत सन्निकटन (समय जटिलता O(m^d) से O(n+k) तक) और नियंत्रणीय मॉडल आसवन में दक्षता लाभ प्रदर्शित करना

विधि विवरण

कार्य परिभाषा

लक्ष्य विशेषता तीव्रता τ ∈ 0,1 और पुरस्कार फलन R(x) दिए गए, लक्ष्य ऐसा पाठ उत्पन्न करना है जिसकी विशेषता तीव्रता स्कोर लक्ष्य मान से मेल खाती हो, न कि केवल पुरस्कार को अधिकतम करना।

मॉडल आर्किटेक्चर

1. लक्ष्य प्राप्ति समस्या पुनर्निर्माण

पारंपरिक संरेखण उद्देश्य:

max_θ E_{x~π_θ}[R(x)]

इस पेपर का लक्ष्य प्राप्ति सूत्रीकरण:

min_θ E_{x~π_θ}[(R̂(x) - τ)²]

जहां R̂(x) 0,1 में सामान्यीकृत पुरस्कार फलन है।

2. मूल्य फलन प्रशिक्षण

TD(λ) का उपयोग करके मूल्य फलन V_φ(h_t) को प्रशिक्षित करना आंशिक अनुक्रम की अपेक्षित विशेषता तीव्रता की भविष्यवाणी करने के लिए:

V_φ(h_t) ≈ E_{x>t~π_θ(·|x≤t)}[R̂(x≤t, x>t)]

सामान्यीकृत रिटर्न गणना:

G^λ_t = (1-λ)∑_{n=1}^{T-t-1} λ^{n-1}V_φ(s_{t+n}) + λ^{T-t-1}r_T

मूल्य फलन हानि:

L_TD = E_{t,s_t}[(V_φ(s_t) - G^λ_t)²]

3. परीक्षण समय हस्तक्षेप

ढाल वंश के माध्यम से छिपे हुए अवस्था को समायोजित करना:

h_t ← h_t - α∇_{h_t}(V_φ(h_t) - τ)²

बहु-विशेषता मामला:

h_t ← h_t - α∇_{h_t}∑_{i=1}^m w_i(V^i_φ(h_t) - τ_i)²

तकनीकी नवाचार बिंदु

  1. लक्ष्य-उन्मुख डिजाइन: दिशात्मक अनुकूलन से सटीक लक्ष्य प्राप्ति की ओर
  2. वास्तविक समय प्रतिक्रिया तंत्र: मूल्य फलन पीढ़ी प्रक्रिया के दौरान मध्यवर्ती प्रतिक्रिया प्रदान करता है
  3. प्रतिनिधित्व स्थान नेविगेशन: उच्च-आयामी प्रतिनिधित्व स्थान में सीधे सटीक नेविगेशन
  4. बहु-विशेषता समन्वय: एक साथ कई संभावित संघर्षशील विशेषताओं को नियंत्रित करना

प्रयोग सेटअप

डेटासेट

  1. HelpSteer2: 20,324 प्रशिक्षण नमूने, 1,038 परीक्षण नमूने, 5 विशेषताओं सहित (सहायकता, सटीकता, सुसंगतता, जटिलता, विस्तार)
  2. Code-UltraFeedback: 10,000 जटिल निर्देश, 5 प्रोग्रामिंग-संबंधित विशेषताओं सहित (जटिलता और दक्षता, शैली, व्याख्या, निर्देश-पालन, पठनीयता)

मूल्यांकन मेट्रिक्स

  1. Self-BLEU स्कोर: उत्पन्न पाठ की विविधता को मापना (जितना कम उतना बेहतर)
  2. ℓ1 दूरी लक्ष्य तक: मॉडल आउटपुट और उपयोगकर्ता-निर्दिष्ट विशेषता स्कोर के बीच निकटता का मूल्यांकन
  3. सफलता दर: मॉडल आउटपुट सटीक रूप से अपेक्षित विशेषता कॉन्फ़िगरेशन से मेल खाने की आवृत्ति

तुलनात्मक विधियां

  • Base: आधार मॉडल सीधे पीढ़ी
  • Prompting: संकेत में लक्ष्य विशेषता स्कोर शामिल करना
  • ITI: पुरस्कार की भविष्यवाणी करने के लिए रैखिक परत प्रशिक्षित करना और सीखे गए दिशा के साथ सक्रियण समायोजित करना
  • MAT-Steer: विरल, ऑर्थोगोनल बहु-विशेषता निर्देशन वेक्टर सीखना
  • RE-Control: परीक्षण समय हस्तक्षेप का खुली-अंत अनुकूलन निष्पादित करना

कार्यान्वयन विवरण

  • आधार मॉडल: LLaMA-3.2-3b और Phi-4-mini
  • मूल्य फलन: 4-परत MLP
  • पुरस्कार मॉडल: ArmoRM-Llama3-8B
  • हस्तक्षेप परत: अंतिम transformer परत
  • अनुकूलक: Adam, प्रारंभिक रोक तकनीक

प्रयोग परिणाम

मुख्य परिणाम

प्रतिनिधि लक्ष्य स्कोर पर प्रयोग परिणाम दिखाते हैं:

सकारात्मक लक्ष्य (HelpSteer2 4,4,4,2,2):

  • LLaMA-3.2-3b: PRE-CONTROL सफलता दर 7.96% बनाम सर्वश्रेष्ठ आधारभूत 5.39%
  • Phi-4-mini: PRE-CONTROL सफलता दर 8.31% बनाम सर्वश्रेष्ठ आधारभूत 5.70%

नकारात्मक लक्ष्य (HelpSteer2 3,3,3,2,2):

  • LLaMA-3.2-3b: PRE-CONTROL सफलता दर 6.60% बनाम सर्वश्रेष्ठ आधारभूत 5.84%
  • Phi-4-mini: PRE-CONTROL सफलता दर 9.11% बनाम सर्वश्रेष्ठ आधारभूत 8.73%

Code-UltraFeedback परिणाम:

  • सकारात्मक लक्ष्य 3,3,3,3,3: सफलता दर 17.46%-26.16% तक बढ़ी
  • नकारात्मक लक्ष्य 2,2,2,2,2: सफलता दर 22.34%-30.68% तक बढ़ी

पुनरावृत्ति हस्तक्षेप परिणाम

PRE-CONTROL कई पुनरावृत्तियों में निरंतर प्रदर्शन सुधार दिखाता है, जबकि अन्य विधियां दूसरी पुनरावृत्ति के बाद समतल हो जाती हैं।

पेरेटो सीमांत सन्निकटन

  • गुणवत्ता सुधार: हाइपरवॉल्यूम 7.54 से 12.66 तक बढ़ा
  • दक्षता सुधार: कम्प्यूटेशनल ओवरहेड 3.3 GPU घंटे से 0.4 घंटे तक (8 गुना कमी)
  • अधिक बिंदु खोजे गए: गैर-प्रभुत्वशाली बिंदु 45 से 69 तक बढ़े

नियंत्रणीय आसवन

15k नमूने और 2.1 GPU घंटे का उपयोग करके 16.81 हाइपरवॉल्यूम प्राप्त किया, Best-of-N विधि के 15.27 (50k नमूने और 7.8 GPU घंटे की आवश्यकता) से बेहतर।

केस विश्लेषण

गुणात्मक विश्लेषण दिखाता है कि PRE-CONTROL सक्षम है:

  • नकारात्मक नियंत्रण: अत्यधिक विस्तृत उत्तर 4,4,4,3,3 को सटीकता से संक्षिप्त संस्करण 3,3,3,2,2 में समायोजित करना
  • सकारात्मक नियंत्रण: सरल उत्तर 4,4,4,1,1 को अधिक विस्तृत संस्करण 4,4,4,2,2 में विस्तारित करना

संबंधित कार्य

LLM संरेखण

  1. सूक्ष्म-ट्यूनिंग प्रतिमान: RLHF और DPO को बहु-चरणीय प्रशिक्षण की आवश्यकता होती है, संसाधन-गहन
  2. अनुमान समय हस्तक्षेप: संकेत इंजीनियरिंग और निर्देशित डिकोडिंग में सटीक नियंत्रण तंत्र का अभाव
  3. बहु-उद्देश्य संरेखण: मौजूदा विधियों को बहु-उद्देश्य वरीयताओं को इंजेक्ट करने के लिए महंगे पुनः प्रशिक्षण की आवश्यकता होती है

प्रतिनिधित्व इंजीनियरिंग

  1. सक्रियण व्यवधान: तत्काल प्लग-इन विधियों से सीखे गए निर्देशन वेक्टर तक विकास
  2. प्रतिनिधित्व सूक्ष्म-ट्यूनिंग: कम-रैंक प्रक्षेपण मैट्रिक्स का उपयोग करके कुशलतापूर्वक सक्रियण संपादित करना
  3. सीमाएं: मुख्य रूप से द्विआधारी या वर्गीकरण विशेषता नियंत्रण पर ध्यान केंद्रित करता है, निरंतर पैमाने पर सटीक लक्ष्य नहीं

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. PRE-CONTROL LLM में सटीक विशेषता तीव्रता नियंत्रण प्राप्त करता है
  2. लक्ष्य प्राप्ति सूत्रीकरण पारंपरिक अधिकतमकरण विधि से सटीक नियंत्रण के लिए अधिक उपयुक्त है
  3. मूल्य फलन और ढाल हस्तक्षेप का संयोजन प्रभावी नियंत्रण तंत्र प्रदान करता है
  4. विधि कई डाउनस्ट्रीम अनुप्रयोगों में दक्षता लाभ प्रदर्शित करती है

सीमाएं

  1. पुरस्कार मॉडल प्रॉक्सी के रूप में मूल्य फलन: हल्के वजन का MLP मूल पुरस्कार संकेत के सभी विवरणों को कैप्चर नहीं कर सकता है
  2. अंतिम परत हस्तक्षेप: वर्तमान कार्यान्वयन केवल अंतिम transformer परत पर हस्तक्षेप लागू करता है, मॉडल के प्रतिनिधित्व पदानुक्रम का पूरी तरह से उपयोग नहीं कर सकता है
  3. कम्प्यूटेशनल ओवरहेड: हालांकि अपेक्षाकृत कुशल है, फिर भी अतिरिक्त मूल्य फलन प्रशिक्षण और अनुमान समय गणना की आवश्यकता है

भविष्य की दिशाएं

  1. अधिक जटिल मूल्य फलन आर्किटेक्चर की खोज करना पुरस्कार मॉडल क्षमता को बेहतर तरीके से अनुमानित करने के लिए
  2. बहु-परत हस्तक्षेप रणनीति या ध्यान-स्तरीय संशोधन का अनुसंधान
  3. कठिन मामलों के लिए चयनात्मक रूप से पूर्ण पुरस्कार मॉडल को क्वेरी करने के लिए अनुकूली तंत्र विकसित करना

गहन मूल्यांकन

शक्तियां

  1. मजबूत नवाचार: विशेषता नियंत्रण को लक्ष्य प्राप्ति समस्या के रूप में पुनः तैयार करना, पारंपरिक दिशात्मक संरेखण की सीमाओं को तोड़ना
  2. विधि व्यवस्थितता: मूल्य फलन प्रशिक्षण, TD सीखना और ढाल हस्तक्षेप एक पूर्ण तकनीकी प्रणाली बनाते हैं
  3. व्यापक प्रयोग: दो डेटासेट, दो मॉडल पर व्यापक मूल्यांकन, विलोपन प्रयोग और अनुप्रयोग सत्यापन सहित
  4. उच्च व्यावहारिक मूल्य: पेरेटो सीमांत सन्निकटन और मॉडल आसवन में महत्वपूर्ण दक्षता सुधार प्रदर्शित करता है

कमियां

  1. अपर्याप्त सैद्धांतिक विश्लेषण: अभिसरण गारंटी और हस्तक्षेप स्थिरता का सैद्धांतिक विश्लेषण का अभाव
  2. मूल्य फलन निर्भरता: विधि का प्रदर्शन बड़े हद तक मूल्य फलन की गुणवत्ता पर निर्भर करता है
  3. सामान्यीकरण क्षमता: केवल विशिष्ट विशेषताओं और मॉडल पर सत्यापित, सामान्यीकरण क्षमता को आगे सत्यापन की आवश्यकता है
  4. कम्प्यूटेशनल जटिलता: हालांकि अपेक्षाकृत कुशल है, अनुमान समय में अभी भी अतिरिक्त गणना की आवश्यकता है

प्रभाव

  1. शैक्षणिक योगदान: LLM सटीक नियंत्रण के लिए नया अनुसंधान प्रतिमान प्रदान करता है
  2. व्यावहारिक मूल्य: व्यक्तिगत AI प्रणाली और बहु-उद्देश्य अनुकूलन के लिए प्रभावी उपकरण प्रदान करता है
  3. पुनरुत्पादनीयता: लेखक पूर्ण कोड और प्रयोग कॉन्फ़िगरेशन प्रदान करते हैं

लागू परिदृश्य

  1. व्यक्तिगत सामग्री पीढ़ी: पाठ शैली, जटिलता जैसी विशेषताओं को सटीकता से नियंत्रित करने की आवश्यकता
  2. बहु-उद्देश्य अनुकूलन: संघर्षशील विशेषताओं के बीच सर्वोत्तम संतुलन बिंदु खोजना
  3. मॉडल संरेखण: विशिष्ट विशेषता आवश्यकताओं को पूरा करने वाले प्रशिक्षण डेटा को कुशलतापूर्वक उत्पन्न करना
  4. इंटरैक्टिव AI प्रणाली: उपयोगकर्ता प्रतिक्रिया के आधार पर गतिशील रूप से आउटपुट विशेषताओं को समायोजित करना

संदर्भ

पेपर LLM संरेखण, बहु-उद्देश्य अनुकूलन, प्रतिनिधित्व इंजीनियरिंग जैसे मुख्य क्षेत्रों के महत्वपूर्ण कार्यों को कवर करते हुए 46 संबंधित संदर्भों का हवाला देता है, अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करता है।


समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला अनुसंधान पेपर है जो सटीक विशेषता तीव्रता नियंत्रण के लिए एक नवीन विधि प्रस्तावित करता है, सैद्धांतिक योगदान और व्यावहारिक मूल्य दोनों में उत्कृष्ट प्रदर्शन करता है। विधि डिजाइन तर्कसंगत है, प्रयोग सत्यापन व्यापक है, LLM नियंत्रण क्षेत्र में महत्वपूर्ण योगदान प्रदान करता है।