2025-11-12T10:46:10.127053

Transmuting prompts into weights

Mazzawi, Dherin, Munn et al.
A growing body of research has demonstrated that the behavior of large language models can be effectively controlled at inference time by directly modifying their internal states, either through vector additions to their activations or through updates to their weight matrices. These techniques, while powerful, are often guided by empirical heuristics, such as deriving steering vectors from the average activations of contrastive prompts. This work provides a theoretical foundation for these interventions, explaining how they emerge from the fundamental computations of the transformer architecture. Building on the recent finding that a prompt's influence can be mathematically mapped to implicit weight updates (Dherin et al., 2025), we generalize this theory to deep, multi-block transformers. We show how the information contained in any chunk of a user prompt is represented and composed internally through weight vectors and weight matrices. We then derive a principled method for condensing this information into token-independent thought vectors and thought matrices. These constructs provide a theoretical explanation for existing vector- and matrix-based model editing techniques and offer a direct, computationally-grounded method for transmuting textual input into reusable weight updates.
academic

प्रॉम्प्ट्स को वेट्स में रूपांतरित करना

बुनियादी जानकारी

  • पेपर ID: 2510.08734
  • शीर्षक: प्रॉम्प्ट्स को वेट्स में रूपांतरित करना
  • लेखक: हन्ना मज़ावी, बेनोइट धेरिन, माइकल मुन, माइकल वुंडर, जेवियर गोंजालवो (गूगल रिसर्च)
  • वर्गीकरण: cs.LG (मशीन लर्निंग)
  • प्रकाशन समय: 9 अक्टूबर 2025 (arXiv प्रीप्रिंट)
  • पेपर लिंक: https://arxiv.org/abs/2510.08734

सारांश

यह पेपर बड़े भाषा मॉडल्स के अनुमान समय नियंत्रण तकनीकों के लिए सैद्धांतिक आधार प्रदान करता है। मौजूदा अनुसंधान से पता चलता है कि मॉडल के आंतरिक स्थिति को सीधे संशोधित करके (सक्रियकरण में वेक्टर जोड़ना या वेट मैट्रिक्स अपडेट करना) बड़े भाषा मॉडल्स के व्यवहार को प्रभावी ढंग से नियंत्रित किया जा सकता है। हालांकि, ये तकनीकें आमतौर पर अनुभवजन्य अनुमानी विधियों पर आधारित होती हैं और सैद्धांतिक समर्थन की कमी होती है। यह पेपर इस खोज पर आधारित है कि प्रॉम्प्ट प्रभाव को गणितीय रूप से निहित वेट अपडेट के रूप में मैप किया जा सकता है, इस सिद्धांत को गहरे बहु-ब्लॉक ट्रांसफॉर्मर तक सामान्यीकृत करता है। पेपर प्रदर्शित करता है कि उपयोगकर्ता प्रॉम्प्ट में कोई भी सूचना ब्लॉक आंतरिक रूप से वेट वेक्टर और वेट मैट्रिक्स के माध्यम से कैसे प्रस्तुत और संयुक्त किया जा सकता है, और इस सूचना को टोकन-स्वतंत्र "विचार वेक्टर" और "विचार मैट्रिक्स" में संपीड़ित करने के सिद्धांत-आधारित तरीके को प्राप्त करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

इस अनुसंधान द्वारा हल की जाने वाली मूल समस्या यह है: मौजूदा मॉडल हस्तक्षेप तकनीकें (जैसे सक्रियकरण निर्देशन और मॉडल संपादन) जटिल मॉडल व्यवहार को प्रभावी ढंग से नियंत्रित करने में सक्षम क्यों हैं? इन तकनीकों के पीछे गणितीय सिद्धांत क्या है?

महत्व

  1. सैद्धांतिक अभाव: हालांकि वेक्टर निर्देशन और मैट्रिक्स संपादन तकनीकें व्यावहारिक रूप से बहुत प्रभावी हैं, लेकिन ट्रांसफॉर्मर आर्किटेक्चर पर आधारित सैद्धांतिक व्याख्या की कमी है
  2. विधि सीमाएं: मौजूदा विधियां मुख्य रूप से अनुभवजन्य अनुमानी पर आधारित हैं, जैसे विपरीत प्रॉम्प्ट्स के औसत सक्रियकरण के माध्यम से निर्देशन वेक्टर का निर्माण
  3. एकीकृत ढांचे की आवश्यकता: एक एकीकृत सैद्धांतिक ढांचे की आवश्यकता है जो समझाए कि पाठ निर्देश कैसे विशिष्ट वेट या सक्रियकरण परिवर्तनों में परिवर्तित होते हैं

मौजूदा विधियों की सीमाएं

  1. सक्रियकरण निर्देशन विधि: केवल वेक्टर जोड़ का उपयोग निर्देश के पूर्ण प्रभाव को प्रतिनिधित्व करने में सक्षम नहीं हो सकता है
  2. मॉडल संपादन विधि: सामान्य प्रॉम्प्ट सूचना को पुन: प्रयोग करने योग्य वेट अपडेट में संपीड़ित करने के लिए पहले सिद्धांत से रणनीति की कमी है
  3. अपर्याप्त सैद्धांतिक व्याख्या: मौजूदा तकनीकों की सफलता ट्रांसफॉर्मर कम्प्यूटेशनल तंत्र पर आधारित सैद्धांतिक व्याख्या की कमी है

मुख्य योगदान

  1. सैद्धांतिक विस्तार: एकल ट्रांसफॉर्मर ब्लॉक के टोकन पैच सिद्धांत को गहरे बहु-ब्लॉक ट्रांसफॉर्मर आर्किटेक्चर तक विस्तारित करना
  2. विचार पैच ढांचा: टोकन-निर्भर क्षणिक पैच को पुन: प्रयोग करने योग्य वेट अपडेट में एकत्रित करने की विधि प्रस्तावित करना
  3. सैद्धांतिक एकीकरण: मौजूदा वेक्टर निर्देशन और मैट्रिक्स संपादन तकनीकों के लिए एकीकृत सैद्धांतिक व्याख्या प्रदान करना
  4. व्यावहारिक विधि: पाठ प्रॉम्प्ट को सीधे वेट अपडेट में परिवर्तित करने की कम्प्यूटेशनल विधि प्रदान करना

विधि विवरण

कार्य परिभाषा

निर्देश ब्लॉक I और बाद की सामग्री युक्त प्रॉम्प्ट C = I, x₁, ..., xₙ दिया गया है, लक्ष्य समतुल्य वेट अपडेट खोजना है ताकि निर्देश I को हटाने के बाद मॉडल आउटपुट मूल पूर्ण प्रॉम्प्ट के आउटपुट के समान हो।

टोकन पैच सिद्धांत

एकल ब्लॉक विस्तार

धेरिन और अन्य के काम के आधार पर, एकल ट्रांसफॉर्मर ब्लॉक के आउटपुट को निम्नलिखित टोकन पैच द्वारा पूरी तरह से दोहराया जा सकता है:

δₓ(I) = A(C, x) - A(C\I, x)                    (3)
∆ₓ(I) = δₓ(I)aₓᵀ / ||aₓ||²                    (4)

जहां aₓ = A(C\I, x) संदर्भ I के बिना टोकन x का ध्यान आउटपुट है।

बहु-ब्लॉक विस्तार

गहरे ट्रांसफॉर्मर के लिए, टोकन पैच को प्रत्येक परत पर पुनरावर्ती रूप से लागू किया जाना चाहिए:

x⁽²⁾ = T⁽²⁾_patched ∘ T⁽¹⁾_patched (C⁽⁰⁾\I⁽⁰⁾, x⁽⁰⁾)

प्रत्येक परत का पैच पिछली परत के रूपांतरित सक्रियकरण का उपयोग करके गणना की जाती है।

विचार पैच व्युत्पत्ति

विचार वेक्टर सन्निकटन

सभी टोकन वेक्टर के वर्ग त्रुटि को कम करके, विचार वेक्टर का इष्टतम सन्निकटन प्राप्त किया जाता है:

δ(I) = (1/n) Σᵢ₌₁ⁿ δᵢ

विचार मैट्रिक्स सन्निकटन

प्रमेय 3.1: n वेक्टर a₁,...,aₙ पर विचार करते हुए, न्यूनतमकरण समस्या:

∆(I) = argminₘ Σᵢ₌₁ⁿ ||Maᵢ - ∆ᵢaᵢ||²        (7)

का अद्वितीय समाधान तब और केवल तब होता है जब ऑपरेटर Z = Σᵢ₌₁ⁿ aᵢaᵢᵀ व्युत्क्रमणीय हो:

∆(I) = (Σᵢ₌₁ⁿ δᵢaᵢᵀ) Z⁻¹                    (8)

व्यावहारिक सन्निकटन

यह मानते हुए कि वेक्टर aᵢ गोलाकार वितरण प्रदर्शित करते हैं, Z इकाई मैट्रिक्स के गुणक के रूप में अनुमानित है, व्यावहारिक सूत्र प्राप्त होता है:

∆(I) = λ Σᵢ₌₁ⁿ δᵢaᵢᵀ

तकनीकी नवाचार बिंदु

  1. सैद्धांतिक आधार: पहली बार अनुभवजन्य मॉडल नियंत्रण तकनीकों के लिए ट्रांसफॉर्मर आर्किटेक्चर पर आधारित सैद्धांतिक व्याख्या प्रदान करना
  2. एकीकृत ढांचा: वेक्टर निर्देशन और मैट्रिक्स संपादन को एकल वेट अपडेट तंत्र में एकीकृत करना
  3. गणितीय कठोरता: कठोर गणितीय व्युत्पत्ति और प्रमेय प्रमाण प्रदान करना
  4. व्यावहारिकता: विधि सीधे वास्तविक मॉडल पर लागू होती है, बैकप्रोपेगेशन की आवश्यकता नहीं है

प्रायोगिक सेटअप

डेटासेट

  1. अंकगणितीय कार्य: तीन अंकों के जोड़ और गुणन के सिंथेटिक डेटासेट
  2. मशीन अनुवाद: "mntn/en-fr" अंग्रेजी-फ्रेंच अनुवाद डेटासेट का उपयोग

मॉडल

सभी प्रयोग Gemma 3.0 1B मॉडल का उपयोग करते हैं

मूल्यांकन मेट्रिक्स

  • अंकगणितीय कार्य: सटीकता (लक्ष्य ≥80%)
  • मशीन अनुवाद: Gemini 2.5-Flash-lite का उपयोग करके अनुवाद गुणवत्ता का मूल्यांकन

कार्यान्वयन विवरण

  • लक्ष्य परत: 10-20 परत
  • हाइपरपैरामीटर: c₁ और c₂ ट्यूनिंग के माध्यम से निर्धारित
  • स्थिरता सुधार: ध्यान वेक्टर मानदंड सामान्यीकरण के माध्यम से rank-1 अपडेट

प्रायोगिक परिणाम

मुख्य परिणाम

अंकगणितीय कार्य

  • जोड़: 300 से कम प्रदर्शन टोकन का उपयोग करके 100% सटीकता प्राप्त करना
  • गुणन: 80% सटीकता प्राप्त करना, अधिक जटिल कार्यों पर विधि की प्रभावशीलता प्रमाणित करना
  • व्यवहार अवलोकन: पैच किया गया मॉडल अधिक विस्तृत श्रृंखला तर्क उत्पन्न करता है

मशीन अनुवाद

  • पैच किया गया मॉडल: बिना निर्देश के 60% सटीकता प्राप्त करना
  • बेसलाइन मॉडल: निर्देश के साथ 72% सटीकता प्राप्त करना
  • प्रदर्शन अंतर: 12% का प्रदर्शन अंतर मौजूद है, लेकिन विधि की व्यवहार्यता प्रमाणित करता है

मुख्य निष्कर्ष

  1. हाइपरपैरामीटर संवेदनशीलता: विधि हाइपरपैरामीटर c₁ के प्रति अत्यधिक संवेदनशील है
    • c₁ बहुत कम: मॉडल सरलता से इनपुट दोहराता है
    • c₁ बहुत अधिक: आउटपुट दोहराव और अस्थिर हो जाता है
  2. बेसलाइन से बेहतर मामले: कुछ अंकगणितीय समस्याओं पर, पैच किया गया मॉडल निर्देश के साथ बेसलाइन मॉडल से भी बेहतर प्रदर्शन करता है
  3. भाषा भ्रम: अनुवाद कार्यों में, मॉडल कभी-कभी गलत लक्ष्य भाषा पर डिफ़ॉल्ट करता है

केस विश्लेषण

सफल केस (जोड़):

  • प्रश्न: 2 9 2
  • पैच किया गया मॉडल आउटपुट: "ठीक है, आइए 2 + 9 + 2 का योग निकालें: 2 + 9 + 2 = 13 तो, उत्तर 13 है।"

त्रुटि सुधार केस (गुणन):

  • बेसलाइन मॉडल त्रुटि: 0 * 8 * 6 = 48
  • पैच किया गया मॉडल सही: 0 * 8 * 6 = 0

संबंधित कार्य

सक्रियकरण निर्देशन विधियां

  • निर्देशन वेक्टर: अवशिष्ट प्रवाह में सावधानीपूर्वक डिज़ाइन किए गए वेक्टर जोड़कर मॉडल व्यवहार को निर्देशित करना
  • विपरीत विधि: सकारात्मक और नकारात्मक नमूना प्रॉम्प्ट्स के सक्रियकरण अंतर का उपयोग करके वेक्टर का निर्माण
  • कार्यात्मक वेक्टर: विशिष्ट कार्य के वेक्टर प्रतिनिधित्व को कैप्चर करना

मॉडल संपादन विधियां

  • ROME: rank-1 मैट्रिक्स संपादन का उपयोग करके तथ्य संबंध संशोधित करना
  • MEND: फीडफॉरवर्ड वेट मैट्रिक्स के निम्न-रैंक अपडेट सीखना
  • सुरक्षा नियंत्रण: संपादन के माध्यम से असुरक्षित सक्रियकरण दिशाओं को हटाना

इस पेपर का योगदान

पहली बार पहले सिद्धांत से एकीकृत सैद्धांतिक ढांचा प्रदान करना, जो समझाता है कि दोनों विधि वर्ग प्रभावी क्यों हैं।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. सैद्धांतिक एकीकरण: अनुभवजन्य मॉडल नियंत्रण तकनीकों को ट्रांसफॉर्मर कम्प्यूटेशन पर आधारित सैद्धांतिक ढांचे में सफलतापूर्वक एकीकृत करना
  2. विधि प्रभावशीलता: प्रयोग अंकगणितीय और अनुवाद कार्यों पर विचार पैच विधि की व्यवहार्यता प्रमाणित करते हैं
  3. सैद्धांतिक व्याख्या: मौजूदा अनुमानी विधियों के लिए गणितीय आधार प्रदान करना, जैसे विपरीत सक्रियकरण औसत न्यूनतम वर्ग सन्निकटन की सही पसंद है

सीमाएं

  1. प्रदर्शन अंतर: सीधे प्रॉम्प्ट की तुलना में प्रदर्शन हानि मौजूद है
  2. हाइपरपैरामीटर संवेदनशीलता: विधि हाइपरपैरामीटर चयन के प्रति अत्यधिक संवेदनशील है, सावधानीपूर्वक ट्यूनिंग की आवश्यकता है
  3. कार्य जटिलता: अधिक जटिल कार्यों पर प्रदर्शन को आगे सत्यापित करने की आवश्यकता है
  4. कम्प्यूटेशनल जटिलता: Z⁻¹ की गणना सामान्य स्थिति में अधिक कठिन है

भविष्य की दिशाएं

  1. विश्लेषण उपकरण: ढांचे को विश्लेषण उपकरण के रूप में उपयोग करना, बड़े भाषा मॉडल्स के कार्य प्रतिनिधित्व और तर्क को बेहतर ढंग से समझना
  2. प्रदर्शन सुधार: प्रदर्शन अंतर को कम करने और हाइपरपैरामीटर संवेदनशीलता को कम करने के तरीके खोजना
  3. विस्तारित अनुप्रयोग: अधिक जटिल कार्यों पर अनुप्रयोग की खोज करना
  4. सैद्धांतिक गहनता: सिद्धांत ढांचे को आगे परिष्कृत करना, अधिक सामान्य स्थितियों को संभालना

गहन मूल्यांकन

शक्तियां

  1. महत्वपूर्ण सैद्धांतिक योगदान: पहली बार मॉडल नियंत्रण तकनीकों के लिए कठोर सैद्धांतिक आधार प्रदान करना, महत्वपूर्ण सैद्धांतिक अंतर को भरना
  2. गणितीय कठोरता: पूर्ण गणितीय व्युत्पत्ति और प्रमेय प्रमाण प्रदान करना, सैद्धांतिक ढांचा दृढ़
  3. मजबूत एकीकरण: विभिन्न दिखने वाली दो विधि वर्गों (वेक्टर निर्देशन और मैट्रिक्स संपादन) को सफलतापूर्वक एकीकृत करना
  4. व्यावहारिक मूल्य: विधि सीधे लागू होती है, वास्तविक अनुप्रयोग के लिए नए विचार प्रदान करती है

कमजोरियां

  1. सीमित प्रायोगिक पैमाना: केवल 1B पैरामीटर मॉडल पर सत्यापित, बड़े पैमाने के मॉडल के प्रयोग की कमी
  2. संकीर्ण कार्य श्रेणी: प्रायोगिक कार्य अपेक्षाकृत सरल हैं, जटिल NLP कार्यों का प्रदर्शन अज्ञात है
  3. प्रदर्शन हानि: सीधे प्रॉम्प्टिंग की तुलना में स्पष्ट प्रदर्शन में गिरावट
  4. इंजीनियरिंग चुनौतियां: हाइपरपैरामीटर संवेदनशीलता व्यावहारिक अनुप्रयोग को सीमित कर सकती है

प्रभाव

  1. शैक्षणिक मूल्य: ट्रांसफॉर्मर तंत्र समझ और मॉडल नियंत्रण अनुसंधान के लिए महत्वपूर्ण सैद्धांतिक आधार प्रदान करना
  2. व्यावहारिक संभावना: मॉडल तैनाती और नियंत्रण के लिए नए तकनीकी पथ प्रदान करना
  3. अनुसंधान प्रेरणा: सिद्धांत-आधारित मॉडल नियंत्रण विधि अनुसंधान को प्रेरित कर सकता है

लागू परिदृश्य

  1. मॉडल विश्लेषण: मॉडल आंतरिक प्रतिनिधित्व और कम्प्यूटेशनल तंत्र को समझना
  2. हल्के तैनाती: संसाधन-सीमित वातावरण में मॉडल विशेषज्ञता को लागू करना
  3. सुरक्षा नियंत्रण: मॉडल सुरक्षा और संरेखण के लिए सैद्धांतिक मार्गदर्शन प्रदान करना
  4. अनुसंधान और विकास उपकरण: मॉडल विकास और डिबगिंग के विश्लेषण उपकरण के रूप में

संदर्भ

मुख्य संदर्भ साहित्य में शामिल हैं:

  1. धेरिन और अन्य (2025) - एकल ब्लॉक ट्रांसफॉर्मर के निहित गतिशील सीखने का सिद्धांत
  2. टर्नर और अन्य (2025) - भाषा मॉडल को निर्देशित करने के लिए सक्रियकरण इंजीनियरिंग
  3. मेंग और अन्य (2022) - GPT में तथ्य संबंध का स्थानीयकरण और संपादन
  4. टॉड और अन्य (2024) - बड़े भाषा मॉडल्स में कार्यात्मक वेक्टर

समग्र मूल्यांकन: यह महत्वपूर्ण सैद्धांतिक मूल्य वाला एक पेपर है, जो अनुभवजन्य मॉडल नियंत्रण तकनीकों के लिए कठोर सैद्धांतिक आधार सफलतापूर्वक प्रदान करता है। हालांकि प्रायोगिक सत्यापन के पहलू में सुधार की गुंजाइश है, लेकिन इसका सैद्धांतिक योगदान ट्रांसफॉर्मर मॉडल नियंत्रण तकनीक को समझने और विकसित करने के लिए महत्वपूर्ण है।