2025-11-16T07:28:12.353949

Representation in large language models

Yetman
The extraordinary success of recent Large Language Models (LLMs) on a diverse array of tasks has led to an explosion of scientific and philosophical theorizing aimed at explaining how they do what they do. Unfortunately, disagreement over fundamental theoretical issues has led to stalemate, with entrenched camps of LLM optimists and pessimists often committed to very different views of how these systems work. Overcoming stalemate requires agreement on fundamental questions, and the goal of this paper is to address one such question, namely: is LLM behavior driven partly by representation-based information processing of the sort implicated in biological cognition, or is it driven entirely by processes of memorization and stochastic table look-up? This is a question about what kind of algorithm LLMs implement, and the answer carries serious implications for higher level questions about whether these systems have beliefs, intentions, concepts, knowledge, and understanding. I argue that LLM behavior is partially driven by representation-based information processing, and then I describe and defend a series of practical techniques for investigating these representations and developing explanations on their basis. The resulting account provides a groundwork for future theorizing about language models and their successors.
academic

बड़े भाषा मॉडल में प्रतिनिधित्व

बुनियादी जानकारी

  • पेपर ID: 2501.00885
  • शीर्षक: बड़े भाषा मॉडल में प्रतिनिधित्व
  • लेखक: कैमरून सी. येटमैन (टोरंटो विश्वविद्यालय)
  • वर्गीकरण: cs.CL cs.AI cs.LG
  • प्रकाशन समय: 1 जनवरी 2025 (ड्राफ्ट संस्करण)
  • पेपर लिंक: https://arxiv.org/abs/2501.00885

सारांश

बड़े भाषा मॉडल (LLMs) विभिन्न कार्यों पर असाधारण सफलता ने उनके कार्य तंत्र को समझाने के लिए बड़ी संख्या में वैज्ञानिक और दार्शनिक सिद्धांतों को जन्म दिया है। हालांकि, मौलिक सैद्धांतिक प्रश्नों पर असहमति ने गतिरोध का कारण बना दिया है, जहां LLM आशावादी और निराशावादी विरोधी शिविर अक्सर इन प्रणालियों के कार्य तंत्र के बारे में बिल्कुल अलग दृष्टिकोण रखते हैं। गतिरोध को दूर करने के लिए मौलिक प्रश्नों पर सहमति आवश्यक है। यह पेपर इनमें से एक मूल प्रश्न को संबोधित करने का लक्ष्य रखता है: क्या LLM का व्यवहार आंशिक रूप से जैविक संज्ञान में प्रतिनिधित्व-आधारित सूचना प्रसंस्करण के समान प्रक्रियाओं द्वारा संचालित होता है, या पूरी तरह से स्मरणीयकरण और यादृच्छिक तालिका खोज प्रक्रियाओं द्वारा? यह एक प्रश्न है कि LLMs किस प्रकार के एल्गोरिदम को लागू करते हैं, और इसका उत्तर उच्च-स्तरीय प्रश्नों पर महत्वपूर्ण प्रभाव डालता है, जैसे कि क्या ये प्रणालियां विश्वास, इरादे, अवधारणाएं, ज्ञान और समझ रखती हैं। लेखक तर्क देते हैं कि LLM व्यवहार आंशिक रूप से प्रतिनिधित्व-आधारित सूचना प्रसंस्करण द्वारा संचालित होता है, और इन प्रतिनिधित्वों का अध्ययन करने और इसके आधार पर व्याख्या विकसित करने के लिए व्यावहारिक तकनीकों की एक श्रृंखला का वर्णन और बचाव करते हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

मूल प्रश्न

इस अनुसंधान द्वारा संबोधित किया जाने वाला मूल प्रश्न है: क्या बड़े भाषा मॉडल का व्यवहार प्रतिनिधित्व-आधारित सूचना प्रसंस्करण द्वारा संचालित होता है, या पूरी तरह से स्मरणीयकरण और यादृच्छिक तालिका खोज पर निर्भर है?

प्रश्न की महत्ता

  1. सैद्धांतिक मतभेद का समन्वय: वर्तमान LLM अनुसंधान क्षेत्र में गंभीर सैद्धांतिक मतभेद मौजूद हैं, आशावादी पक्ष मानता है कि LLMs में संज्ञानात्मक क्षमताएं हैं, जबकि निराशावादी पक्ष उन्हें केवल जटिल पैटर्न मिलान प्रणाली मानता है
  2. संज्ञानात्मक विज्ञान का आधार: यह प्रश्न सीधे इस बात से संबंधित है कि क्या LLMs को संज्ञानात्मक मॉडल के रूप में उपयोग किया जा सकता है, और क्या वे स्वयं संज्ञानात्मक प्रणालियां हैं
  3. उच्च-स्तरीय क्षमताओं का आधार: उत्तर इस बात को प्रभावित करेगा कि क्या LLMs में विश्वास, इरादे, अवधारणाएं, ज्ञान और समझ जैसी उच्च-स्तरीय संज्ञानात्मक क्षमताएं हैं

मौजूदा विधियों की सीमाएं

  1. शब्दावली का दुरुपयोग: मशीन लर्निंग अभ्यास में "प्रतिनिधित्व" शब्द का उपयोग बहुत व्यापक है, जिससे सैद्धांतिक मूल्य खो जाता है
  2. व्यवहार-केंद्रित सीमाएं: केवल व्यवहार प्रदर्शन से प्रतिनिधित्व की उपस्थिति का निर्णय लेना मौलिक अनिश्चितता से ग्रस्त है
  3. व्यवस्थित विधि की कमी: LLMs में प्रतिनिधित्व की पहचान और सत्यापन के लिए व्यवस्थित विधि की कमी है

अनुसंधान प्रेरणा

लेखक मानते हैं कि इस मौलिक प्रश्न को हल करना वर्तमान सैद्धांतिक गतिरोध को तोड़ने और भविष्य के LLM सिद्धांतकरण के लिए एक ठोस आधार प्रदान करने के लिए महत्वपूर्ण है।

मुख्य योगदान

  1. प्रतिनिधित्व की चार-शर्त विशेषता प्रस्तावित की: "प्रतिनिधित्व" अवधारणा के लिए एक पदार्थपूर्ण, संचालनीय परिभाषा प्रदान की, जिसमें सूचना (INFORMATION), उपयोगिता (EXPLOITABILITY), व्यवहार (BEHAVIOR) और भूमिका (ROLE) चार शर्तें शामिल हैं
  2. लुकअप तालिका व्याख्या को खारिज किया: Othello-GPT और रंग स्थान मॉडल जैसे मामलों का विश्लेषण करके, यह साबित किया कि LLMs को पूरी तरह से परिमित अवस्था ऑटोमेटा या लुकअप तालिकाओं से समझाया नहीं जा सकता
  3. तंत्र व्याख्यात्मकता ढांचा स्थापित किया: प्रणोदन (probing) और हस्तक्षेप (intervention) तकनीकों का उपयोग करके प्रतिनिधित्व की उपस्थिति की जांच करने के लिए व्यवस्थित रूप से वर्णन किया
  4. व्यावहारिक अनुसंधान विधियां प्रदान कीं: LLM प्रतिनिधित्व के अनुसंधान के लिए ठोस तकनीकी उपकरण और पद्धति संबंधी मार्गदर्शन प्रदान किया

विधि विवरण

प्रतिनिधित्व की चार-शर्त परिभाषा

लेखक ने प्रतिनिधित्व की एक संचालनीय परिभाषा प्रस्तावित की है, प्रणाली S के पास विशेषता z के लिए प्रतिनिधित्व R है यदि और केवल यदि निम्नलिखित चार शर्तें पूरी होती हैं:

REPRESENTATION

  • INFORMATION: R, z के बारे में सूचना वहन करता है
  • EXPLOITABILITY: R द्वारा वहन की गई z के बारे में सूचना S के लिए उपयोगी है
  • BEHAVIOR: S, R द्वारा वहन की गई z के बारे में सूचना का उपयोग करके z-संबंधित मजबूत व्यवहार उत्पन्न करने में सक्षम है
  • ROLE: R, S के मजबूत z-संबंधित व्यवहार में एक तंत्र भूमिका निभाता है

तकनीकी विवरण

  1. सूचना शर्त (INFORMATION)
    • पारस्परिक सूचना का उपयोग करके परिभाषित: I(X,Y)=H(X)H(XY)I(X,Y) = H(X) - H(X|Y)
    • जब I(R,z)>0I(R,z) > 0 हो तो शर्त पूरी होती है
    • सूचना संबंध कारणात्मक उत्पादन के माध्यम से या संरचनात्मक पत्राचार के माध्यम से स्थापित किया जा सकता है
  2. उपयोगिता शर्त (EXPLOITABILITY)
    • S को R के सक्रियण के आधार पर सामग्री-प्रासंगिक तरीके से अपने z-संबंधित व्यवहार को समायोजित करने में सक्षम होना चाहिए
    • R के परीक्षण और हस्तक्षेप के माध्यम से सत्यापित
  3. व्यवहार शर्त (BEHAVIOR)
    • "मजबूत" का अर्थ है आसपास की परिस्थितियों में हल्के विक्षोभ के प्रति असंवेदनशील
    • प्रतिनिधित्व मजबूत व्यवहार को सक्षम करता है, लेकिन उपयुक्त एल्गोरिदम में एम्बेड होना आवश्यक है
  4. भूमिका शर्त (ROLE)
    • R को व्यवहार को चलाने वाले तंत्र में एक कारणात्मक भूमिका निभानी चाहिए
    • सर्वव्यापी प्रतिनिधित्ववाद समस्या से बचना

लुकअप तालिका परिकल्पना की आलोचना

लेखक ने LLMs को लुकअप तालिका के रूप में देखने के दृष्टिकोण का विश्लेषण किया:

  1. परिमित अवस्था ऑटोमेटा दृष्टिकोण: LLMs को बड़े पैमाने पर लुकअप तालिकाओं को एन्कोड करने वाले परिमित अवस्था ऑटोमेटा के रूप में देखा जाता है
  2. गैर-उत्पादक विशेषताएं: लुकअप तालिका प्रणालियां विशेषता रूप से गैर-उत्पादक हैं—"केवल वही लौटा सकती हैं जो पहले से इनपुट किया गया था"
  3. खंडन साक्ष्य:
    • Othello-GPT: 25% गेम ट्री डेटा के बिना प्रशिक्षित, फिर भी पूर्ण डेटासेट पर 99.98% वैध चाल दर तक पहुंचा
    • रंग स्थान मॉडल: घुमाए गए रंग एन्कोडिंग जोड़ी पर मूल डेटा के समान प्रदर्शन (36% बनाम 34% Top-3 सटीकता)

प्रायोगिक सेटअप और परिणाम

केस स्टडी 1: Othello-GPT

प्रयोग डिजाइन:

  • लाखों ओथेलो गेम रिकॉर्ड पर GPT मॉडल को प्रशिक्षित किया
  • रिकॉर्ड में केवल चाल अनुक्रम शामिल हैं, कोई गेम नियम या बोर्ड विशेषताएं नहीं
  • नियंत्रण समूह: पूर्ण डेटासेट प्रशिक्षण
  • प्रायोगिक समूह: 25% गेम ट्री डेटा के बिना तिरछा डेटासेट प्रशिक्षण

परिणाम:

  • नियंत्रण समूह: 99.99% वैध चाल सफलता दर
  • प्रायोगिक समूह: 99.98% वैध चाल सफलता दर
  • मुख्य खोज: मॉडल अदेखे बोर्ड कॉन्फ़िगरेशन पर भी सफल रहा, जो दर्शाता है कि यह सरल लुकअप तालिका नहीं है

केस स्टडी 2: रंग स्थान मॉडल

प्रयोग डिजाइन:

  • रंग और स्थानिक डोमेन में संरचनात्मक गुणों के तर्क का परीक्षण करने के लिए पूर्व-प्रशिक्षित GPT का उपयोग किया
  • संदर्भ सीखने का प्रतिमान: 60 प्रशिक्षण नमूने
  • नियंत्रण समूह: RGB कोड और रंग नामों की सीमित वर्णक्रम भाग का युग्मन
  • प्रायोगिक समूह: व्यवस्थित रूप से व्यवस्थित "घुमाए गए" स्थिति, संरचनात्मक संबंध अपरिवर्तित रखते हुए

परिणाम:

  • नियंत्रण समूह: 34% Top-3 सटीकता
  • घुमाए गए समूह: 36% Top-3 सटीकता
  • मुख्य खोज: संरचनात्मक संबंध संरक्षित लेकिन विशिष्ट युग्मन पूरी तरह नए होने की स्थिति में समान प्रदर्शन

तंत्र व्याख्यात्मकता सत्यापन

प्रणोदन तकनीक (Probing)

  • लक्ष्य नेटवर्क की छिपी हुई परत सक्रियण से विशिष्ट जानकारी को डिकोड करने के लिए छोटे रैखिक MLP का उपयोग
  • INFORMATION और EXPLOITABILITY शर्तों को सत्यापित करता है

हस्तक्षेप तकनीक (Intervention)

  • सक्रियण पैचिंग: विशिष्ट सक्रियण मानों को संशोधित करके व्यवहार परिवर्तन देखना
  • विशेषता निर्देशन: विशिष्ट विशेषताओं को असामान्य रूप से उच्च/निम्न मानों तक सीमित करना
  • BEHAVIOR और ROLE शर्तों को सत्यापित करता है

Othello-GPT सत्यापन परिणाम:

  • रैखिक प्रणोदन बोर्ड स्थिति को सफलतापूर्वक वर्गीकृत करता है ("मेरा"/"आपका"/"खाली")
  • सक्रियण हस्तक्षेप (चेकर स्थिति को फ्लिप करना) मॉडल की भविष्यवाणी को संशोधित बोर्ड स्थिति के अनुरूप बनाता है

Claude 3 Sonnet सत्यापन परिणाम:

  • विरल स्वयं-एन्कोडर का उपयोग करके व्याख्यात्मक विशेषताओं की पहचान (जैसे गोल्डन गेट ब्रिज, मस्तिष्क विज्ञान)
  • विशेषता निर्देशन प्रयोग: गोल्डन गेट ब्रिज विशेषता को 10 गुना सक्रिय करने से मॉडल उस पुल का उल्लेख करता है

संबंधित कार्य

प्रतिनिधित्व सिद्धांत आधार

  • संज्ञानात्मक विज्ञान परंपरा: Fodor (1975), Sterelny (1991), Shea (2018) आदि द्वारा स्थापित प्रतिनिधित्व सिद्धांत आधार
  • कम्प्यूटेशनल स्तर: Marr (1982) के एल्गोरिदम स्तर विश्लेषण ढांचे पर आधारित

मशीन लर्निंग में प्रतिनिधित्व

  • प्रतिनिधित्व सीखना: Bengio et al. (2014) की प्रतिनिधित्व सीखने की ढांचा
  • शब्दावली सामान्यीकरण समस्या: Ramsey (2017) द्वारा इंगित "प्रतिनिधित्व" अवधारणा सामान्यीकरण समस्या

LLM व्याख्या विधियां

  • सर्किट विश्लेषण: Elhage et al. (2021), Dunefsky et al. (2024) की कम्प्यूटेशनल पथ विश्लेषण
  • कारणात्मक अमूर्तता: Geiger et al. (2021) की कारणात्मक मॉडल संरेखण विधि
  • तंत्र व्याख्यात्मकता: Olah et al. (2018, 2020) द्वारा स्थापित MI अनुसंधान परंपरा

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. LLM में पदार्थपूर्ण प्रतिनिधित्व हैं: कुछ मामलों में, LLM व्यवहार चार-शर्त परिभाषा को संतुष्ट करने वाले प्रतिनिधित्व द्वारा संचालित होता है
  2. लुकअप तालिका व्याख्या अपर्याप्त है: शुद्ध स्मरणीयकरण और लुकअप तालिकाएं LLMs की सामान्यीकरण क्षमता को समझा नहीं सकती हैं
  3. तंत्र व्याख्यात्मकता विधि प्रभावी है: प्रणोदन और हस्तक्षेप तकनीकें LLM प्रतिनिधित्व के अनुसंधान के लिए व्यवहार्य मार्ग प्रदान करती हैं

सीमाएं

  1. शर्तों के अनुप्रयोग की संदर्भ निर्भरता: प्रतिनिधित्व की मजबूती का आकलन विशिष्ट कार्य और वातावरण पर निर्भर करता है
  2. सामग्री निर्धारण समस्या अनसुलझी: प्रतिनिधित्व सामग्री कैसे निर्धारित होती है इसे व्यवस्थित रूप से संबोधित नहीं किया गया है
  3. उच्च-स्तरीय संज्ञानात्मक क्षमताएं लंबित: क्या LLMs में विश्वास, ज्ञान, समझ आदि हैं इस प्रश्न को सीधे संबोधित नहीं किया गया है

भविष्य की दिशाएं

  1. व्यवस्थित प्रतिनिधित्व मानचित्र: यह स्थापित करना कि कब LLMs प्रतिनिधित्व बनाम अन्य तंत्रों पर निर्भर होने की अपेक्षा की जाए
  2. सामग्री निर्धारण सिद्धांत: LLM प्रतिनिधित्व सामग्री निर्धारण के लिए सैद्धांतिक ढांचा विकसित करना
  3. संज्ञानात्मक क्षमता मूल्यांकन: प्रतिनिधित्व विश्लेषण के आधार पर LLMs की उच्च-स्तरीय संज्ञानात्मक क्षमताओं का मूल्यांकन

गहन मूल्यांकन

शक्तियां

  1. सैद्धांतिक योगदान उत्कृष्ट: प्रतिनिधित्व की कठोर परिभाषा प्रदान करके महत्वपूर्ण सैद्धांतिक अंतर को भरता है
  2. पद्धति संबंधी नवाचार: संज्ञानात्मक विज्ञान के प्रतिनिधित्व सिद्धांत को मशीन लर्निंग की व्याख्यात्मकता तकनीकों के साथ जैविक रूप से जोड़ता है
  3. अनुभवजन्य साक्ष्य पर्याप्त: कई केस अध्ययन और तकनीकी सत्यापन द्वारा मुख्य तर्क का समर्थन किया जाता है
  4. लेखन स्पष्ट और कठोर: तर्क तर्क स्पष्ट है, तकनीकी विवरण सटीक रूप से वर्णित हैं

कमियां

  1. केस की सीमितता: मुख्य रूप से कुछ केस पर आधारित, व्यापक सत्यापन की आवश्यकता है
  2. मजबूती मानदंड अस्पष्ट: "मजबूत व्यवहार" की परिभाषा अभी भी अपेक्षाकृत व्यक्तिपरक है
  3. व्यावहारिक चुनौतियां: प्रस्तावित विधियों का बड़े पैमाने पर LLM पर अनुप्रयोग अभी भी तकनीकी चुनौतियों का सामना करता है

प्रभाव

  1. सैद्धांतिक प्रभाव: LLM संज्ञानात्मक क्षमता अनुसंधान के लिए महत्वपूर्ण सैद्धांतिक आधार प्रदान करता है
  2. विधि प्रभाव: LLM अनुसंधान में तंत्र व्याख्यात्मकता के अनुप्रयोग को बढ़ावा देता है
  3. व्यावहारिक मूल्य: AI सुरक्षा और व्याख्यात्मकता अनुसंधान के लिए नए उपकरण प्रदान करता है

लागू परिदृश्य

  1. LLM क्षमता मूल्यांकन: यह मूल्यांकन करना कि क्या विशिष्ट LLM में वास्तविक संज्ञानात्मक क्षमताएं हैं
  2. मॉडल सुधार: प्रतिनिधित्व विश्लेषण के आधार पर मॉडल आर्किटेक्चर और प्रशिक्षण विधियों में सुधार
  3. AI सुरक्षा अनुसंधान: प्रणाली सुरक्षा में सुधार के लिए LLM आंतरिक तंत्र को समझना

संदर्भ

पेपर में विभिन्न अनुशासनों से समृद्ध साहित्य का हवाला दिया गया है, मुख्य रूप से:

  1. संज्ञानात्मक विज्ञान मूल साहित्य: Fodor (1975), Marr (1982), Shea (2018)
  2. मशीन लर्निंग व्याख्यात्मकता: Olah et al. (2018), Elhage et al. (2021)
  3. LLM आलोचनात्मक अनुसंधान: Bender & Koller (2020), Marcus & Davis (2020)
  4. तकनीकी विधि साहित्य: Li et al. (2023), Templeton et al. (2024)

सारांश: यह पेपर LLM प्रतिनिधित्व अनुसंधान के क्षेत्र में महत्वपूर्ण सैद्धांतिक और पद्धति संबंधी योगदान करता है। कठोर अवधारणा विश्लेषण, अनुभवजन्य अनुसंधान और तकनीकी नवाचार के माध्यम से, यह LLM के आंतरिक तंत्र को समझने के लिए एक नया दृष्टिकोण प्रदान करता है। हालांकि कुछ सीमाएं अभी भी मौजूद हैं, लेकिन यह भविष्य के LLM संज्ञानात्मक क्षमता अनुसंधान के लिए एक ठोस आधार स्थापित करता है।