Gaps arise between a language model's use of concepts and people's expectations. This gap is critical when LLMs generate text to help people communicate via Augmentative and Alternative Communication (AAC) tools. In this work, we introduce the evaluation task of Representation Alignment for measuring this gap via human judgment. In our study, we expand keywords and emotion representations into full sentences. We select four emotion representations: Words, Valence-Arousal-Dominance (VAD) dimensions expressed in both Lexical and Numeric forms, and Emojis. In addition to Representation Alignment, we also measure people's judgments of the accuracy and realism of the generated sentences. While representations like VAD break emotions into easy-to-compute components, our findings show that people agree more with how LLMs generate when conditioned on English words (e.g., "angry") rather than VAD scales. This difference is especially visible when comparing Numeric VAD to words. Furthermore, we found that the perception of how much a generated sentence conveys an emotion is dependent on both the representation type and which emotion it is.
- पेपर ID: 2503.11881
- शीर्षक: Evaluating Human-LLM Representation Alignment: A Case Study on Affective Sentence Generation for Augmentative and Alternative Communication
- लेखक: शदाब चौधरी, आशा कुमार, लारा जे. मार्टिन (यूनिवर्सिटी ऑफ मेरीलैंड, बाल्टीमोर काउंटी)
- वर्गीकरण: cs.CL (कम्प्यूटेशनल भाषाविज्ञान)
- प्रकाशन समय: 2025
- पेपर लिंक: https://arxiv.org/abs/2503.11881
यह अनुसंधान बड़े भाषा मॉडल (LLMs) में अवधारणा के उपयोग और मानव अपेक्षाओं के बीच अंतर की समस्या को संबोधित करता है, विशेष रूप से संवर्धनीय और वैकल्पिक संचार (AAC) उपकरणों के अनुप्रयोग परिदृश्य में। अनुसंधान "प्रतिनिधित्व संरेखण" (Representation Alignment) नामक एक मूल्यांकन कार्य प्रस्तुत करता है, जो मानव निर्णय के माध्यम से इस अंतर को मापता है। अनुसंधान चार भावनात्मक प्रतिनिधित्व तरीकों का चयन करता है: अंग्रेजी शब्दावली, शब्दार्थ VAD आयाम, संख्यात्मक VAD आयाम और इमोजी, और उत्पन्न वाक्यों की सटीकता और प्रामाणिकता का मूल्यांकन करता है। परिणाम दर्शाते हैं कि VAD पैमाने की तुलना में, मनुष्य अंग्रेजी शब्दावली की शर्तों के तहत LLM द्वारा उत्पन्न परिणामों को अधिक मान्यता देते हैं, यह अंतर संख्यात्मक VAD और शब्दार्थ तुलना में विशेष रूप से स्पष्ट है।
- मूल समस्या: LLMs में अवधारणा के उपयोग और मानव अपेक्षाओं के बीच अंतर, विशेष रूप से AAC उपकरण अनुप्रयोग में महत्वपूर्ण है
- अनुप्रयोग परिदृश्य: AAC उपकरण उन लोगों को संचार करने में मदद करते हैं जो सामान्य रूप से बोल नहीं सकते, लेकिन संचार गति मुख्य दर्द बिंदु है
- तकनीकी चुनौती: कैसे सुनिश्चित करें कि LLM द्वारा उत्पन्न पाठ उपयोगकर्ता के भावनात्मक इरादे और अभिव्यक्ति तरीके को सटीक रूप से प्रतिबिंबित करता है
- AAC उपयोगकर्ता अक्सर संचार में देरी के कारण अनदेखे या बाधित होते हैं
- मौजूदा NLP तकनीक AAC उपकरणों की संचार गति को बढ़ाने का वादा करती है
- उपयोगकर्ताओं को LLM पर नियंत्रण, सटीकता और संदर्भ अनुकूलन के बारे में चिंताएं हैं
- LLM और मानव के बीच अवधारणा समझ में संरेखण की डिग्री का मूल्यांकन करने के लिए व्यवस्थित दृष्टिकोण की कमी
- भावनात्मक प्रतिनिधित्व तरीके के चयन में अनुभवजन्य साक्ष्य की कमी
- विभिन्न प्रतिनिधित्व तरीकों के उपयोगकर्ता अनुभव पर प्रभाव पर पर्याप्त विचार नहीं
- प्रतिनिधित्व संरेखण मूल्यांकन प्रतिमान प्रस्तुत करना: मानव निर्णय के माध्यम से LLM अवधारणा उपयोग और मानव मानसिक मॉडल के संरेखण की डिग्री को मापने की एक मूल्यांकन विधि प्रस्तुत करना
- चार भावनात्मक प्रतिनिधित्वों की व्यवस्थित तुलना: Words, Lexical VAD, Numeric VAD और Emojis चार प्रतिनिधित्व तरीकों के प्रभाव का व्यापक मूल्यांकन
- अनुभवजन्य खोज सर्वोत्तम प्रतिनिधित्व तरीका: यह साबित करना कि अंग्रेजी शब्दावली और शब्दार्थ VAD प्रतिनिधित्व संरेखण, सटीकता और प्रामाणिकता के मामले में सर्वश्रेष्ठ प्रदर्शन करते हैं
- AAC अनुप्रयोग मार्गदर्शन: भविष्य के AAC अनुप्रयोगों में भावनात्मक प्रतिनिधित्व चयन के लिए अनुभवजन्य साक्ष्य प्रदान करना
- इनपुट: तीन मुख्य शब्द + एक भावनात्मक प्रतिनिधित्व
- आउटपुट: मुख्य शब्दों को शामिल करने वाला और निर्दिष्ट भावना व्यक्त करने वाला पूर्ण वाक्य
- बाधा: उत्पन्न वाक्य प्राकृतिक होना चाहिए, भावना को सटीक रूप से व्यक्त करना चाहिए, भावना शब्दों का सीधा उपयोग करने से बचना चाहिए
सीधे अंग्रेजी भावना शब्दों का उपयोग (जैसे "angry", "happy")
VAD आयामों का वर्णन करने के लिए पाँच-स्तरीय शब्दार्थ का उपयोग:
- Valence: बहुत अधिक/अधिक/मध्यम/कम/बहुत कम
- Arousal: भावनात्मक सक्रियता की डिग्री
- Dominance: भावना पर नियंत्रण की डिग्री
VAD आयामों को दर्शाने के लिए -5.0 से +5.0 के संख्यात्मक पैमाने का उपयोग
भावना को दर्शाने के लिए Unicode इमोजी का उपयोग
- GPT-4-Turbo-2024-04-09: वाणिज्यिक API कॉल
- LLaMA-3.3-70B: 8-बिट क्वांटाइजेशन संस्करण, स्थानीय तैनाती
- Words/Emojis: कुछ-शॉट प्रॉम्प्टिंग (Few-shot prompting)
- VAD प्रतिनिधित्व: चरण-पीछे की ओर विचार श्रृंखला प्रॉम्प्टिंग (Step-back chain-of-thought)
- बाधा शर्तें: भावना शब्दों का सीधा उपयोग करने से मना, "दिखाएं न कि बताएं" की आवश्यकता
- प्रति मॉडल कुल 360 वाक्य (प्रति प्रतिनिधित्व तरीके 90)
- 18 विभिन्न भावनाओं को कवर करता है, Demszky et al. (2020) के वर्गीकरण से
- प्रत्येक भावना के लिए मूल्यांकन के लिए 2 वाक्य यादृच्छिक रूप से चुने गए
- भावना चयन: Demszky et al. (2020) के भावना वर्गीकरण के आधार पर, 18 प्रतिनिधि भावनाओं का चयन
- मुख्य शब्द संयोजन: सामान्य शब्द संयोजन का उपयोग, जैसे Place, Great, Korean, Finals, Semester, Math
- VAD संख्यात्मक मान: Guo और Choi (2021) के आधार पर, -5.0 से +5.0 की सीमा में सामान्यीकृत
- प्लेटफॉर्म: Prolific क्राउडसोर्सिंग प्लेटफॉर्म
- संख्या: 200 प्रतिभागी (प्रति मॉडल 100)
- शर्तें: 18 वर्ष से अधिक, अमेरिका में निवास, अंग्रेजी में धाराप्रवाह
- मुआवजा: $14/घंटा, लगभग 15 मिनट का कार्य
1. प्रतिनिधित्व संरेखण मूल्यांकन
- एक भावनात्मक प्रतिनिधित्व और चार उत्पन्न वाक्य प्रदर्शित करना
- प्रतिभागी उस भावना के अनुरूप सबसे उपयुक्त वाक्य चुनते हैं
- प्रत्येक व्यक्ति 10 प्रश्नों का उत्तर देता है, यादृच्छिक रूप से आवंटित
2. सटीकता और प्रामाणिकता मूल्यांकन
- 5-बिंदु लिकर्ट पैमाने पर मूल्यांकन:
- "Convey": वाक्य भावना को व्यक्त करने की डिग्री
- "You'd say": ऐसा लगता है कि प्रतिभागी कहेंगे
- "Someone Else'd say": ऐसा लगता है कि दूसरा व्यक्ति कहेगा
- चयन दर: विशेष प्रतिनिधित्व के चुने जाने का प्रतिशत
- Shannon एंट्रॉपी: चयन की सामंजस्य की डिग्री को मापना
- स्व-संरेखण: समान प्रतिनिधित्व पीढ़ी और मूल्यांकन का मिलान
- तीन आयामों का औसत लिकर्ट स्कोर
- ANOVA सांख्यिकीय महत्व परीक्षण
- पोस्ट-हॉक विश्लेषण के लिए युग्मित t परीक्षण
| प्रतिनिधित्व तरीका | GPT-4 चयन दर | LLaMA-3 चयन दर | GPT-4 एंट्रॉपी | LLaMA-3 एंट्रॉपी |
|---|
| Words | 61.9% | 57.5% | 0.32 | 0.42 |
| Lexical VAD | 52.0% | - | 0.61 | 0.72 |
| Numeric VAD | - | - | 0.70 | 0.63 |
| Emojis | - | - | 0.67 | 0.52 |
- Words प्रतिनिधित्व सर्वोत्तम: दोनों मॉडलों पर सर्वोच्च स्व-संरेखण दर और न्यूनतम एंट्रॉपी मान दिखाता है
- Lexical VAD द्वितीयक: GPT-4 पर अच्छा प्रदर्शन, लेकिन LLaMA-3 पर कम प्रभावी
- Numeric VAD सबसे खराब प्रदर्शन: सर्वोच्च एंट्रॉपी मान, प्रतिभागियों को सहमति तक पहुंचने में कठिनाई
- क्रॉस-प्रतिनिधित्व संरेखण: Emojis और Lexical VAD LLaMA-3 पर संरेखण दिखाते हैं
- GPT-4: भावनात्मक प्रतिनिधित्व का "Convey" और "You'd say" पर महत्वपूर्ण प्रभाव (p < 0.01)
- LLaMA-3: भावनात्मक प्रतिनिधित्व का "Convey" और "Someone Else'd say" पर महत्वपूर्ण प्रभाव (p < 0.05)
- Words "Convey" आयाम में Numeric VAD से महत्वपूर्ण रूप से बेहतर (GPT-4, p = 0.002)
- Lexical VAD "Convey" आयाम में Numeric VAD से महत्वपूर्ण रूप से बेहतर (LLaMA-3, p = 0.018)
- Words "You'd say" आयाम में Emojis (p = 0.005) और Numeric VAD (p = 0.044) से महत्वपूर्ण रूप से बेहतर
- GPT-4 "grateful" भावना वाक्य उत्पन्न करने में LLaMA-3 से स्पष्ट रूप से बेहतर है
- विभिन्न भावनाएं विभिन्न प्रतिनिधित्वों के तहत महत्वपूर्ण अंतर दिखाती हैं
- कुछ भावनाएं (जैसे "excited", "proud") विशेष शर्तों के तहत कम प्रदर्शन करती हैं
- सकारात्मक भावनाएं आमतौर पर Words प्रतिनिधित्व के तहत बेहतर प्रदर्शन करती हैं
- जटिल भावनात्मक स्थितियां Lexical VAD प्रतिनिधित्व के लिए अधिक उपयुक्त हैं
- Numeric VAD को बारीक भावना भेद करने में कठिनाई होती है
| मॉडल | 1 मुख्य शब्द | 2 मुख्य शब्द | 3 मुख्य शब्द | औसत सटीकता |
|---|
| GPT-4, 1x | 1.00 | 1.00 | 0.936 | 0.978 |
| LLaMA-3, 1x | 0.908 | 0.897 | 0.781 | 0.862 |
| LLaMA-3, 3x | 0.969 | 0.969 | 0.850 | 0.930 |
प्रतिभागियों को VAD अवधारणा व्याख्या और अभ्यास प्रश्न प्रदान करके समझ सटीकता में सुधार हुआ, लेकिन अभी भी संज्ञानात्मक भार समस्या है।
- प्रारंभिक व्याकरण-आधारित प्रणाली (Kasper, 1989; Uchimoto et al., 2002)
- अनुक्रम मॉडल और पुनरावृत्ति सुधार विधि (Mou et al., 2016; He and Li, 2021)
- Transformer युग की नियंत्रित पीढ़ी तकनीक (Kumar et al., 2021; Krause et al., 2021)
- नियम-आधारित प्रारंभिक प्रणाली (Polzin and Waibel, 2000)
- RNN शर्त पीढ़ी (Ghosh et al., 2017; Song et al., 2019)
- LLM युग की भावना पीढ़ी विधि (Li et al., 2024; Mishra et al., 2023)
- बाल कहानियों में मानक व्यवहार सीखना (Nahian et al., 2020)
- मजबूत सीखने मानव प्रतिक्रिया में मूल्य एकीकरण (Arzberger et al., 2024)
- मौजूदा मॉडलों का मूल्य संरेखण माप (Norhashim and Hahn, 2024)
- प्रतिनिधित्व संरेखण का महत्व: मानव और LLM के बीच अवधारणा समझ में संरेखण की डिग्री अनुप्रयोग प्रभाव को सीधे प्रभावित करती है
- Words प्रतिनिधित्व की श्रेष्ठता: अंग्रेजी शब्दावली भावनात्मक प्रतिनिधित्व में सबसे मजबूत संरेखण प्रभाव प्रदान करती है
- VAD प्रतिनिधित्व की जटिलता: शब्दार्थ VAD संख्यात्मक VAD से बेहतर है, लेकिन अभी भी सीधे शब्दावली प्रतिनिधित्व के बराबर नहीं है
- मॉडल के बीच अंतर: विभिन्न LLMs भावना समझ और पीढ़ी में महत्वपूर्ण अंतर दिखाते हैं
- मॉडल चयन: केवल दो LLMs का उपयोग, और LLaMA-3 8-बिट क्वांटाइजेशन संस्करण का उपयोग
- भाषा सीमा: केवल अंग्रेजी तक सीमित, अन्य भाषाएं विभिन्न परिणाम प्रस्तुत कर सकती हैं
- प्रतिभागी प्रतिनिधित्व: वास्तविक AAC उपयोगकर्ता समूह शामिल नहीं है
- VAD समझ का बोझ: प्रतिभागियों को VAD अवधारणा सीखने की आवश्यकता है, मूल्यांकन परिणामों को प्रभावित कर सकता है
- इमोजी व्यक्तिपरकता: विभिन्न सांस्कृतिक पृष्ठभूमि के लिए इमोजी समझ में अंतर
- भावना जटिलता: 18 भावनाएं संपूर्ण भावना स्पेक्ट्रम को कवर नहीं कर सकती हैं
- मॉडल रेंज विस्तार: अधिक नवीनतम LLM मॉडलों का परीक्षण
- बहुभाषी सत्यापन: अन्य भाषा वातावरण में निष्कर्षों का सत्यापन
- उपयोगकर्ता व्यक्तिगतकरण: विशिष्ट AAC उपयोगकर्ता समूहों के लिए व्यक्तिगत प्रतिनिधित्व सीखना
- वास्तविक समय अनुप्रयोग: वास्तविक AAC वातावरण में तैनाती और मूल्यांकन
- प्रथम प्रतिनिधित्व संरेखण प्रतिमान: LLM अवधारणा समझ के मूल्यांकन के लिए एक नई व्यवस्थित विधि प्रदान करता है
- बहु-आयामी मूल्यांकन डिजाइन: संरेखण, सटीकता और प्रामाणिकता के व्यापक मूल्यांकन ढांचे को जोड़ता है
- व्यावहारिक-उन्मुख अनुसंधान: AAC अनुप्रयोग परिदृश्य की वास्तविक आवश्यकताओं का सीधे सामना करता है
- बड़े पैमाने पर मानव मूल्यांकन: 200 प्रतिभागियों का क्राउडसोर्सिंग मूल्यांकन परिणाम विश्वसनीयता सुनिश्चित करता है
- सांख्यिकीय कठोरता: ANOVA और युग्मित t परीक्षण परिणाम महत्व सुनिश्चित करता है
- बहु-कोण विश्लेषण: संरेखण, सटीकता, प्रामाणिकता के कई आयामों से व्यापक मूल्यांकन
- सामंजस्य निष्कर्ष: दोनों मॉडलों पर परिणाम प्रवृत्ति मूलतः सामंजस्यपूर्ण
- सांख्यिकीय महत्व: मुख्य निष्कर्ष सभी सांख्यिकीय महत्व परीक्षण से गुजरे हैं
- व्यावहारिक मार्गदर्शन मूल्य: AAC अनुप्रयोग के लिए स्पष्ट डिजाइन सुझाव प्रदान करता है
- मूल्यांकन व्यक्तिपरकता: मानव व्यक्तिपरक निर्णय पर निर्भर, पूर्वाग्रह हो सकता है
- कार्य सरलीकरण: मुख्य शब्द से वाक्य पीढ़ी कार्य अपेक्षाकृत सरल है, वास्तविक AAC परिदृश्य अधिक जटिल है
- स्थिर मूल्यांकन: गतिशील संवाद में संदर्भ निर्भरता पर विचार नहीं किया गया
- प्रतिभागी प्रशिक्षण अपर्याप्त: VAD अवधारणा का तीव्र प्रशिक्षण अपर्याप्त हो सकता है
- नमूना आकार सीमा: प्रत्येक प्रश्न के उत्तरदाता संख्या अपेक्षाकृत कम (3-9 लोग)
- मॉडल संस्करण अंतर: उपयोग किए गए मॉडल संस्करण परिणामों की समयोपयोगिता को प्रभावित कर सकते हैं
- अग्रणी कार्य: LLM प्रतिनिधित्व संरेखण समस्या का पहला व्यवस्थित अनुसंधान
- पद्धति योगदान: प्रतिनिधित्व संरेखण मूल्यांकन प्रतिमान अन्य अवधारणा क्षेत्रों तक विस्तारित हो सकता है
- अंतःविषय मूल्य: NLP, मनोविज्ञान और सहायक तकनीक अनुसंधान को जोड़ता है
- AAC उपकरण सुधार: AAC अनुप्रयोग के भावनात्मक प्रतिनिधित्व डिजाइन के लिए मार्गदर्शन
- LLM अनुकूलन दिशा: LLM और मानव अवधारणा संरेखण में सुधार के लिए विचार
- मूल्यांकन मानक स्थापना: समान अनुप्रयोगों के लिए मूल्यांकन बेंचमार्क स्थापित करता है
- विस्तृत विधि विवरण: पूर्ण प्रयोग सेटअप और पैरामीटर कॉन्फ़िगरेशन प्रदान करता है
- खुला डेटा प्रतिबद्धता: प्रयोग डेटा और कोड जारी करने का वचन देता है
- मानकीकृत प्रक्रिया: पुनरुत्पादनीय मूल्यांकन प्रक्रिया स्थापित करता है
- AAC उपकरण विकास: भावनात्मक अभिव्यक्ति कार्य की डिजाइन और अनुकूलन
- संवाद प्रणाली: भावना समझ और अभिव्यक्ति क्षमता में सुधार
- पाठ पीढ़ी मूल्यांकन: मानव-मशीन संरेखण के लिए मूल्यांकन मानदंड स्थापित करता है
- अन्य अवधारणा संरेखण: मूल्यों, सांस्कृतिक अवधारणाओं आदि क्षेत्रों तक विस्तार
- बहु-मोडल संरेखण: दृश्य, ऑडियो आदि बहु-मोडल जानकारी को जोड़ना
- व्यक्तिगत अनुकूलन: विशिष्ट उपयोगकर्ता समूहों के लिए अनुकूलित संरेखण
यह अनुसंधान बड़ी संख्या में संबंधित कार्यों का हवाला देता है, मुख्य रूप से:
- Demszky et al. (2020): GoEmotions भावना डेटासेट
- Guo and Choi (2021): VAD भावना प्रतिनिधित्व सीखना
- Valencia et al. (2023): AAC में AI भाषा मॉडल अनुप्रयोग
- Chen and Wan (2024): LLM की शब्दावली बाधा पीढ़ी क्षमता मूल्यांकन
समग्र मूल्यांकन: यह LLM और मानव अवधारणा संरेखण के महत्वपूर्ण मुद्दे पर एक उच्च-गुणवत्ता वाला अनुसंधान कार्य है जो अग्रणी योगदान प्रदान करता है। अनुसंधान विधि वैज्ञानिक रूप से कठोर है, प्रयोग डिजाइन उचित है, और परिणामों का महत्वपूर्ण सैद्धांतिक और व्यावहारिक मूल्य है। हालांकि कुछ सीमाएं हैं, लेकिन भविष्य के संबंधित अनुसंधान के लिए एक ठोस आधार प्रदान करता है।