2025-11-11T14:16:09.100728

Evaluating Human-LLM Representation Alignment: A Case Study on Affective Sentence Generation for Augmentative and Alternative Communication

Choudhury, Kumar, Martin
Gaps arise between a language model's use of concepts and people's expectations. This gap is critical when LLMs generate text to help people communicate via Augmentative and Alternative Communication (AAC) tools. In this work, we introduce the evaluation task of Representation Alignment for measuring this gap via human judgment. In our study, we expand keywords and emotion representations into full sentences. We select four emotion representations: Words, Valence-Arousal-Dominance (VAD) dimensions expressed in both Lexical and Numeric forms, and Emojis. In addition to Representation Alignment, we also measure people's judgments of the accuracy and realism of the generated sentences. While representations like VAD break emotions into easy-to-compute components, our findings show that people agree more with how LLMs generate when conditioned on English words (e.g., "angry") rather than VAD scales. This difference is especially visible when comparing Numeric VAD to words. Furthermore, we found that the perception of how much a generated sentence conveys an emotion is dependent on both the representation type and which emotion it is.
academic

मानव-LLM प्रतिनिधित्व संरेखण का मूल्यांकन: संवर्धनीय और वैकल्पिक संचार के लिए भावनात्मक वाक्य पीढ़ी पर एक केस स्टडी

मूल जानकारी

  • पेपर ID: 2503.11881
  • शीर्षक: Evaluating Human-LLM Representation Alignment: A Case Study on Affective Sentence Generation for Augmentative and Alternative Communication
  • लेखक: शदाब चौधरी, आशा कुमार, लारा जे. मार्टिन (यूनिवर्सिटी ऑफ मेरीलैंड, बाल्टीमोर काउंटी)
  • वर्गीकरण: cs.CL (कम्प्यूटेशनल भाषाविज्ञान)
  • प्रकाशन समय: 2025
  • पेपर लिंक: https://arxiv.org/abs/2503.11881

सारांश

यह अनुसंधान बड़े भाषा मॉडल (LLMs) में अवधारणा के उपयोग और मानव अपेक्षाओं के बीच अंतर की समस्या को संबोधित करता है, विशेष रूप से संवर्धनीय और वैकल्पिक संचार (AAC) उपकरणों के अनुप्रयोग परिदृश्य में। अनुसंधान "प्रतिनिधित्व संरेखण" (Representation Alignment) नामक एक मूल्यांकन कार्य प्रस्तुत करता है, जो मानव निर्णय के माध्यम से इस अंतर को मापता है। अनुसंधान चार भावनात्मक प्रतिनिधित्व तरीकों का चयन करता है: अंग्रेजी शब्दावली, शब्दार्थ VAD आयाम, संख्यात्मक VAD आयाम और इमोजी, और उत्पन्न वाक्यों की सटीकता और प्रामाणिकता का मूल्यांकन करता है। परिणाम दर्शाते हैं कि VAD पैमाने की तुलना में, मनुष्य अंग्रेजी शब्दावली की शर्तों के तहत LLM द्वारा उत्पन्न परिणामों को अधिक मान्यता देते हैं, यह अंतर संख्यात्मक VAD और शब्दार्थ तुलना में विशेष रूप से स्पष्ट है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

  1. मूल समस्या: LLMs में अवधारणा के उपयोग और मानव अपेक्षाओं के बीच अंतर, विशेष रूप से AAC उपकरण अनुप्रयोग में महत्वपूर्ण है
  2. अनुप्रयोग परिदृश्य: AAC उपकरण उन लोगों को संचार करने में मदद करते हैं जो सामान्य रूप से बोल नहीं सकते, लेकिन संचार गति मुख्य दर्द बिंदु है
  3. तकनीकी चुनौती: कैसे सुनिश्चित करें कि LLM द्वारा उत्पन्न पाठ उपयोगकर्ता के भावनात्मक इरादे और अभिव्यक्ति तरीके को सटीक रूप से प्रतिबिंबित करता है

अनुसंधान का महत्व

  • AAC उपयोगकर्ता अक्सर संचार में देरी के कारण अनदेखे या बाधित होते हैं
  • मौजूदा NLP तकनीक AAC उपकरणों की संचार गति को बढ़ाने का वादा करती है
  • उपयोगकर्ताओं को LLM पर नियंत्रण, सटीकता और संदर्भ अनुकूलन के बारे में चिंताएं हैं

मौजूदा तरीकों की सीमाएं

  • LLM और मानव के बीच अवधारणा समझ में संरेखण की डिग्री का मूल्यांकन करने के लिए व्यवस्थित दृष्टिकोण की कमी
  • भावनात्मक प्रतिनिधित्व तरीके के चयन में अनुभवजन्य साक्ष्य की कमी
  • विभिन्न प्रतिनिधित्व तरीकों के उपयोगकर्ता अनुभव पर प्रभाव पर पर्याप्त विचार नहीं

मूल योगदान

  1. प्रतिनिधित्व संरेखण मूल्यांकन प्रतिमान प्रस्तुत करना: मानव निर्णय के माध्यम से LLM अवधारणा उपयोग और मानव मानसिक मॉडल के संरेखण की डिग्री को मापने की एक मूल्यांकन विधि प्रस्तुत करना
  2. चार भावनात्मक प्रतिनिधित्वों की व्यवस्थित तुलना: Words, Lexical VAD, Numeric VAD और Emojis चार प्रतिनिधित्व तरीकों के प्रभाव का व्यापक मूल्यांकन
  3. अनुभवजन्य खोज सर्वोत्तम प्रतिनिधित्व तरीका: यह साबित करना कि अंग्रेजी शब्दावली और शब्दार्थ VAD प्रतिनिधित्व संरेखण, सटीकता और प्रामाणिकता के मामले में सर्वश्रेष्ठ प्रदर्शन करते हैं
  4. AAC अनुप्रयोग मार्गदर्शन: भविष्य के AAC अनुप्रयोगों में भावनात्मक प्रतिनिधित्व चयन के लिए अनुभवजन्य साक्ष्य प्रदान करना

विधि विवरण

कार्य परिभाषा

  • इनपुट: तीन मुख्य शब्द + एक भावनात्मक प्रतिनिधित्व
  • आउटपुट: मुख्य शब्दों को शामिल करने वाला और निर्दिष्ट भावना व्यक्त करने वाला पूर्ण वाक्य
  • बाधा: उत्पन्न वाक्य प्राकृतिक होना चाहिए, भावना को सटीक रूप से व्यक्त करना चाहिए, भावना शब्दों का सीधा उपयोग करने से बचना चाहिए

भावनात्मक प्रतिनिधित्व तरीके

1. Words प्रतिनिधित्व

सीधे अंग्रेजी भावना शब्दों का उपयोग (जैसे "angry", "happy")

2. Lexical VAD प्रतिनिधित्व

VAD आयामों का वर्णन करने के लिए पाँच-स्तरीय शब्दार्थ का उपयोग:

  • Valence: बहुत अधिक/अधिक/मध्यम/कम/बहुत कम
  • Arousal: भावनात्मक सक्रियता की डिग्री
  • Dominance: भावना पर नियंत्रण की डिग्री

3. Numeric VAD प्रतिनिधित्व

VAD आयामों को दर्शाने के लिए -5.0 से +5.0 के संख्यात्मक पैमाने का उपयोग

4. Emojis प्रतिनिधित्व

भावना को दर्शाने के लिए Unicode इमोजी का उपयोग

मॉडल आर्किटेक्चर और पीढ़ी रणनीति

उपयोग किए गए मॉडल

  • GPT-4-Turbo-2024-04-09: वाणिज्यिक API कॉल
  • LLaMA-3.3-70B: 8-बिट क्वांटाइजेशन संस्करण, स्थानीय तैनाती

प्रॉम्प्ट रणनीति

  • Words/Emojis: कुछ-शॉट प्रॉम्प्टिंग (Few-shot prompting)
  • VAD प्रतिनिधित्व: चरण-पीछे की ओर विचार श्रृंखला प्रॉम्प्टिंग (Step-back chain-of-thought)
  • बाधा शर्तें: भावना शब्दों का सीधा उपयोग करने से मना, "दिखाएं न कि बताएं" की आवश्यकता

डेटा पीढ़ी

  • प्रति मॉडल कुल 360 वाक्य (प्रति प्रतिनिधित्व तरीके 90)
  • 18 विभिन्न भावनाओं को कवर करता है, Demszky et al. (2020) के वर्गीकरण से
  • प्रत्येक भावना के लिए मूल्यांकन के लिए 2 वाक्य यादृच्छिक रूप से चुने गए

प्रायोगिक सेटअप

डेटासेट निर्माण

  • भावना चयन: Demszky et al. (2020) के भावना वर्गीकरण के आधार पर, 18 प्रतिनिधि भावनाओं का चयन
  • मुख्य शब्द संयोजन: सामान्य शब्द संयोजन का उपयोग, जैसे Place, Great, Korean, Finals, Semester, Math
  • VAD संख्यात्मक मान: Guo और Choi (2021) के आधार पर, -5.0 से +5.0 की सीमा में सामान्यीकृत

मानव मूल्यांकन डिजाइन

प्रतिभागी भर्ती

  • प्लेटफॉर्म: Prolific क्राउडसोर्सिंग प्लेटफॉर्म
  • संख्या: 200 प्रतिभागी (प्रति मॉडल 100)
  • शर्तें: 18 वर्ष से अधिक, अमेरिका में निवास, अंग्रेजी में धाराप्रवाह
  • मुआवजा: $14/घंटा, लगभग 15 मिनट का कार्य

मूल्यांकन कार्य

1. प्रतिनिधित्व संरेखण मूल्यांकन
  • एक भावनात्मक प्रतिनिधित्व और चार उत्पन्न वाक्य प्रदर्शित करना
  • प्रतिभागी उस भावना के अनुरूप सबसे उपयुक्त वाक्य चुनते हैं
  • प्रत्येक व्यक्ति 10 प्रश्नों का उत्तर देता है, यादृच्छिक रूप से आवंटित
2. सटीकता और प्रामाणिकता मूल्यांकन
  • 5-बिंदु लिकर्ट पैमाने पर मूल्यांकन:
    • "Convey": वाक्य भावना को व्यक्त करने की डिग्री
    • "You'd say": ऐसा लगता है कि प्रतिभागी कहेंगे
    • "Someone Else'd say": ऐसा लगता है कि दूसरा व्यक्ति कहेगा

मूल्यांकन मेट्रिक्स

प्रतिनिधित्व संरेखण मेट्रिक्स

  • चयन दर: विशेष प्रतिनिधित्व के चुने जाने का प्रतिशत
  • Shannon एंट्रॉपी: चयन की सामंजस्य की डिग्री को मापना
  • स्व-संरेखण: समान प्रतिनिधित्व पीढ़ी और मूल्यांकन का मिलान

सटीकता और प्रामाणिकता मेट्रिक्स

  • तीन आयामों का औसत लिकर्ट स्कोर
  • ANOVA सांख्यिकीय महत्व परीक्षण
  • पोस्ट-हॉक विश्लेषण के लिए युग्मित t परीक्षण

प्रायोगिक परिणाम

मुख्य परिणाम

प्रतिनिधित्व संरेखण प्रदर्शन

प्रतिनिधित्व तरीकाGPT-4 चयन दरLLaMA-3 चयन दरGPT-4 एंट्रॉपीLLaMA-3 एंट्रॉपी
Words61.9%57.5%0.320.42
Lexical VAD52.0%-0.610.72
Numeric VAD--0.700.63
Emojis--0.670.52

मुख्य निष्कर्ष

  1. Words प्रतिनिधित्व सर्वोत्तम: दोनों मॉडलों पर सर्वोच्च स्व-संरेखण दर और न्यूनतम एंट्रॉपी मान दिखाता है
  2. Lexical VAD द्वितीयक: GPT-4 पर अच्छा प्रदर्शन, लेकिन LLaMA-3 पर कम प्रभावी
  3. Numeric VAD सबसे खराब प्रदर्शन: सर्वोच्च एंट्रॉपी मान, प्रतिभागियों को सहमति तक पहुंचने में कठिनाई
  4. क्रॉस-प्रतिनिधित्व संरेखण: Emojis और Lexical VAD LLaMA-3 पर संरेखण दिखाते हैं

सटीकता और प्रामाणिकता परिणाम

सांख्यिकीय महत्व

  • GPT-4: भावनात्मक प्रतिनिधित्व का "Convey" और "You'd say" पर महत्वपूर्ण प्रभाव (p < 0.01)
  • LLaMA-3: भावनात्मक प्रतिनिधित्व का "Convey" और "Someone Else'd say" पर महत्वपूर्ण प्रभाव (p < 0.05)

युग्मित तुलना

  • Words "Convey" आयाम में Numeric VAD से महत्वपूर्ण रूप से बेहतर (GPT-4, p = 0.002)
  • Lexical VAD "Convey" आयाम में Numeric VAD से महत्वपूर्ण रूप से बेहतर (LLaMA-3, p = 0.018)
  • Words "You'd say" आयाम में Emojis (p = 0.005) और Numeric VAD (p = 0.044) से महत्वपूर्ण रूप से बेहतर

भावना-विशिष्ट विश्लेषण

मॉडल अंतर

  • GPT-4 "grateful" भावना वाक्य उत्पन्न करने में LLaMA-3 से स्पष्ट रूप से बेहतर है
  • विभिन्न भावनाएं विभिन्न प्रतिनिधित्वों के तहत महत्वपूर्ण अंतर दिखाती हैं
  • कुछ भावनाएं (जैसे "excited", "proud") विशेष शर्तों के तहत कम प्रदर्शन करती हैं

प्रतिनिधित्व अनुकूलन

  • सकारात्मक भावनाएं आमतौर पर Words प्रतिनिधित्व के तहत बेहतर प्रदर्शन करती हैं
  • जटिल भावनात्मक स्थितियां Lexical VAD प्रतिनिधित्व के लिए अधिक उपयुक्त हैं
  • Numeric VAD को बारीक भावना भेद करने में कठिनाई होती है

विलोपन प्रयोग

मुख्य शब्द पालन विश्लेषण

मॉडल1 मुख्य शब्द2 मुख्य शब्द3 मुख्य शब्दऔसत सटीकता
GPT-4, 1x1.001.000.9360.978
LLaMA-3, 1x0.9080.8970.7810.862
LLaMA-3, 3x0.9690.9690.8500.930

VAD प्रशिक्षण प्रभाव

प्रतिभागियों को VAD अवधारणा व्याख्या और अभ्यास प्रश्न प्रदान करके समझ सटीकता में सुधार हुआ, लेकिन अभी भी संज्ञानात्मक भार समस्या है।

संबंधित कार्य

मुख्य शब्द बाधा पीढ़ी

  • प्रारंभिक व्याकरण-आधारित प्रणाली (Kasper, 1989; Uchimoto et al., 2002)
  • अनुक्रम मॉडल और पुनरावृत्ति सुधार विधि (Mou et al., 2016; He and Li, 2021)
  • Transformer युग की नियंत्रित पीढ़ी तकनीक (Kumar et al., 2021; Krause et al., 2021)

भावनात्मक शर्त वाक्य पीढ़ी

  • नियम-आधारित प्रारंभिक प्रणाली (Polzin and Waibel, 2000)
  • RNN शर्त पीढ़ी (Ghosh et al., 2017; Song et al., 2019)
  • LLM युग की भावना पीढ़ी विधि (Li et al., 2024; Mishra et al., 2023)

मूल्य संरेखण अनुसंधान

  • बाल कहानियों में मानक व्यवहार सीखना (Nahian et al., 2020)
  • मजबूत सीखने मानव प्रतिक्रिया में मूल्य एकीकरण (Arzberger et al., 2024)
  • मौजूदा मॉडलों का मूल्य संरेखण माप (Norhashim and Hahn, 2024)

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. प्रतिनिधित्व संरेखण का महत्व: मानव और LLM के बीच अवधारणा समझ में संरेखण की डिग्री अनुप्रयोग प्रभाव को सीधे प्रभावित करती है
  2. Words प्रतिनिधित्व की श्रेष्ठता: अंग्रेजी शब्दावली भावनात्मक प्रतिनिधित्व में सबसे मजबूत संरेखण प्रभाव प्रदान करती है
  3. VAD प्रतिनिधित्व की जटिलता: शब्दार्थ VAD संख्यात्मक VAD से बेहतर है, लेकिन अभी भी सीधे शब्दावली प्रतिनिधित्व के बराबर नहीं है
  4. मॉडल के बीच अंतर: विभिन्न LLMs भावना समझ और पीढ़ी में महत्वपूर्ण अंतर दिखाते हैं

सीमाएं

तकनीकी सीमाएं

  1. मॉडल चयन: केवल दो LLMs का उपयोग, और LLaMA-3 8-बिट क्वांटाइजेशन संस्करण का उपयोग
  2. भाषा सीमा: केवल अंग्रेजी तक सीमित, अन्य भाषाएं विभिन्न परिणाम प्रस्तुत कर सकती हैं
  3. प्रतिभागी प्रतिनिधित्व: वास्तविक AAC उपयोगकर्ता समूह शामिल नहीं है

विधि सीमाएं

  1. VAD समझ का बोझ: प्रतिभागियों को VAD अवधारणा सीखने की आवश्यकता है, मूल्यांकन परिणामों को प्रभावित कर सकता है
  2. इमोजी व्यक्तिपरकता: विभिन्न सांस्कृतिक पृष्ठभूमि के लिए इमोजी समझ में अंतर
  3. भावना जटिलता: 18 भावनाएं संपूर्ण भावना स्पेक्ट्रम को कवर नहीं कर सकती हैं

भविष्य की दिशा

  1. मॉडल रेंज विस्तार: अधिक नवीनतम LLM मॉडलों का परीक्षण
  2. बहुभाषी सत्यापन: अन्य भाषा वातावरण में निष्कर्षों का सत्यापन
  3. उपयोगकर्ता व्यक्तिगतकरण: विशिष्ट AAC उपयोगकर्ता समूहों के लिए व्यक्तिगत प्रतिनिधित्व सीखना
  4. वास्तविक समय अनुप्रयोग: वास्तविक AAC वातावरण में तैनाती और मूल्यांकन

गहन मूल्यांकन

शक्तियां

विधि नवीनता

  1. प्रथम प्रतिनिधित्व संरेखण प्रतिमान: LLM अवधारणा समझ के मूल्यांकन के लिए एक नई व्यवस्थित विधि प्रदान करता है
  2. बहु-आयामी मूल्यांकन डिजाइन: संरेखण, सटीकता और प्रामाणिकता के व्यापक मूल्यांकन ढांचे को जोड़ता है
  3. व्यावहारिक-उन्मुख अनुसंधान: AAC अनुप्रयोग परिदृश्य की वास्तविक आवश्यकताओं का सीधे सामना करता है

प्रयोग पर्याप्तता

  1. बड़े पैमाने पर मानव मूल्यांकन: 200 प्रतिभागियों का क्राउडसोर्सिंग मूल्यांकन परिणाम विश्वसनीयता सुनिश्चित करता है
  2. सांख्यिकीय कठोरता: ANOVA और युग्मित t परीक्षण परिणाम महत्व सुनिश्चित करता है
  3. बहु-कोण विश्लेषण: संरेखण, सटीकता, प्रामाणिकता के कई आयामों से व्यापक मूल्यांकन

परिणाम प्रेरक शक्ति

  1. सामंजस्य निष्कर्ष: दोनों मॉडलों पर परिणाम प्रवृत्ति मूलतः सामंजस्यपूर्ण
  2. सांख्यिकीय महत्व: मुख्य निष्कर्ष सभी सांख्यिकीय महत्व परीक्षण से गुजरे हैं
  3. व्यावहारिक मार्गदर्शन मूल्य: AAC अनुप्रयोग के लिए स्पष्ट डिजाइन सुझाव प्रदान करता है

कमियां

विधि सीमाएं

  1. मूल्यांकन व्यक्तिपरकता: मानव व्यक्तिपरक निर्णय पर निर्भर, पूर्वाग्रह हो सकता है
  2. कार्य सरलीकरण: मुख्य शब्द से वाक्य पीढ़ी कार्य अपेक्षाकृत सरल है, वास्तविक AAC परिदृश्य अधिक जटिल है
  3. स्थिर मूल्यांकन: गतिशील संवाद में संदर्भ निर्भरता पर विचार नहीं किया गया

प्रयोग सेटअप दोष

  1. प्रतिभागी प्रशिक्षण अपर्याप्त: VAD अवधारणा का तीव्र प्रशिक्षण अपर्याप्त हो सकता है
  2. नमूना आकार सीमा: प्रत्येक प्रश्न के उत्तरदाता संख्या अपेक्षाकृत कम (3-9 लोग)
  3. मॉडल संस्करण अंतर: उपयोग किए गए मॉडल संस्करण परिणामों की समयोपयोगिता को प्रभावित कर सकते हैं

प्रभाव मूल्यांकन

शैक्षणिक योगदान

  1. अग्रणी कार्य: LLM प्रतिनिधित्व संरेखण समस्या का पहला व्यवस्थित अनुसंधान
  2. पद्धति योगदान: प्रतिनिधित्व संरेखण मूल्यांकन प्रतिमान अन्य अवधारणा क्षेत्रों तक विस्तारित हो सकता है
  3. अंतःविषय मूल्य: NLP, मनोविज्ञान और सहायक तकनीक अनुसंधान को जोड़ता है

व्यावहारिक मूल्य

  1. AAC उपकरण सुधार: AAC अनुप्रयोग के भावनात्मक प्रतिनिधित्व डिजाइन के लिए मार्गदर्शन
  2. LLM अनुकूलन दिशा: LLM और मानव अवधारणा संरेखण में सुधार के लिए विचार
  3. मूल्यांकन मानक स्थापना: समान अनुप्रयोगों के लिए मूल्यांकन बेंचमार्क स्थापित करता है

पुनरुत्पादनशीलता

  1. विस्तृत विधि विवरण: पूर्ण प्रयोग सेटअप और पैरामीटर कॉन्फ़िगरेशन प्रदान करता है
  2. खुला डेटा प्रतिबद्धता: प्रयोग डेटा और कोड जारी करने का वचन देता है
  3. मानकीकृत प्रक्रिया: पुनरुत्पादनीय मूल्यांकन प्रक्रिया स्थापित करता है

लागू परिदृश्य

प्रत्यक्ष अनुप्रयोग

  1. AAC उपकरण विकास: भावनात्मक अभिव्यक्ति कार्य की डिजाइन और अनुकूलन
  2. संवाद प्रणाली: भावना समझ और अभिव्यक्ति क्षमता में सुधार
  3. पाठ पीढ़ी मूल्यांकन: मानव-मशीन संरेखण के लिए मूल्यांकन मानदंड स्थापित करता है

विस्तारित अनुप्रयोग

  1. अन्य अवधारणा संरेखण: मूल्यों, सांस्कृतिक अवधारणाओं आदि क्षेत्रों तक विस्तार
  2. बहु-मोडल संरेखण: दृश्य, ऑडियो आदि बहु-मोडल जानकारी को जोड़ना
  3. व्यक्तिगत अनुकूलन: विशिष्ट उपयोगकर्ता समूहों के लिए अनुकूलित संरेखण

संदर्भ

यह अनुसंधान बड़ी संख्या में संबंधित कार्यों का हवाला देता है, मुख्य रूप से:

  • Demszky et al. (2020): GoEmotions भावना डेटासेट
  • Guo and Choi (2021): VAD भावना प्रतिनिधित्व सीखना
  • Valencia et al. (2023): AAC में AI भाषा मॉडल अनुप्रयोग
  • Chen and Wan (2024): LLM की शब्दावली बाधा पीढ़ी क्षमता मूल्यांकन

समग्र मूल्यांकन: यह LLM और मानव अवधारणा संरेखण के महत्वपूर्ण मुद्दे पर एक उच्च-गुणवत्ता वाला अनुसंधान कार्य है जो अग्रणी योगदान प्रदान करता है। अनुसंधान विधि वैज्ञानिक रूप से कठोर है, प्रयोग डिजाइन उचित है, और परिणामों का महत्वपूर्ण सैद्धांतिक और व्यावहारिक मूल्य है। हालांकि कुछ सीमाएं हैं, लेकिन भविष्य के संबंधित अनुसंधान के लिए एक ठोस आधार प्रदान करता है।