2025-11-24T17:52:17.819931

Deflanderization for Game Dialogue: Balancing Character Authenticity with Task Execution in LLM-based NPCs

Buakhaw, Kerdthaisong, Phenhiran et al.
The emergence of large language models (LLMs) has opened new opportunities for cre- ating dynamic non-player characters (NPCs) in gaming environments, enabling both func- tional task execution and persona-consistent dialogue generation. In this paper, we (Tu_Character_lab) report our participation in the Commonsense Persona-Grounded Dialogue Challenge (CPDC) 2025 Round 2, which eval- uates agents across three tracks: task-oriented dialogue, context-aware dialogue, and their integration. Our approach combines two complementary strategies: (i) lightweight prompting techniques in the API track, including a Deflanderization prompting method to suppress excessive role-play and improve task fidelity, and (ii) fine-tuned large models in the GPU track, leveraging Qwen3-14B with supervisedfinetuning (SFT) and Low-Rank Adaptation(LoRA). Our best submissions ranked 2nd on Task 1, 2nd on Task 3 (API track), and 4th on Task 3 (GPU track).
academic

गेम संवाद के लिए डिफ्लैंडराइजेशन: LLM-आधारित NPCs में चरित्र प्रामाणिकता और कार्य निष्पादन को संतुलित करना

बुनियादी जानकारी

  • पेपर ID: 2510.13586
  • शीर्षक: गेम संवाद के लिए डिफ्लैंडराइजेशन: LLM-आधारित NPCs में चरित्र प्रामाणिकता और कार्य निष्पादन को संतुलित करना
  • लेखक: पासिन बुआखाव, कुन केर्डथाइसॉन्ग, फुरी फेनहिरान, पितिकॉर्न खलैसामनियांग, सुपसेट वोरथम्मथॉर्न, पियालिट इटिचाइवॉन्ग, नुटचानॉन योंगसतियांचॉट
  • वर्गीकरण: cs.CL (कम्प्यूटेशनल भाषाविज्ञान), cs.AI (कृत्रिम बुद्धिमत्ता)
  • प्रकाशन तिथि: 26 अक्टूबर 2025
  • पेपर लिंक: https://arxiv.org/abs/2510.13586v3

सारांश

बड़े भाषा मॉडल (LLMs) के आगमन ने गेम वातावरण में गतिशील गैर-खिलाड़ी पात्रों (NPCs) बनाने के लिए नई संभावनाएं खोली हैं, जो कार्यात्मक कार्य निष्पादन और चरित्र-सुसंगत संवाद निर्माण दोनों को सक्षम करते हैं। यह पेपर कॉमन सेंस पर्सोना-ग्राउंडेड डायलॉग चैलेंज (CPDC) 2025 के दूसरे दौर में टीम (TU_Character_lab) की भागीदारी की रिपोर्ट करता है, जो तीन ट्रैक पर एजेंटों के प्रदर्शन का मूल्यांकन करता है: कार्य-उन्मुख संवाद, संदर्भ-जागरूक संवाद और उनका एकीकरण। अनुसंधान पद्धति दो पूरक रणनीतियों को जोड़ती है: (1) API ट्रैक में हल्के-फुल्के प्रॉम्प्टिंग तकनीकें, जिनमें अत्यधिक चरित्र भूमिका निभाने को दबाने और कार्य सटीकता में सुधार करने के लिए डिफ्लैंडराइजेशन प्रॉम्प्टिंग विधि शामिल है; (2) GPU ट्रैक में सूक्ष्म-ट्यून किए गए बड़े मॉडल, Qwen3-14B का उपयोग करके पर्यवेक्षित सूक्ष्म-ट्यूनिंग (SFT) और कम-रैंक अनुकूलन (LoRA) के साथ। सर्वश्रेष्ठ प्रस्तुतियां कार्य 1 में 2 रैंक, कार्य 3 (API ट्रैक) में 2 रैंक, और कार्य 3 (GPU ट्रैक) में 4 रैंक पर रहीं।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

पारंपरिक गेम विकास पूर्व-प्रोग्रामित तर्क पर बहुत अधिक निर्भर करता है, गेम इवेंट और चरित्र इंटरैक्शन पूर्वनिर्धारित स्क्रिप्ट और संवाद पेड़ों का पालन करते हैं। खिलाड़ी की निमज्जन और कथा गहराई को बढ़ाने के लिए, डेवलपर्स LLMs को NPCs के मूल घटक के रूप में उपयोग करना शुरू कर रहे हैं, जिससे वे मानव-जैसे व्यवहार प्रदर्शित कर सकें और खिलाड़ियों के साथ गतिशील, संदर्भ-जागरूक संवाद में संलग्न हो सकें।

मुख्य चुनौतियाँ

लंबे समय के इंटरैक्शन में गतिशील चरित्र की सुसंगतता और गहराई बनाए रखना एक महत्वपूर्ण चुनौती है, विशेष रूप से "फ्लैंडराइजेशन" (Flanderization) घटना। यह शब्द "द सिम्पसन्स" में चरित्र नेड फ्लैंडर्स से आता है, जो जटिल पात्रों को समय के साथ क्रमिक रूप से सरल करने को संदर्भित करता है, अंततः एक एकल अतिरंजित विशेषता द्वारा परिभाषित कार्टून छवि बन जाता है।

अनुसंधान प्रेरणा

  1. चरित्र प्रामाणिकता और कार्य निष्पादन को संतुलित करना: मौजूदा LLM-संचालित NPCs अत्यधिक चरित्र भूमिका निभाते समय अक्सर कार्यात्मक सटीकता को नजरअंदाज करते हैं
  2. दीर्घकालीन संवाद सुसंगतता: विस्तारित संवाद में चरित्र सामंजस्य बनाए रखने की आवश्यकता
  3. बहु-कार्य एकीकरण: कार्य-उन्मुख संवाद और चरित्र-सुसंगत संवाद दोनों को संभालने की चुनौती

मुख्य योगदान

  1. डिफ्लैंडराइजेशन प्रॉम्प्टिंग तकनीक प्रस्तावित की: अत्यधिक चरित्र भूमिका निभाने को दबाता है, संवाद निर्माण और कार्यात्मक निर्माण क्षमताओं के बीच संतुलन प्राप्त करता है
  2. हल्के-फुल्के प्रॉम्प्टिंग और सूक्ष्म-ट्यूनिंग की पूरक रणनीतियों की खोज की: API ट्रैक प्रॉम्प्ट इंजीनियरिंग का उपयोग करता है, GPU ट्रैक मॉडल सूक्ष्म-ट्यूनिंग का उपयोग करता है
  3. हाइब्रिड RAG+Memory विधि का निर्माण किया: संवाद आधार को बढ़ाने के लिए पुनर्प्राप्ति-संवर्धित निर्माण और स्मृति तंत्र को जोड़ता है
  4. CPDC 2025 प्रतियोगिता में उत्कृष्ट परिणाम प्राप्त किए: कई कार्यों में शीर्ष रैंकिंग, विधि की प्रभावशीलता को सत्यापित करता है

विधि विवरण

कार्य परिभाषा

CPDC प्रतियोगिता में तीन कार्य शामिल हैं:

  • कार्य 1: कार्य-उन्मुख संवाद एजेंट - कार्यात्मक कॉल सटीकता और पैरामीटर चयन सटीकता का मूल्यांकन करता है
  • कार्य 2: संदर्भ-जागरूक संवाद एजेंट - NPC प्रतिक्रिया और निर्दिष्ट चरित्र के साथ सुसंगतता का मूल्यांकन करता है
  • कार्य 3: एकीकृत संदर्भ संवाद और कार्य निष्पादन - कार्य 1 और कार्य 2 को जोड़ता है

API ट्रैक विधि

डिफ्लैंडराइजेशन प्रॉम्प्टिंग रणनीति

मुख्य विचार मॉडल को प्राकृतिक और संक्षिप्त रूप से प्रतिक्रिया देने के लिए निर्देशित करना है, अतिरंजित चरित्र भूमिका निभाने से बचना है। त्रुटि विश्लेषण से पता चलता है कि आधारभूत सेटिंग अक्सर बहुत विस्तृत और संदर्भ-बिखरी हुई आउटपुट उत्पन्न करते हैं, खिलाड़ी के अनुरोध के प्रत्यक्ष प्रतिक्रिया के बजाय कथा सेटिंग पर अत्यधिक ध्यान केंद्रित करते हैं।

मुख्य प्रॉम्प्टिंग तकनीकें:

  • D (डिफ्लैंडराइजेशन): मॉडल को अत्यधिक चरित्र भूमिका निभाने से बचने के लिए प्रॉम्प्ट करता है
  • F (फ्यूशॉट): दो नमूना संवाद (व्यापारी और गिल्ड रिसेप्शनिस्ट) शामिल करता है
  • CoT (विचार की श्रृंखला): मॉडल को चरणबद्ध रूप से सोचने के लिए निर्देशित करता है
  • RW (विश्व सेटिंग हटाएं): संवाद प्रॉम्प्ट बनाते समय विश्व दृष्टिकोण जानकारी को हटाता है
  • G (गाइड): प्रतिक्रिया को 1-2 छोटे वाक्यों तक सीमित करता है, सरल भाषा का उपयोग करता है

पाइपलाइन डिजाइन

जैसा कि चित्र 2 में दिखाया गया है, API ट्रैक पाँच-चरणीय पाइपलाइन अपनाता है:

  1. कार्यात्मक कॉल प्रॉम्प्ट तैयार करना
  2. कार्यात्मक निर्माण (API कॉल #1)
  3. कार्य निष्पादन
  4. संवाद प्रॉम्प्ट तैयार करना
  5. संवाद निर्माण (API कॉल #2)

GPU ट्रैक विधि

मॉडल चयन और सूक्ष्म-ट्यूनिंग

कम्प्यूटेशनल सीमाओं (AWS g5e.2xlarge उदाहरण, L40s GPU) के कारण, एक ऐसा मॉडल चुना गया जो इस वातावरण में चल सके, अंततः Qwen3-14B को मुख्य मॉडल के रूप में चुना गया।

सूक्ष्म-ट्यूनिंग रणनीति:

  1. पूर्ण SFT: प्रारंभिक और संश्लेषित बहु-मोड़ संवाद डेटा पर पर्यवेक्षित सूक्ष्म-ट्यूनिंग
  2. LoRA सूक्ष्म-ट्यूनिंग: संवाद और कार्यात्मक कॉल डेटासेट पर कम-रैंक अनुकूलन (rank=32, α=32)

हाइब्रिड RAG+Memory विधि

  • पुनर्प्राप्ति मॉड्यूल: Qwen3-Embedding-0.6B का उपयोग करके खिलाड़ी और NPC संवाद इतिहास को एन्कोड करता है
  • इंजेक्शन चरण: कार्यात्मक चयन और संवाद ड्राफ्टिंग दोनों चरणों में पुनर्प्राप्त संदर्भ को इंजेक्ट करता है
  • RAG+Refine: उच्च समानता वाले सोने की प्रतिक्रिया के स्वर और लंबाई से मेल खाने के लिए निर्माण ड्राफ्ट को फिर से लिखता है

डेटा संवर्धन

gemini-2.5-pro-preview का उपयोग करके कार्यात्मक कॉल डेटा उत्पन्न करता है, GPT-4o-mini का उपयोग करके संवाद डेटा उत्पन्न करता है:

  • बहु-मोड़ संवाद: 2,800 डेटा बिंदु
  • बहु-मोड़ तर्क: 2,800 डेटा बिंदु (कार्य 2)
  • कार्यात्मक कॉल निर्माण: 328 डेटा बिंदु (कार्य 1)

प्रायोगिक सेटअप

डेटासेट

  • कार्य 1: train.json, sample.json - कार्यात्मक कॉल डेटा
  • कार्य 2: train.json, sample.json - चरित्र संवाद डेटा
  • डेटा विश्लेषण संतुलित NPC चरित्र वितरण दिखाता है (20 व्यापारी, 20 गिल्ड रिसेप्शनिस्ट)

मूल्यांकन मेट्रिक्स

कार्य 1 मेट्रिक्स

  • कार्यात्मक नाम सटीक मिलान: पूर्वानुमानित कार्यात्मक नाम संदर्भ के साथ पूरी तरह मेल खाने की सटीकता
  • कार्यात्मक पैरामीटर सटीक मिलान: सभी पूर्वानुमानित पैरामीटर संदर्भ के साथ पूरी तरह मेल खाने की सटीकता
  • BERTScore: BERT एम्बेडिंग का उपयोग करके शब्दार्थ समानता को मापता है

कार्य 2 मेट्रिक्स

  • BLEU-4: संशोधित n-ग्राम सटीकता पर आधारित स्कोरिंग
  • शब्द-स्तर F1: शब्दावली सेट पर आधारित F1 स्कोर
  • CPDCscore: WordF1, BLEU, USEScore और BERTScore के भारित स्कोर को जोड़ता है

कार्यान्वयन विवरण

  • API ट्रैक: GPT-4o-mini, प्रति मोड़ अधिकतम 2 API कॉल, इनपुट सीमा 2000 टोकन, आउटपुट सीमा 200 टोकन
  • GPU ट्रैक: vLLM फ्रेमवर्क तैनाती, dtype='bfloat16', gpu_memory_utilization=0.8

प्रायोगिक परिणाम

API ट्रैक मुख्य परिणाम

कार्यविधिCPDCscore
कार्य 1ZeroShot0.422
कार्य 1सर्वश्रेष्ठ विधि (D+RW)0.586
कार्य 3ZeroShot0.510
कार्य 3सर्वश्रेष्ठ विधि0.601

मुख्य निष्कर्ष:

  1. डिफ्लैंडराइजेशन प्रभाव महत्वपूर्ण है: D रणनीति कार्य 3 पर शून्य-नमूना आधारभूत की तुलना में +0.013 CPDCscore सुधार प्राप्त करती है
  2. नमूना प्रॉम्प्टिंग आगे सुधार करता है: कम-नमूना उदाहरण (F) जोड़ने से कार्य 1 पर क्रमशः +0.092 और +0.133 सुधार मिलते हैं
  3. जटिल प्रॉम्प्टिंग सीमित लाभ: CoT, प्रतिक्रिया मार्गदर्शन आदि जटिल रणनीतियां सीमांत या असंगत लाभ प्रदान करती हैं

GPU ट्रैक मुख्य परिणाम

मॉडलविधिकार्य 1 स्कोरकार्य 2 स्कोरकुल स्कोर
LLaMA3.1-8Bआधारभूत0.4390.3330.386
Qwen3-14BSFT + LoRA0.5900.6060.598

मुख्य निष्कर्ष:

  1. मॉडल आकार और सूक्ष्म-ट्यूनिंग महत्वपूर्ण हैं: Qwen3-14B SFT और LoRA के साथ 0.598 कुल स्कोर प्राप्त करता है, 4 रैंक पर
  2. पुनर्प्राप्ति संवर्धन मध्यम सुधार प्रदान करता है: RAG विधि Qwen3-8B प्रदर्शन को 0.522 तक सुधारती है
  3. कार्य-अंतर व्यापार-बंद: RAG+Refine कार्य 1 में सर्वश्रेष्ठ प्रदर्शन करता है लेकिन कार्य 2 प्रदर्शन में गिरावट आती है, LoRA-SFT बेहतर संतुलन प्राप्त करता है

विलोपन प्रयोग

विभिन्न घटकों के योगदान को सत्यापित करने के लिए व्यवस्थित विलोपन प्रयोग:

  • डिफ्लैंडराइजेशन बनाम मानक प्रॉम्प्टिंग
  • कम-नमूना शिक्षा बनाम शून्य-नमूना शिक्षा
  • विभिन्न पुनर्प्राप्ति रणनीतियों की तुलना
  • SFT बनाम LoRA बनाम संयुक्त विधि

संबंधित कार्य

गेम-उन्मुख संवाद एजेंट

  • कार्य-उन्मुख प्रणालियां: जैसे (Kazi et al., 2024) एजेंट योजना प्रभाव और लक्ष्य संरेखण का मूल्यांकन करता है
  • गेम सहायक: (Lee et al., 2025) नए खिलाड़ियों को सहायता करने के लिए विशेष गेम सहायक विकसित करता है
  • बहु-एजेंट फ्रेमवर्क: (Phillips et al., 2025) संवाद एजेंट और लक्ष्य सत्यापन एजेंट का उपयोग करता है

कार्य कॉलिंग क्षमता

  • कार्यात्मक कॉलिंग आर्किटेक्चर: बहु-चरणीय फ्रेमवर्क निष्पादन, धारणा, सत्यापन, नियंत्रण और पुनर्प्राप्ति घटक शामिल करता है
  • मूल्यांकन बेंचमार्क: τ2-Bench एजेंट समन्वय क्षमता का मूल्यांकन करने के लिए दोहरी-नियंत्रण वातावरण प्रस्तुत करता है

चरित्र भूमिका निभाने वाले LLMs

  • उपयोगकर्ता व्यक्तिगतकरण: LaMP आदि बेंचमार्क व्यक्तिगत पाठ निर्माण का मूल्यांकन करता है
  • पर्यावरण अनुकूलन: ChatDev, MetaGPT आदि बहु-एजेंट प्रणालियों में चरित्र भूमिका निभाना

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. हल्के-फुल्के डिफ्लैंडराइजेशन रणनीति प्रभावी है: API सेटिंग में अत्यधिक चरित्र भूमिका निभाने को दबाकर प्रदर्शन में महत्वपूर्ण सुधार
  2. GPU ट्रैक में सूक्ष्म-ट्यून किए गए बड़े मॉडल का प्रभुत्व: Qwen3-14B SFT और LoRA के साथ सर्वश्रेष्ठ प्रभाव प्राप्त करता है
  3. कार्य-अंतर संतुलन मुख्य चुनौती है: चरित्र भूमिका निभाने की सटीकता में सुधार करने वाली विधियां कभी-कभी पैरामीटर सटीकता को नुकसान पहुंचाती हैं

सीमाएं

  1. कम्प्यूटेशनल संसाधन सीमाएं: GPU ट्रैक L40s मेमोरी बजट तक सीमित है, जो बड़े मॉडल के उपयोग को सीमित करता है
  2. पुनर्प्राप्ति कॉर्पस आकार: RAG विधि पुनर्प्राप्ति कॉर्पस के आकार और गुणवत्ता तक सीमित है
  3. मूल्यांकन मेट्रिक्स सीमाएं: स्वचालित मूल्यांकन मेट्रिक्स संवाद प्रणाली की गुणवत्ता को पूरी तरह प्रतिबिंबित नहीं कर सकते, मानव मूल्यांकन की आवश्यकता है

भविष्य की दिशाएं

  1. हाइब्रिड रणनीति अन्वेषण: हल्के-फुल्के प्रॉम्प्टिंग और पुनर्प्राप्ति-संवर्धित सूक्ष्म-ट्यूनिंग को एकीकृत करने वाली हाइब्रिड रणनीति
  2. दीर्घकालीन सुसंगतता: लंबे संवाद में चरित्र सुसंगतता बनाए रखने की विधियां
  3. बहु-मोडल विस्तार: दृश्य और ऑडियो जानकारी को जोड़ने वाली बहु-मोडल NPC प्रणालियां

गहन मूल्यांकन

शक्तियां

  1. समस्या परिभाषा स्पष्ट है: Flanderization अवधारणा का परिचय नया है, LLM चरित्र भूमिका निभाने में मुख्य समस्या का सटीक वर्णन करता है
  2. विधि पूरकता मजबूत है: API और GPU ट्रैक विभिन्न लेकिन पूरक रणनीतियों का उपयोग करते हैं, व्यापक तकनीकी दृष्टिकोण प्रदर्शित करता है
  3. प्रयोग पर्याप्त हैं: व्यवस्थित विलोपन प्रयोग और बहु-आयामी मूल्यांकन विधि की प्रभावशीलता को सत्यापित करता है
  4. व्यावहारिक मूल्य उच्च है: वास्तविक प्रतियोगिता में उत्कृष्ट परिणाम, विधि की व्यावहारिकता को प्रमाणित करता है

कमियां

  1. सैद्धांतिक विश्लेषण अपर्याप्त है: Flanderization घटना का गहन सैद्धांतिक विश्लेषण अभाव
  2. सामान्यीकरण सत्यापित नहीं है: विधि मुख्य रूप से CPDC डेटासेट पर सत्यापित है, अन्य गेम परिदृश्यों में सामान्यीकरण अभाव
  3. कम्प्यूटेशनल दक्षता विश्लेषण अभाव: विभिन्न विधियों की कम्प्यूटेशनल लागत और अनुमान दक्षता का विस्तृत विश्लेषण नहीं
  4. उपयोगकर्ता अनुभव मूल्यांकन अपर्याप्त है: वास्तविक खिलाड़ियों के व्यक्तिपरक अनुभव मूल्यांकन अभाव

प्रभाव

  1. शैक्षणिक योगदान: गेम AI क्षेत्र में नई अनुसंधान दिशा और समाधान प्रस्तुत करता है
  2. व्यावहारिक मूल्य: विधि को गेम विकास में NPC डिजाइन में सीधे लागू किया जा सकता है
  3. पुनरुत्पादनीयता: विस्तृत कार्यान्वयन विवरण और प्रॉम्प्ट टेम्पलेट प्रदान करता है, पुनरुत्पादन को सुविधाजनक बनाता है

लागू परिदृश्य

  1. RPG गेम: विशेष रूप से समृद्ध चरित्र इंटरैक्शन की आवश्यकता वाले भूमिका निभाने वाले खेलों के लिए उपयुक्त
  2. शैक्षणिक गेम: बुद्धिमान शिक्षण सहायक और आभासी प्रशिक्षक बनाने के लिए उपयोग किया जा सकता है
  3. सामाजिक मंच: Discord जैसे सामाजिक मंचों पर चैट बॉट तक विस्तार

संदर्भ

  1. Kazi et al. (2024): बड़े भाषा मॉडल कार्य-उन्मुख-संवाद प्रणालियों का मूल्यांकन करने के लिए उपयोगकर्ता-एजेंट के रूप में
  2. Lee et al. (2025): AMAN: MMORPG में नए खिलाड़ियों को सलाह देने और सहायता करने के लिए एजेंट
  3. Phillips et al. (2025): LLMs का उपयोग करके गेम में लक्ष्य-उन्मुख इंटरैक्शन
  4. Park et al. (2023): जनरेटिव एजेंट: मानव व्यवहार के इंटरैक्टिव सिमुलेक्रा
  5. Sony AI (2025): कॉमन सेंस पर्सोना-ग्राउंडेड डायलॉग चैलेंज 2025

यह पेपर गेम AI क्षेत्र में एक नवीन समाधान प्रस्तुत करता है, डिफ्लैंडराइजेशन तकनीक के माध्यम से NPC की चरित्र प्रामाणिकता और कार्य निष्पादन क्षमता को प्रभावी ढंग से संतुलित करता है, भविष्य के गेम में बुद्धिमान चरित्र डिजाइन के लिए महत्वपूर्ण संदर्भ प्रदान करता है।