The emergence of large language models (LLMs) has opened new opportunities for cre- ating dynamic non-player characters (NPCs) in gaming environments, enabling both func- tional task execution and persona-consistent dialogue generation. In this paper, we (Tu_Character_lab) report our participation in the Commonsense Persona-Grounded Dialogue Challenge (CPDC) 2025 Round 2, which eval- uates agents across three tracks: task-oriented dialogue, context-aware dialogue, and their integration. Our approach combines two complementary strategies: (i) lightweight prompting techniques in the API track, including a Deflanderization prompting method to suppress excessive role-play and improve task fidelity, and (ii) fine-tuned large models in the GPU track, leveraging Qwen3-14B with supervisedfinetuning (SFT) and Low-Rank Adaptation(LoRA). Our best submissions ranked 2nd on Task 1, 2nd on Task 3 (API track), and 4th on Task 3 (GPU track).
- معرّف الورقة: 2510.13586
- العنوان: Deflanderization for Game Dialogue: Balancing Character Authenticity with Task Execution in LLM-based NPCs
- المؤلفون: باسين بواخاو، كون كيردثايسونج، فوري فينهيران، بيتيكورن خلايسامنيانج، سوباسات فوراثاماثورن، بيالت إتيتشايوونج، نوتشانون يونجساتيانشوت
- التصنيفات: cs.CL (علم اللغة الحسابي)، cs.AI (الذكاء الاصطناعي)
- تاريخ النشر: 26 أكتوبر 2025
- رابط الورقة: https://arxiv.org/abs/2510.13586v3
لقد فتحت نماذج اللغة الكبيرة (LLMs) فرصاً جديدة لإنشاء شخصيات غير لاعب (NPCs) ديناميكية في بيئات الألعاب، مما يمكّنها من تحقيق تنفيذ المهام الوظيفية وتوليد الحوار المتسق مع الشخصية في نفس الوقت. تقرر هذه الورقة عن مشاركة الفريق (TU_Character_lab) في الجولة الثانية من تحدي الحوار الموجه بالشخصية الحس السليم (CPDC) 2025، الذي يقيّم أداء الوكلاء عبر ثلاث مسارات: الحوار الموجه بالمهام، والحوار الحساس للسياق، وتكاملهما. يجمع منهج البحث بين استراتيجيتين متكاملتين: (1) تقنيات الإشارات الخفيفة في مسار API، بما في ذلك طريقة الإشارات المخصصة لإلغاء تسطيح الشخصيات التي تثبط الأداء الزائد للشخصية وتحسن دقة المهام؛ (2) ضبط النماذج الكبيرة في مسار GPU، مستفيداً من Qwen3-14B للضبط الدقيق الخاضع للإشراف (SFT) والتكيف منخفض الرتبة (LoRA). حققت أفضل عملية إرسال المرتبة الثانية في المهمة 1، والمرتبة الثانية في المهمة 3 (مسار API)، والمرتبة الرابعة في المهمة 3 (مسار GPU).
يعتمد تطوير الألعاب التقليدي بشكل كبير على المنطق المبرمج مسبقاً، حيث تتبع أحداث اللعبة والتفاعلات بين الشخصيات نصوصاً محددة مسبقاً وأشجار حوار. لتعزيز انغماس اللاعب وعمق السرد، بدأ المطورون في استخدام نماذج اللغة الكبيرة كمكون أساسي لشخصيات غير اللاعب، مما يمكّنها من إظهار سلوك شبيه بالإنسان والانخراط في حوار ديناميكي وحساس للسياق مع اللاعبين.
يواجه الحفاظ على اتساق وعمق الشخصيات الديناميكية في التفاعلات طويلة الأجل تحديات كبيرة، خاصة ظاهرة "تسطيح الشخصية" (Flanderization). يشير هذا المصطلح، المشتق من شخصية Ned Flanders في مسلسل "The Simpsons"، إلى تبسيط الشخصيات المعقدة تدريجياً بمرور الوقت، وتحولها في النهاية إلى صور كاريكاتورية يحددها سمة واحدة مبالغ فيها.
- موازنة الأصالة الشخصية مع تنفيذ المهام: غالباً ما تتجاهل شخصيات غير اللاعب المدفوعة بنماذج اللغة الكبيرة الصحة الوظيفية عند الأداء الزائد للشخصية
- اتساق الحوار طويل الأجل: الحاجة إلى الحفاظ على تماسك الشخصية في الحوارات الممتدة
- التكامل متعدد المهام: التحدي المتمثل في التعامل مع الحوار الموجه بالمهام واتساق الشخصية في نفس الوقت
- اقتراح تقنية الإشارات المخصصة لإلغاء تسطيح الشخصيات: تثبيط الأداء الزائد للشخصية وتحقيق التوازن بين توليد الحوار والقدرات الوظيفية
- استكشاف الاستراتيجيات المتكاملة للإشارات الخفيفة والضبط الدقيق: استخدام هندسة الإشارات في مسار API والضبط الدقيق للنموذج في مسار GPU
- بناء طريقة هجينة RAG + الذاكرة: دمج الجيل المعزز بالاسترجاع وآليات الذاكرة لتحسين أساس الحوار
- تحقيق نتائج ممتازة في مسابقة CPDC 2025: الحصول على تصنيفات عالية في مهام متعددة، مما يتحقق من فعالية الطريقة
تتضمن مسابقة CPDC ثلاث مهام:
- المهمة 1: وكيل الحوار الموجه بالمهام - تقييم صحة استدعاء الوظيفة ودقة اختيار المعاملات
- المهمة 2: وكيل الحوار الحساس للسياق - تقييم استجابة شخصية غير اللاعب واتساقها مع الشخصية المحددة
- المهمة 3: دمج الحوار الحساس للسياق وتنفيذ المهام - دمج المهمة 1 والمهمة 2
الفكرة الأساسية هي توجيه النموذج للاستجابة بشكل طبيعي وموجز، مع تجنب الأداء الزائد للشخصية. يشير تحليل الأخطاء إلى أن الإعدادات الأساسية غالباً ما تنتج مخرجات مفصلة جداً ومشتتة السياق، مع التركيز الزائد على الإعداد السردي بدلاً من الاستجابة المباشرة لطلب اللاعب.
التقنيات الرئيسية للإشارات:
- D (إلغاء تسطيح الشخصيات): توجيه النموذج لتجنب الأداء الزائد للشخصية
- F (التعلم من عدد قليل من الأمثلة): تضمين حواريْ عينة (تاجر ومستقبل النقابة)
- CoT (سلسلة التفكير): توجيه النموذج للتفكير خطوة بخطوة
- RW (إزالة إعداد العالم): إزالة معلومات الرؤية العالمية عند بناء إشارات الحوار
- G (التوجيه): تقييد الاستجابة إلى 1-2 جملة قصيرة، باستخدام لغة بسيطة
كما هو موضح في الشكل 2، يستخدم مسار API خط أنابيب من خمس خطوات:
- تحضير إشارة استدعاء الوظيفة
- توليد الوظيفة (استدعاء API #1)
- تنفيذ الدالة
- تحضير إشارة الحوار
- توليد الحوار (استدعاء API #2)
نظراً للقيود الحسابية (مثيل AWS g5e.2xlarge مع GPU L40s)، تم اختيار نموذج يمكن تشغيله في هذه البيئة، وتم اختيار Qwen3-14B في النهاية كنموذج رئيسي.
استراتيجية الضبط الدقيق:
- الضبط الدقيق الخاضع للإشراف الكامل (SFT): إجراء ضبط دقيق خاضع للإشراف على بيانات الحوار الأولية والاصطناعية متعددة الأدوار
- ضبط LoRA الدقيق: إجراء التكيف منخفض الرتبة (rank=32, α=32) على مجموعات بيانات الحوار واستدعاء الوظيفة
- وحدة الاسترجاع: استخدام Qwen3-Embedding-0.6B لترميز سجل الحوار بين اللاعب وشخصية غير اللاعب
- مرحلة الحقن: حقن السياق المسترجع في مرحلتين: اختيار الوظيفة وصياغة الحوار
- RAG + تحسين: إعادة كتابة مسودة الحوار لمطابقة نبرة وطول الاستجابات الذهبية ذات التشابه العالي
استخدام gemini-2.5-pro-preview لتوليد بيانات استدعاء الوظيفة و GPT-4o-mini لتوليد بيانات الحوار:
- الحوار متعدد الأدوار: 2,800 نقطة بيانات
- الاستدلال متعدد الأدوار: 2,800 نقطة بيانات (المهمة 2)
- توليد استدعاء الوظيفة: 328 نقطة بيانات (المهمة 1)
- المهمة 1: train.json, sample.json - بيانات استدعاء الوظيفة
- المهمة 2: train.json, sample.json - بيانات حوار الشخصية
- يُظهر تحليل البيانات توزيعاً متوازناً لأدوار شخصيات غير اللاعب (20 تاجراً، 20 مستقبل نقابة)
- المطابقة الدقيقة لاسم الوظيفة: دقة مطابقة اسم الوظيفة المتنبأ به مع المرجع بالكامل
- المطابقة الدقيقة لمعاملات الوظيفة: دقة مطابقة جميع معاملات الوظيفة المتنبأ بها مع المرجع
- BERTScore: قياس التشابه الدلالي باستخدام تضمينات BERT
- BLEU-4: درجة تعتمد على دقة n-gram المعدلة
- F1 على مستوى الكلمة: درجة F1 بناءً على مجموعة المفردات
- CPDCscore: درجة مرجحة تجمع بين WordF1 و BLEU و USEScore و BERTScore
- مسار API: GPT-4o-mini، بحد أقصى استدعاءات API 2 لكل دور، حد إدخال 2000 رمز، حد إخراج 200 رمز
- مسار GPU: إطار عمل vLLM، dtype='bfloat16'، gpu_memory_utilization=0.8
| المهمة | الطريقة | CPDCscore |
|---|
| المهمة 1 | ZeroShot | 0.422 |
| المهمة 1 | أفضل طريقة (D+RW) | 0.586 |
| المهمة 3 | ZeroShot | 0.510 |
| المهمة 3 | أفضل طريقة | 0.601 |
الاكتشافات الرئيسية:
- تأثير إلغاء تسطيح الشخصيات كبير: حققت استراتيجية D تحسناً بمقدار +0.013 في CPDCscore مقارنة بخط الأساس بدون عينات في المهمة 3
- الإشارات بعدد قليل من الأمثلة توفر تحسناً إضافياً: أضافت الأمثلة القليلة (F) تحسينات بمقدار +0.092 و +0.133 على التوالي في المهمة 1
- الفوائد المحدودة للإشارات المعقدة: استراتيجيات معقدة مثل CoT والاستجابات الموجهة توفر فوائد هامشية أو غير متسقة
| النموذج | الطريقة | درجة المهمة 1 | درجة المهمة 2 | الدرجة الإجمالية |
|---|
| LLaMA3.1-8B | baseline | 0.439 | 0.333 | 0.386 |
| Qwen3-14B | SFT + LoRA | 0.590 | 0.606 | 0.598 |
الاكتشافات الرئيسية:
- حجم النموذج والضبط الدقيق حاسمان: حقق Qwen3-14B مع SFT و LoRA درجة إجمالية بقيمة 0.598، احتل المرتبة الرابعة
- الاسترجاع المعزز يوفر تحسناً معتدلاً: رفعت طريقة RAG أداء Qwen3-8B إلى 0.522
- المقايضة بين المهام: حققت RAG+Refine أفضل أداء في المهمة 1 لكن انخفضت الأداء في المهمة 2، بينما حققت SFT-LoRA توازناً أفضل
تم التحقق من مساهمة كل مكون من خلال تجارب استبدال منهجية:
- إلغاء تسطيح الشخصيات مقابل الإشارات القياسية
- التعلم من عدد قليل من الأمثلة مقابل التعلم بدون عينات
- مقارنة استراتيجيات الاسترجاع المختلفة
- طرق SFT مقابل LoRA مقابل الطرق المدمجة
- الأنظمة الموجهة بالمهام: مثل (Kazi et al., 2024) التي تقيّم تأثير تخطيط الوكيل والمحاذاة الهدفية
- مساعدو الألعاب: (Lee et al., 2025) تطوير مساعدين متخصصين للألعاب لمساعدة اللاعبين الجدد
- الأطر متعددة الوكلاء: (Phillips et al., 2025) استخدام وكلاء الحوار ووكلاء التحقق من الأهداف
- معمارية استدعاء الوظيفة: إطار عمل متعدد الخطوات يتضمن مكونات التنفيذ والإدراك والتحقق والتحكم والاسترجاع
- معايير التقييم: يقدم τ2-Bench بيئة ثنائية التحكم لتقييم قدرات تنسيق الوكلاء
- التخصيص للمستخدم: معايير مثل LaMP تقيّم توليد النصوص المخصصة
- التكيف مع البيئة: أنظمة متعددة الوكلاء مثل ChatDev و MetaGPT التي تؤدي أدوار الشخصيات
- استراتيجية إلغاء تسطيح الشخصيات الخفيفة فعالة: تحسن الأداء بشكل كبير في إعدادات API من خلال تثبيط الأداء الزائد للشخصية
- الضبط الدقيق للنماذج الكبيرة يتفوق في مسار GPU: حقق Qwen3-14B مع SFT و LoRA أفضل النتائج
- التوازن بين المهام هو التحدي الرئيسي: قد تؤدي الطرق التي تحسن دقة الشخصية أحياناً إلى إضعاف صحة المعاملات
- قيود الموارد الحسابية: يقتصر مسار GPU على ميزانية ذاكرة L40s، مما يحد من استخدام النماذج الأكبر
- حجم مجموعة الاسترجاع: تقتصر طريقة RAG على حجم وجودة مجموعة الاسترجاع
- قيود مقاييس التقييم: لا تعكس مقاييس التقييم التلقائية بشكل كامل جودة نظام الحوار، وتتطلب تقييماً بشرياً
- استكشاف الاستراتيجيات الهجينة: توحيد الإشارات الخفيفة والضبط الدقيق المعزز بالاسترجاع
- الاتساق طويل الأجل: طرق للحفاظ على اتساق الشخصية في الحوارات الأطول
- التوسع متعدد الأنماط: أنظمة شخصيات غير لاعب متعددة الأنماط تدمج المعلومات البصرية والصوتية
- تعريف المشكلة واضح: يقدم مفهوم Flanderization طريقة جديدة وتصف بدقة المشكلة الرئيسية في أداء الشخصية في نماذج اللغة الكبيرة
- قوة التكامل بين الطرق: تستخدم مسارات API و GPU استراتيجيات مختلفة لكن متكاملة، مما يعكس رؤية تقنية شاملة
- التجارب الشاملة: تتحقق تجارب الاستبدال المنهجية والتقييم متعدد الأبعاد من فعالية الطريقة
- القيمة العملية العالية: تحقيق نتائج ممتازة في المسابقة الفعلية يثبت الجدوى العملية للطريقة
- نقص التحليل النظري: يفتقر إلى التحليل النظري العميق لظاهرة Flanderization
- عدم التحقق من القابلية للتعميم: تم التحقق من الطريقة بشكل أساسي على مجموعة بيانات CPDC، مع نقص التحقق من القابلية للتعميم في سيناريوهات ألعاب أخرى
- غياب تحليل الكفاءة الحسابية: لم يتم تحليل تكاليف الحساب وكفاءة الاستدلال للطرق المختلفة بالتفصيل
- نقص تقييم تجربة المستخدم: يفتقر إلى تقييم التجربة الذاتية للاعبين الحقيقيين
- المساهمة الأكاديمية: تقدم اتجاهاً بحثياً جديداً وحلاً لمجال ذكاء الألعاب
- القيمة العملية: يمكن تطبيق الطريقة مباشرة على تصميم شخصيات غير اللاعب في تطوير الألعاب
- قابلية إعادة الإنتاج: توفر تفاصيل التنفيذ وقوالب الإشارات تفاصيل كافية لإعادة الإنتاج
- ألعاب RPG: مناسبة بشكل خاص لألعاب تحتاج إلى تفاعلات شخصيات غنية
- الألعاب التعليمية: يمكن استخدامها لإنشاء مساعدين تعليميين ذكيين ومدرسين افتراضيين
- المنصات الاجتماعية: التوسع إلى روبوتات الدردشة على منصات مثل Discord
- Kazi et al. (2024): نماذج اللغة الكبيرة كوكلاء مستخدمين لتقييم أنظمة الحوار الموجهة بالمهام
- Lee et al. (2025): AMAN: وكيل للإرشاد والمساعدة للاعبين الجدد في لعبة MMORPG
- Phillips et al. (2025): التفاعلات الموجهة بالأهداف في الألعاب باستخدام نماذج اللغة الكبيرة
- Park et al. (2023): الوكلاء التوليديون: محاكاة تفاعلية للسلوك البشري
- Sony AI (2025): تحدي الحوار الموجه بالشخصية الحس السليم 2025
تقدم هذه الورقة حلاً مبتكراً في مجال ذكاء الألعاب، حيث تحقق تقنية إلغاء تسطيح الشخصيات توازناً فعالاً بين أصالة شخصية غير اللاعب وقدرتها على تنفيذ المهام، مما يوفر مرجعاً مهماً لتصميم الشخصيات الذكية في الألعاب المستقبلية.