2025-11-24T17:52:17.819931

Deflanderization for Game Dialogue: Balancing Character Authenticity with Task Execution in LLM-based NPCs

Buakhaw, Kerdthaisong, Phenhiran et al.

The emergence of large language models (LLMs) has opened new opportunities for cre- ating dynamic non-player characters (NPCs) in gaming environments, enabling both func- tional task execution and persona-consistent dialogue generation. In this paper, we (Tu_Character_lab) report our participation in the Commonsense Persona-Grounded Dialogue Challenge (CPDC) 2025 Round 2, which eval- uates agents across three tracks: task-oriented dialogue, context-aware dialogue, and their integration. Our approach combines two complementary strategies: (i) lightweight prompting techniques in the API track, including a Deflanderization prompting method to suppress excessive role-play and improve task fidelity, and (ii) fine-tuned large models in the GPU track, leveraging Qwen3-14B with supervisedfinetuning (SFT) and Low-Rank Adaptation(LoRA). Our best submissions ranked 2nd on Task 1, 2nd on Task 3 (API track), and 4th on Task 3 (GPU track).

academic

إلغاء تسطيح الشخصيات في حوارات الألعاب: موازنة الأصالة الشخصية مع تنفيذ المهام في شخصيات غير لاعب قائمة على نماذج اللغة الكبيرة

المعلومات الأساسية

معرّف الورقة: 2510.13586
العنوان: Deflanderization for Game Dialogue: Balancing Character Authenticity with Task Execution in LLM-based NPCs
المؤلفون: باسين بواخاو، كون كيردثايسونج، فوري فينهيران، بيتيكورن خلايسامنيانج، سوباسات فوراثاماثورن، بيالت إتيتشايوونج، نوتشانون يونجساتيانشوت
التصنيفات: cs.CL (علم اللغة الحسابي)، cs.AI (الذكاء الاصطناعي)
تاريخ النشر: 26 أكتوبر 2025
رابط الورقة: https://arxiv.org/abs/2510.13586v3

الملخص

لقد فتحت نماذج اللغة الكبيرة (LLMs) فرصاً جديدة لإنشاء شخصيات غير لاعب (NPCs) ديناميكية في بيئات الألعاب، مما يمكّنها من تحقيق تنفيذ المهام الوظيفية وتوليد الحوار المتسق مع الشخصية في نفس الوقت. تقرر هذه الورقة عن مشاركة الفريق (TU_Character_lab) في الجولة الثانية من تحدي الحوار الموجه بالشخصية الحس السليم (CPDC) 2025، الذي يقيّم أداء الوكلاء عبر ثلاث مسارات: الحوار الموجه بالمهام، والحوار الحساس للسياق، وتكاملهما. يجمع منهج البحث بين استراتيجيتين متكاملتين: (1) تقنيات الإشارات الخفيفة في مسار API، بما في ذلك طريقة الإشارات المخصصة لإلغاء تسطيح الشخصيات التي تثبط الأداء الزائد للشخصية وتحسن دقة المهام؛ (2) ضبط النماذج الكبيرة في مسار GPU، مستفيداً من Qwen3-14B للضبط الدقيق الخاضع للإشراف (SFT) والتكيف منخفض الرتبة (LoRA). حققت أفضل عملية إرسال المرتبة الثانية في المهمة 1، والمرتبة الثانية في المهمة 3 (مسار API)، والمرتبة الرابعة في المهمة 3 (مسار GPU).

خلفية البحث والدافع

تعريف المشكلة

يعتمد تطوير الألعاب التقليدي بشكل كبير على المنطق المبرمج مسبقاً، حيث تتبع أحداث اللعبة والتفاعلات بين الشخصيات نصوصاً محددة مسبقاً وأشجار حوار. لتعزيز انغماس اللاعب وعمق السرد، بدأ المطورون في استخدام نماذج اللغة الكبيرة كمكون أساسي لشخصيات غير اللاعب، مما يمكّنها من إظهار سلوك شبيه بالإنسان والانخراط في حوار ديناميكي وحساس للسياق مع اللاعبين.

التحديات الأساسية

يواجه الحفاظ على اتساق وعمق الشخصيات الديناميكية في التفاعلات طويلة الأجل تحديات كبيرة، خاصة ظاهرة "تسطيح الشخصية" (Flanderization). يشير هذا المصطلح، المشتق من شخصية Ned Flanders في مسلسل "The Simpsons"، إلى تبسيط الشخصيات المعقدة تدريجياً بمرور الوقت، وتحولها في النهاية إلى صور كاريكاتورية يحددها سمة واحدة مبالغ فيها.

دافع البحث

موازنة الأصالة الشخصية مع تنفيذ المهام: غالباً ما تتجاهل شخصيات غير اللاعب المدفوعة بنماذج اللغة الكبيرة الصحة الوظيفية عند الأداء الزائد للشخصية
اتساق الحوار طويل الأجل: الحاجة إلى الحفاظ على تماسك الشخصية في الحوارات الممتدة
التكامل متعدد المهام: التحدي المتمثل في التعامل مع الحوار الموجه بالمهام واتساق الشخصية في نفس الوقت

المساهمات الأساسية

اقتراح تقنية الإشارات المخصصة لإلغاء تسطيح الشخصيات: تثبيط الأداء الزائد للشخصية وتحقيق التوازن بين توليد الحوار والقدرات الوظيفية
استكشاف الاستراتيجيات المتكاملة للإشارات الخفيفة والضبط الدقيق: استخدام هندسة الإشارات في مسار API والضبط الدقيق للنموذج في مسار GPU
بناء طريقة هجينة RAG + الذاكرة: دمج الجيل المعزز بالاسترجاع وآليات الذاكرة لتحسين أساس الحوار
تحقيق نتائج ممتازة في مسابقة CPDC 2025: الحصول على تصنيفات عالية في مهام متعددة، مما يتحقق من فعالية الطريقة

شرح الطريقة

تعريف المهام

تتضمن مسابقة CPDC ثلاث مهام:

المهمة 1: وكيل الحوار الموجه بالمهام - تقييم صحة استدعاء الوظيفة ودقة اختيار المعاملات
المهمة 2: وكيل الحوار الحساس للسياق - تقييم استجابة شخصية غير اللاعب واتساقها مع الشخصية المحددة
المهمة 3: دمج الحوار الحساس للسياق وتنفيذ المهام - دمج المهمة 1 والمهمة 2

طريقة مسار API

استراتيجية الإشارات المخصصة لإلغاء تسطيح الشخصيات

الفكرة الأساسية هي توجيه النموذج للاستجابة بشكل طبيعي وموجز، مع تجنب الأداء الزائد للشخصية. يشير تحليل الأخطاء إلى أن الإعدادات الأساسية غالباً ما تنتج مخرجات مفصلة جداً ومشتتة السياق، مع التركيز الزائد على الإعداد السردي بدلاً من الاستجابة المباشرة لطلب اللاعب.

التقنيات الرئيسية للإشارات:

D (إلغاء تسطيح الشخصيات): توجيه النموذج لتجنب الأداء الزائد للشخصية
F (التعلم من عدد قليل من الأمثلة): تضمين حواريْ عينة (تاجر ومستقبل النقابة)
CoT (سلسلة التفكير): توجيه النموذج للتفكير خطوة بخطوة
RW (إزالة إعداد العالم): إزالة معلومات الرؤية العالمية عند بناء إشارات الحوار
G (التوجيه): تقييد الاستجابة إلى 1-2 جملة قصيرة، باستخدام لغة بسيطة

تصميم خط الأنابيب

كما هو موضح في الشكل 2، يستخدم مسار API خط أنابيب من خمس خطوات:

تحضير إشارة استدعاء الوظيفة
توليد الوظيفة (استدعاء API #1)
تنفيذ الدالة
تحضير إشارة الحوار
توليد الحوار (استدعاء API #2)

طريقة مسار GPU

اختيار النموذج والضبط الدقيق

نظراً للقيود الحسابية (مثيل AWS g5e.2xlarge مع GPU L40s)، تم اختيار نموذج يمكن تشغيله في هذه البيئة، وتم اختيار Qwen3-14B في النهاية كنموذج رئيسي.

استراتيجية الضبط الدقيق:

الضبط الدقيق الخاضع للإشراف الكامل (SFT): إجراء ضبط دقيق خاضع للإشراف على بيانات الحوار الأولية والاصطناعية متعددة الأدوار
ضبط LoRA الدقيق: إجراء التكيف منخفض الرتبة (rank=32, α=32) على مجموعات بيانات الحوار واستدعاء الوظيفة

الطريقة الهجينة RAG + الذاكرة

وحدة الاسترجاع: استخدام Qwen3-Embedding-0.6B لترميز سجل الحوار بين اللاعب وشخصية غير اللاعب
مرحلة الحقن: حقن السياق المسترجع في مرحلتين: اختيار الوظيفة وصياغة الحوار
RAG + تحسين: إعادة كتابة مسودة الحوار لمطابقة نبرة وطول الاستجابات الذهبية ذات التشابه العالي

تعزيز البيانات

استخدام gemini-2.5-pro-preview لتوليد بيانات استدعاء الوظيفة و GPT-4o-mini لتوليد بيانات الحوار:

الحوار متعدد الأدوار: 2,800 نقطة بيانات
الاستدلال متعدد الأدوار: 2,800 نقطة بيانات (المهمة 2)
توليد استدعاء الوظيفة: 328 نقطة بيانات (المهمة 1)

إعداد التجربة

مجموعة البيانات

المهمة 1: train.json, sample.json - بيانات استدعاء الوظيفة
المهمة 2: train.json, sample.json - بيانات حوار الشخصية
يُظهر تحليل البيانات توزيعاً متوازناً لأدوار شخصيات غير اللاعب (20 تاجراً، 20 مستقبل نقابة)

مقاييس التقييم

مقاييس المهمة 1

المطابقة الدقيقة لاسم الوظيفة: دقة مطابقة اسم الوظيفة المتنبأ به مع المرجع بالكامل
المطابقة الدقيقة لمعاملات الوظيفة: دقة مطابقة جميع معاملات الوظيفة المتنبأ بها مع المرجع
BERTScore: قياس التشابه الدلالي باستخدام تضمينات BERT

مقاييس المهمة 2

BLEU-4: درجة تعتمد على دقة n-gram المعدلة
F1 على مستوى الكلمة: درجة F1 بناءً على مجموعة المفردات
CPDCscore: درجة مرجحة تجمع بين WordF1 و BLEU و USEScore و BERTScore

تفاصيل التنفيذ

مسار API: GPT-4o-mini، بحد أقصى استدعاءات API 2 لكل دور، حد إدخال 2000 رمز، حد إخراج 200 رمز
مسار GPU: إطار عمل vLLM، dtype='bfloat16'، gpu_memory_utilization=0.8

نتائج التجربة

النتائج الرئيسية لمسار API

المهمة	الطريقة	CPDCscore
المهمة 1	ZeroShot	0.422
المهمة 1	أفضل طريقة (D+RW)	0.586
المهمة 3	ZeroShot	0.510
المهمة 3	أفضل طريقة	0.601

الاكتشافات الرئيسية:

تأثير إلغاء تسطيح الشخصيات كبير: حققت استراتيجية D تحسناً بمقدار +0.013 في CPDCscore مقارنة بخط الأساس بدون عينات في المهمة 3
الإشارات بعدد قليل من الأمثلة توفر تحسناً إضافياً: أضافت الأمثلة القليلة (F) تحسينات بمقدار +0.092 و +0.133 على التوالي في المهمة 1
الفوائد المحدودة للإشارات المعقدة: استراتيجيات معقدة مثل CoT والاستجابات الموجهة توفر فوائد هامشية أو غير متسقة

النتائج الرئيسية لمسار GPU

النموذج	الطريقة	درجة المهمة 1	درجة المهمة 2	الدرجة الإجمالية
LLaMA3.1-8B	baseline	0.439	0.333	0.386
Qwen3-14B	SFT + LoRA	0.590	0.606	0.598

الاكتشافات الرئيسية:

حجم النموذج والضبط الدقيق حاسمان: حقق Qwen3-14B مع SFT و LoRA درجة إجمالية بقيمة 0.598، احتل المرتبة الرابعة
الاسترجاع المعزز يوفر تحسناً معتدلاً: رفعت طريقة RAG أداء Qwen3-8B إلى 0.522
المقايضة بين المهام: حققت RAG+Refine أفضل أداء في المهمة 1 لكن انخفضت الأداء في المهمة 2، بينما حققت SFT-LoRA توازناً أفضل

تجارب الاستبدال

تم التحقق من مساهمة كل مكون من خلال تجارب استبدال منهجية:

إلغاء تسطيح الشخصيات مقابل الإشارات القياسية
التعلم من عدد قليل من الأمثلة مقابل التعلم بدون عينات
مقارنة استراتيجيات الاسترجاع المختلفة
طرق SFT مقابل LoRA مقابل الطرق المدمجة

الأعمال ذات الصلة

وكلاء الحوار الموجهة للألعاب

الأنظمة الموجهة بالمهام: مثل (Kazi et al., 2024) التي تقيّم تأثير تخطيط الوكيل والمحاذاة الهدفية
مساعدو الألعاب: (Lee et al., 2025) تطوير مساعدين متخصصين للألعاب لمساعدة اللاعبين الجدد
الأطر متعددة الوكلاء: (Phillips et al., 2025) استخدام وكلاء الحوار ووكلاء التحقق من الأهداف

قدرات استدعاء الأدوات

معمارية استدعاء الوظيفة: إطار عمل متعدد الخطوات يتضمن مكونات التنفيذ والإدراك والتحقق والتحكم والاسترجاع
معايير التقييم: يقدم τ2-Bench بيئة ثنائية التحكم لتقييم قدرات تنسيق الوكلاء

نماذج لغة كبيرة تؤدي أدوار الشخصيات

التخصيص للمستخدم: معايير مثل LaMP تقيّم توليد النصوص المخصصة
التكيف مع البيئة: أنظمة متعددة الوكلاء مثل ChatDev و MetaGPT التي تؤدي أدوار الشخصيات

الخلاصة والمناقشة

الاستنتاجات الرئيسية

استراتيجية إلغاء تسطيح الشخصيات الخفيفة فعالة: تحسن الأداء بشكل كبير في إعدادات API من خلال تثبيط الأداء الزائد للشخصية
الضبط الدقيق للنماذج الكبيرة يتفوق في مسار GPU: حقق Qwen3-14B مع SFT و LoRA أفضل النتائج
التوازن بين المهام هو التحدي الرئيسي: قد تؤدي الطرق التي تحسن دقة الشخصية أحياناً إلى إضعاف صحة المعاملات

القيود

قيود الموارد الحسابية: يقتصر مسار GPU على ميزانية ذاكرة L40s، مما يحد من استخدام النماذج الأكبر
حجم مجموعة الاسترجاع: تقتصر طريقة RAG على حجم وجودة مجموعة الاسترجاع
قيود مقاييس التقييم: لا تعكس مقاييس التقييم التلقائية بشكل كامل جودة نظام الحوار، وتتطلب تقييماً بشرياً

الاتجاهات المستقبلية

استكشاف الاستراتيجيات الهجينة: توحيد الإشارات الخفيفة والضبط الدقيق المعزز بالاسترجاع
الاتساق طويل الأجل: طرق للحفاظ على اتساق الشخصية في الحوارات الأطول
التوسع متعدد الأنماط: أنظمة شخصيات غير لاعب متعددة الأنماط تدمج المعلومات البصرية والصوتية

التقييم المتعمق

المميزات

تعريف المشكلة واضح: يقدم مفهوم Flanderization طريقة جديدة وتصف بدقة المشكلة الرئيسية في أداء الشخصية في نماذج اللغة الكبيرة
قوة التكامل بين الطرق: تستخدم مسارات API و GPU استراتيجيات مختلفة لكن متكاملة، مما يعكس رؤية تقنية شاملة
التجارب الشاملة: تتحقق تجارب الاستبدال المنهجية والتقييم متعدد الأبعاد من فعالية الطريقة
القيمة العملية العالية: تحقيق نتائج ممتازة في المسابقة الفعلية يثبت الجدوى العملية للطريقة

أوجه القصور

نقص التحليل النظري: يفتقر إلى التحليل النظري العميق لظاهرة Flanderization
عدم التحقق من القابلية للتعميم: تم التحقق من الطريقة بشكل أساسي على مجموعة بيانات CPDC، مع نقص التحقق من القابلية للتعميم في سيناريوهات ألعاب أخرى
غياب تحليل الكفاءة الحسابية: لم يتم تحليل تكاليف الحساب وكفاءة الاستدلال للطرق المختلفة بالتفصيل
نقص تقييم تجربة المستخدم: يفتقر إلى تقييم التجربة الذاتية للاعبين الحقيقيين

التأثير

المساهمة الأكاديمية: تقدم اتجاهاً بحثياً جديداً وحلاً لمجال ذكاء الألعاب
القيمة العملية: يمكن تطبيق الطريقة مباشرة على تصميم شخصيات غير اللاعب في تطوير الألعاب
قابلية إعادة الإنتاج: توفر تفاصيل التنفيذ وقوالب الإشارات تفاصيل كافية لإعادة الإنتاج

السيناريوهات المناسبة

ألعاب RPG: مناسبة بشكل خاص لألعاب تحتاج إلى تفاعلات شخصيات غنية
الألعاب التعليمية: يمكن استخدامها لإنشاء مساعدين تعليميين ذكيين ومدرسين افتراضيين
المنصات الاجتماعية: التوسع إلى روبوتات الدردشة على منصات مثل Discord

المراجع

Kazi et al. (2024): نماذج اللغة الكبيرة كوكلاء مستخدمين لتقييم أنظمة الحوار الموجهة بالمهام
Lee et al. (2025): AMAN: وكيل للإرشاد والمساعدة للاعبين الجدد في لعبة MMORPG
Phillips et al. (2025): التفاعلات الموجهة بالأهداف في الألعاب باستخدام نماذج اللغة الكبيرة
Park et al. (2023): الوكلاء التوليديون: محاكاة تفاعلية للسلوك البشري
Sony AI (2025): تحدي الحوار الموجه بالشخصية الحس السليم 2025

تقدم هذه الورقة حلاً مبتكراً في مجال ذكاء الألعاب، حيث تحقق تقنية إلغاء تسطيح الشخصيات توازناً فعالاً بين أصالة شخصية غير اللاعب وقدرتها على تنفيذ المهام، مما يوفر مرجعاً مهماً لتصميم الشخصيات الذكية في الألعاب المستقبلية.