The emergence of large language models (LLMs) has opened new opportunities for cre- ating dynamic non-player characters (NPCs) in gaming environments, enabling both func- tional task execution and persona-consistent dialogue generation. In this paper, we (Tu_Character_lab) report our participation in the Commonsense Persona-Grounded Dialogue Challenge (CPDC) 2025 Round 2, which eval- uates agents across three tracks: task-oriented dialogue, context-aware dialogue, and their integration. Our approach combines two complementary strategies: (i) lightweight prompting techniques in the API track, including a Deflanderization prompting method to suppress excessive role-play and improve task fidelity, and (ii) fine-tuned large models in the GPU track, leveraging Qwen3-14B with supervisedfinetuning (SFT) and Low-Rank Adaptation(LoRA). Our best submissions ranked 2nd on Task 1, 2nd on Task 3 (API track), and 4th on Task 3 (GPU track).
academicDeflanderization for Game Dialogue: Balancing Character Authenticity with Task Execution in LLM-based NPCs
- 论文ID: 2510.13586
- 标题: Deflanderization for Game Dialogue: Balancing Character Authenticity with Task Execution in LLM-based NPCs
- 作者: Pasin Buakhaw, Kun Kerdthaisong, Phuree Phenhiran, Pitikorn Khlaisamniang, Supasate Vorathammathorn, Piyalitt Ittichaiwong, Nutchanon Yongsatianchot
- 分类: cs.CL (计算语言学), cs.AI (人工智能)
- 发表时间: 2025年10月26日
- 论文链接: https://arxiv.org/abs/2510.13586v3
大型语言模型(LLMs)的出现为游戏环境中创建动态非玩家角色(NPCs)开辟了新机遇,使其能够同时实现功能性任务执行和角色一致性对话生成。本文报告了团队(TU_Character_lab)参与常识角色导向对话挑战赛(CPDC) 2025第二轮的情况,该比赛评估智能体在三个赛道上的表现:任务导向对话、上下文感知对话及其集成。研究方法结合了两种互补策略:(1)API赛道中的轻量级提示技术,包括抑制过度角色扮演并提高任务保真度的去弗兰德化提示方法;(2)GPU赛道中的微调大模型,利用Qwen3-14B进行监督微调(SFT)和低秩适应(LoRA)。最佳提交在任务1排名第2,任务3(API赛道)排名第2,任务3(GPU赛道)排名第4。
传统游戏开发严重依赖预编程逻辑,游戏内事件和角色互动遵循预设脚本和对话树。为了增强玩家沉浸感和叙事深度,开发者开始将LLMs作为NPCs的核心组件,使其能够展现类人行为并与玩家进行动态、上下文感知的对话。
在长期互动中保持动态角色的一致性和深度面临重大挑战,特别是"弗兰德化"(Flanderization)现象。该术语源于《辛普森一家》中的角色Ned Flanders,指复杂角色随时间逐渐简化,最终成为由单一夸张特征定义的漫画化形象。
- 平衡角色真实性与任务执行:现有LLM驱动的NPCs在过度角色扮演时往往忽视功能正确性
- 长期对话一致性:需要在扩展对话中维持角色连贯性
- 多任务集成:同时处理任务导向对话和角色一致性对话的挑战
- 提出了Deflanderization提示技术:抑制过度角色扮演,在对话生成和功能生成能力之间取得平衡
- 探索了轻量级提示与微调的互补策略:API赛道使用提示工程,GPU赛道使用模型微调
- 构建了混合RAG+Memory方法:结合检索增强生成和记忆机制提升对话基础
- 在CPDC 2025竞赛中取得优异成绩:多个任务获得前列排名,验证了方法有效性
CPDC竞赛包含三个任务:
- 任务1:任务导向对话智能体 - 评估功能调用正确性和参数选择准确性
- 任务2:上下文感知对话智能体 - 评估NPC响应与指定角色的一致性
- 任务3:集成上下文对话和任务执行 - 结合任务1和任务2
核心思想是指导模型自然简洁地响应,避免夸张的角色扮演。错误分析表明基线设置经常产生过于详细和上下文分散的输出,过度关注叙事设定而非直接回应玩家请求。
主要提示技术:
- D (Deflanderization):提示模型避免过度角色扮演
- F (Fewshot):包含两个样本对话(商人和公会接待员)
- CoT (Chain of Thought):指导模型逐步思考
- RW (Remove world setting):构建对话提示时移除世界观信息
- G (Guide):限制回应为1-2个短句,使用简单语言
如图2所示,API赛道采用五步管道:
- 准备功能调用提示
- 功能生成(API调用#1)
- 执行函数
- 准备对话提示
- 对话生成(API调用#2)
由于计算限制(AWS g5e.2xlarge实例,L40s GPU),选择了能在该环境下运行的模型,最终选定Qwen3-14B作为主要模型。
微调策略:
- 全量SFT:在初始和合成多轮对话数据上进行监督微调
- LoRA微调:在对话和功能调用数据集上进行低秩适应(rank=32, α=32)
- 检索模块:使用Qwen3-Embedding-0.6B编码玩家和NPC对话历史
- 注入阶段:在功能选择和对话起草两个阶段注入检索上下文
- RAG+Refine:重写生成草稿以匹配高相似度黄金响应的语调和长度
使用gemini-2.5-pro-preview生成功能调用数据,GPT-4o-mini生成对话数据:
- 多轮对话:2,800个数据点
- 多轮推理:2,800个数据点(任务2)
- 功能调用生成:328个数据点(任务1)
- 任务1:train.json, sample.json - 功能调用数据
- 任务2:train.json, sample.json - 角色对话数据
- 数据分析显示平衡的NPC角色分布(20个商人,20个公会接待员)
- 功能名称精确匹配:预测功能名与参考完全匹配的准确率
- 功能参数精确匹配:所有预测参数与参考完全匹配的准确率
- BERTScore:使用BERT嵌入衡量语义相似度
- BLEU-4:基于修正n-gram精度的评分
- 词级F1:基于词汇集合的F1分数
- CPDCscore:综合WordF1、BLEU、USEScore和BERTScore的加权分数
- API赛道:GPT-4o-mini,每轮最多2次API调用,输入限制2000tokens,输出限制200tokens
- GPU赛道:vLLM框架部署,dtype='bfloat16',gpu_memory_utilization=0.8
| 任务 | 方法 | CPDCscore |
|---|
| 任务1 | ZeroShot | 0.422 |
| 任务1 | 最佳方法(D+RW) | 0.586 |
| 任务3 | ZeroShot | 0.510 |
| 任务3 | 最佳方法 | 0.601 |
关键发现:
- Deflanderization效果显著:D策略相比零样本基线在任务3上获得+0.013的CPDCscore提升
- 样本提示进一步提升:添加少样本示例(F)在任务1上分别获得+0.092和+0.133的改进
- 复杂提示收益有限:CoT、引导响应等复杂策略收益边际或不一致
| 模型 | 方法 | 任务1得分 | 任务2得分 | 总分 |
|---|
| LLaMA3.1-8B | baseline | 0.439 | 0.333 | 0.386 |
| Qwen3-14B | SFT + LoRA | 0.590 | 0.606 | 0.598 |
关键发现:
- 模型规模和微调至关重要:Qwen3-14B配合SFT和LoRA达到0.598总分,排名第4
- 检索增强提供适度改进:RAG方法将Qwen3-8B性能提升至0.522
- 任务间权衡:RAG+Refine在任务1表现最佳但任务2性能下降,LoRA-SFT实现更好平衡
通过系统性消融实验验证了各组件贡献:
- Deflanderization vs 标准提示
- 少样本学习 vs 零样本学习
- 不同检索策略对比
- SFT vs LoRA vs 组合方法
- 任务导向系统:如(Kazi et al., 2024)评估智能体规划效果和目标对齐
- 游戏助手:(Lee et al., 2025)开发专门的游戏助手帮助新手玩家
- 多智能体框架:(Phillips et al., 2025)使用对话智能体和目标验证智能体
- 功能调用架构:多步框架包含执行、感知、验证、控制和检索组件
- 评估基准:τ2-Bench引入双控制环境评估智能体协调能力
- 用户个性化:LaMP等基准评估个性化文本生成
- 环境适应:ChatDev、MetaGPT等多智能体系统中的角色扮演
- 轻量级Deflanderization策略有效:在API设置中通过抑制过度角色扮演显著提升性能
- 微调大模型在GPU赛道占优:Qwen3-14B配合SFT和LoRA取得最佳效果
- 任务间平衡是关键挑战:改善角色扮演保真度的方法有时会损害参数正确性
- 计算资源限制:GPU赛道受限于L40s内存预算,限制了更大模型的使用
- 检索语料规模:RAG方法受限于检索语料的规模和质量
- 评估指标局限:自动评估指标无法完全反映对话系统质量,需要人工评估
- 混合策略探索:统一轻量级提示与检索增强微调的混合策略
- 长期一致性:在更长对话中维持角色一致性的方法
- 多模态扩展:结合视觉和音频信息的多模态NPC系统
- 问题定义清晰:Flanderization概念引入新颖,准确描述了LLM角色扮演中的关键问题
- 方法互补性强:API和GPU赛道采用不同但互补的策略,展现了全面的技术视野
- 实验充分:系统性的消融实验和多维度评估验证了方法有效性
- 实用价值高:在实际竞赛中取得优异成绩,证明了方法的实用性
- 理论分析不足:缺乏对Deflanderization现象的深层理论分析
- 泛化性未验证:方法主要在CPDC数据集上验证,缺乏在其他游戏场景的泛化验证
- 计算效率分析缺失:未详细分析不同方法的计算开销和推理效率
- 用户体验评估不足:缺乏真实玩家的主观体验评估
- 学术贡献:为游戏AI领域引入了新的研究方向和解决方案
- 实用价值:方法可直接应用于游戏开发中的NPC设计
- 可复现性:提供了详细的实现细节和提示模板,便于复现
- RPG游戏:特别适合需要丰富角色互动的角色扮演游戏
- 教育游戏:可用于创建智能教学助手和虚拟导师
- 社交平台:扩展至Discord等社交平台的聊天机器人
- Kazi et al. (2024): Large language models as user-agents for evaluating task-oriented-dialogue systems
- Lee et al. (2025): AMAN: Agent for mentoring and assisting newbies in MMORPG
- Phillips et al. (2025): Goal-oriented interactions in games using llms
- Park et al. (2023): Generative agents: Interactive simulacra of human behavior
- Sony AI (2025): The commonsense persona-grounded dialogue challenge 2025
本论文在游戏AI领域提出了创新性的解决方案,通过Deflanderization技术有效平衡了NPC的角色真实性与任务执行能力,为未来游戏中智能角色的设计提供了重要参考。