2025-11-24T17:52:17.819931

Deflanderization for Game Dialogue: Balancing Character Authenticity with Task Execution in LLM-based NPCs

Buakhaw, Kerdthaisong, Phenhiran et al.
The emergence of large language models (LLMs) has opened new opportunities for cre- ating dynamic non-player characters (NPCs) in gaming environments, enabling both func- tional task execution and persona-consistent dialogue generation. In this paper, we (Tu_Character_lab) report our participation in the Commonsense Persona-Grounded Dialogue Challenge (CPDC) 2025 Round 2, which eval- uates agents across three tracks: task-oriented dialogue, context-aware dialogue, and their integration. Our approach combines two complementary strategies: (i) lightweight prompting techniques in the API track, including a Deflanderization prompting method to suppress excessive role-play and improve task fidelity, and (ii) fine-tuned large models in the GPU track, leveraging Qwen3-14B with supervisedfinetuning (SFT) and Low-Rank Adaptation(LoRA). Our best submissions ranked 2nd on Task 1, 2nd on Task 3 (API track), and 4th on Task 3 (GPU track).
academic

Deflanderization for Game Dialogue: Balancing Character Authenticity with Task Execution in LLM-based NPCs

基本信息

  • 论文ID: 2510.13586
  • 标题: Deflanderization for Game Dialogue: Balancing Character Authenticity with Task Execution in LLM-based NPCs
  • 作者: Pasin Buakhaw, Kun Kerdthaisong, Phuree Phenhiran, Pitikorn Khlaisamniang, Supasate Vorathammathorn, Piyalitt Ittichaiwong, Nutchanon Yongsatianchot
  • 分类: cs.CL (计算语言学), cs.AI (人工智能)
  • 发表时间: 2025年10月26日
  • 论文链接: https://arxiv.org/abs/2510.13586v3

摘要

大型语言模型(LLMs)的出现为游戏环境中创建动态非玩家角色(NPCs)开辟了新机遇,使其能够同时实现功能性任务执行和角色一致性对话生成。本文报告了团队(TU_Character_lab)参与常识角色导向对话挑战赛(CPDC) 2025第二轮的情况,该比赛评估智能体在三个赛道上的表现:任务导向对话、上下文感知对话及其集成。研究方法结合了两种互补策略:(1)API赛道中的轻量级提示技术,包括抑制过度角色扮演并提高任务保真度的去弗兰德化提示方法;(2)GPU赛道中的微调大模型,利用Qwen3-14B进行监督微调(SFT)和低秩适应(LoRA)。最佳提交在任务1排名第2,任务3(API赛道)排名第2,任务3(GPU赛道)排名第4。

研究背景与动机

问题定义

传统游戏开发严重依赖预编程逻辑,游戏内事件和角色互动遵循预设脚本和对话树。为了增强玩家沉浸感和叙事深度,开发者开始将LLMs作为NPCs的核心组件,使其能够展现类人行为并与玩家进行动态、上下文感知的对话。

核心挑战

在长期互动中保持动态角色的一致性和深度面临重大挑战,特别是"弗兰德化"(Flanderization)现象。该术语源于《辛普森一家》中的角色Ned Flanders,指复杂角色随时间逐渐简化,最终成为由单一夸张特征定义的漫画化形象。

研究动机

  1. 平衡角色真实性与任务执行:现有LLM驱动的NPCs在过度角色扮演时往往忽视功能正确性
  2. 长期对话一致性:需要在扩展对话中维持角色连贯性
  3. 多任务集成:同时处理任务导向对话和角色一致性对话的挑战

核心贡献

  1. 提出了Deflanderization提示技术:抑制过度角色扮演,在对话生成和功能生成能力之间取得平衡
  2. 探索了轻量级提示与微调的互补策略:API赛道使用提示工程,GPU赛道使用模型微调
  3. 构建了混合RAG+Memory方法:结合检索增强生成和记忆机制提升对话基础
  4. 在CPDC 2025竞赛中取得优异成绩:多个任务获得前列排名,验证了方法有效性

方法详解

任务定义

CPDC竞赛包含三个任务:

  • 任务1:任务导向对话智能体 - 评估功能调用正确性和参数选择准确性
  • 任务2:上下文感知对话智能体 - 评估NPC响应与指定角色的一致性
  • 任务3:集成上下文对话和任务执行 - 结合任务1和任务2

API赛道方法

Deflanderization提示策略

核心思想是指导模型自然简洁地响应,避免夸张的角色扮演。错误分析表明基线设置经常产生过于详细和上下文分散的输出,过度关注叙事设定而非直接回应玩家请求。

主要提示技术

  • D (Deflanderization):提示模型避免过度角色扮演
  • F (Fewshot):包含两个样本对话(商人和公会接待员)
  • CoT (Chain of Thought):指导模型逐步思考
  • RW (Remove world setting):构建对话提示时移除世界观信息
  • G (Guide):限制回应为1-2个短句,使用简单语言

管道设计

如图2所示,API赛道采用五步管道:

  1. 准备功能调用提示
  2. 功能生成(API调用#1)
  3. 执行函数
  4. 准备对话提示
  5. 对话生成(API调用#2)

GPU赛道方法

模型选择与微调

由于计算限制(AWS g5e.2xlarge实例,L40s GPU),选择了能在该环境下运行的模型,最终选定Qwen3-14B作为主要模型。

微调策略

  1. 全量SFT:在初始和合成多轮对话数据上进行监督微调
  2. LoRA微调:在对话和功能调用数据集上进行低秩适应(rank=32, α=32)

混合RAG+Memory方法

  • 检索模块:使用Qwen3-Embedding-0.6B编码玩家和NPC对话历史
  • 注入阶段:在功能选择和对话起草两个阶段注入检索上下文
  • RAG+Refine:重写生成草稿以匹配高相似度黄金响应的语调和长度

数据增强

使用gemini-2.5-pro-preview生成功能调用数据,GPT-4o-mini生成对话数据:

  • 多轮对话:2,800个数据点
  • 多轮推理:2,800个数据点(任务2)
  • 功能调用生成:328个数据点(任务1)

实验设置

数据集

  • 任务1:train.json, sample.json - 功能调用数据
  • 任务2:train.json, sample.json - 角色对话数据
  • 数据分析显示平衡的NPC角色分布(20个商人,20个公会接待员)

评价指标

任务1指标

  • 功能名称精确匹配:预测功能名与参考完全匹配的准确率
  • 功能参数精确匹配:所有预测参数与参考完全匹配的准确率
  • BERTScore:使用BERT嵌入衡量语义相似度

任务2指标

  • BLEU-4:基于修正n-gram精度的评分
  • 词级F1:基于词汇集合的F1分数
  • CPDCscore:综合WordF1、BLEU、USEScore和BERTScore的加权分数

实现细节

  • API赛道:GPT-4o-mini,每轮最多2次API调用,输入限制2000tokens,输出限制200tokens
  • GPU赛道:vLLM框架部署,dtype='bfloat16',gpu_memory_utilization=0.8

实验结果

API赛道主要结果

任务方法CPDCscore
任务1ZeroShot0.422
任务1最佳方法(D+RW)0.586
任务3ZeroShot0.510
任务3最佳方法0.601

关键发现

  1. Deflanderization效果显著:D策略相比零样本基线在任务3上获得+0.013的CPDCscore提升
  2. 样本提示进一步提升:添加少样本示例(F)在任务1上分别获得+0.092和+0.133的改进
  3. 复杂提示收益有限:CoT、引导响应等复杂策略收益边际或不一致

GPU赛道主要结果

模型方法任务1得分任务2得分总分
LLaMA3.1-8Bbaseline0.4390.3330.386
Qwen3-14BSFT + LoRA0.5900.6060.598

关键发现

  1. 模型规模和微调至关重要:Qwen3-14B配合SFT和LoRA达到0.598总分,排名第4
  2. 检索增强提供适度改进:RAG方法将Qwen3-8B性能提升至0.522
  3. 任务间权衡:RAG+Refine在任务1表现最佳但任务2性能下降,LoRA-SFT实现更好平衡

消融实验

通过系统性消融实验验证了各组件贡献:

  • Deflanderization vs 标准提示
  • 少样本学习 vs 零样本学习
  • 不同检索策略对比
  • SFT vs LoRA vs 组合方法

相关工作

游戏导向对话智能体

  • 任务导向系统:如(Kazi et al., 2024)评估智能体规划效果和目标对齐
  • 游戏助手:(Lee et al., 2025)开发专门的游戏助手帮助新手玩家
  • 多智能体框架:(Phillips et al., 2025)使用对话智能体和目标验证智能体

工具调用能力

  • 功能调用架构:多步框架包含执行、感知、验证、控制和检索组件
  • 评估基准:τ2-Bench引入双控制环境评估智能体协调能力

角色扮演LLMs

  • 用户个性化:LaMP等基准评估个性化文本生成
  • 环境适应:ChatDev、MetaGPT等多智能体系统中的角色扮演

结论与讨论

主要结论

  1. 轻量级Deflanderization策略有效:在API设置中通过抑制过度角色扮演显著提升性能
  2. 微调大模型在GPU赛道占优:Qwen3-14B配合SFT和LoRA取得最佳效果
  3. 任务间平衡是关键挑战:改善角色扮演保真度的方法有时会损害参数正确性

局限性

  1. 计算资源限制:GPU赛道受限于L40s内存预算,限制了更大模型的使用
  2. 检索语料规模:RAG方法受限于检索语料的规模和质量
  3. 评估指标局限:自动评估指标无法完全反映对话系统质量,需要人工评估

未来方向

  1. 混合策略探索:统一轻量级提示与检索增强微调的混合策略
  2. 长期一致性:在更长对话中维持角色一致性的方法
  3. 多模态扩展:结合视觉和音频信息的多模态NPC系统

深度评价

优点

  1. 问题定义清晰:Flanderization概念引入新颖,准确描述了LLM角色扮演中的关键问题
  2. 方法互补性强:API和GPU赛道采用不同但互补的策略,展现了全面的技术视野
  3. 实验充分:系统性的消融实验和多维度评估验证了方法有效性
  4. 实用价值高:在实际竞赛中取得优异成绩,证明了方法的实用性

不足

  1. 理论分析不足:缺乏对Deflanderization现象的深层理论分析
  2. 泛化性未验证:方法主要在CPDC数据集上验证,缺乏在其他游戏场景的泛化验证
  3. 计算效率分析缺失:未详细分析不同方法的计算开销和推理效率
  4. 用户体验评估不足:缺乏真实玩家的主观体验评估

影响力

  1. 学术贡献:为游戏AI领域引入了新的研究方向和解决方案
  2. 实用价值:方法可直接应用于游戏开发中的NPC设计
  3. 可复现性:提供了详细的实现细节和提示模板,便于复现

适用场景

  1. RPG游戏:特别适合需要丰富角色互动的角色扮演游戏
  2. 教育游戏:可用于创建智能教学助手和虚拟导师
  3. 社交平台:扩展至Discord等社交平台的聊天机器人

参考文献

  1. Kazi et al. (2024): Large language models as user-agents for evaluating task-oriented-dialogue systems
  2. Lee et al. (2025): AMAN: Agent for mentoring and assisting newbies in MMORPG
  3. Phillips et al. (2025): Goal-oriented interactions in games using llms
  4. Park et al. (2023): Generative agents: Interactive simulacra of human behavior
  5. Sony AI (2025): The commonsense persona-grounded dialogue challenge 2025

本论文在游戏AI领域提出了创新性的解决方案,通过Deflanderization技术有效平衡了NPC的角色真实性与任务执行能力,为未来游戏中智能角色的设计提供了重要参考。