2025-11-24T17:52:17.819931

Deflanderization for Game Dialogue: Balancing Character Authenticity with Task Execution in LLM-based NPCs

Buakhaw, Kerdthaisong, Phenhiran et al.

The emergence of large language models (LLMs) has opened new opportunities for cre- ating dynamic non-player characters (NPCs) in gaming environments, enabling both func- tional task execution and persona-consistent dialogue generation. In this paper, we (Tu_Character_lab) report our participation in the Commonsense Persona-Grounded Dialogue Challenge (CPDC) 2025 Round 2, which eval- uates agents across three tracks: task-oriented dialogue, context-aware dialogue, and their integration. Our approach combines two complementary strategies: (i) lightweight prompting techniques in the API track, including a Deflanderization prompting method to suppress excessive role-play and improve task fidelity, and (ii) fine-tuned large models in the GPU track, leveraging Qwen3-14B with supervisedfinetuning (SFT) and Low-Rank Adaptation(LoRA). Our best submissions ranked 2nd on Task 1, 2nd on Task 3 (API track), and 4th on Task 3 (GPU track).

academic

Deflanderization for Game Dialogue: Balancing Character Authenticity with Task Execution in LLM-based NPCs

基本信息

论文ID: 2510.13586
标题: Deflanderization for Game Dialogue: Balancing Character Authenticity with Task Execution in LLM-based NPCs
作者: Pasin Buakhaw, Kun Kerdthaisong, Phuree Phenhiran, Pitikorn Khlaisamniang, Supasate Vorathammathorn, Piyalitt Ittichaiwong, Nutchanon Yongsatianchot
分类: cs.CL (计算语言学), cs.AI (人工智能)
发表时间: 2025年10月26日
论文链接: https://arxiv.org/abs/2510.13586v3

摘要

大型语言模型(LLMs)的出现为游戏环境中创建动态非玩家角色(NPCs)开辟了新机遇，使其能够同时实现功能性任务执行和角色一致性对话生成。本文报告了团队(TU_Character_lab)参与常识角色导向对话挑战赛(CPDC) 2025第二轮的情况，该比赛评估智能体在三个赛道上的表现：任务导向对话、上下文感知对话及其集成。研究方法结合了两种互补策略：(1)API赛道中的轻量级提示技术，包括抑制过度角色扮演并提高任务保真度的去弗兰德化提示方法；(2)GPU赛道中的微调大模型，利用Qwen3-14B进行监督微调(SFT)和低秩适应(LoRA)。最佳提交在任务1排名第2，任务3(API赛道)排名第2，任务3(GPU赛道)排名第4。

平衡角色真实性与任务执行：现有LLM驱动的NPCs在过度角色扮演时往往忽视功能正确性
长期对话一致性：需要在扩展对话中维持角色连贯性
多任务集成：同时处理任务导向对话和角色一致性对话的挑战

核心贡献

提出了Deflanderization提示技术：抑制过度角色扮演，在对话生成和功能生成能力之间取得平衡
探索了轻量级提示与微调的互补策略：API赛道使用提示工程，GPU赛道使用模型微调
构建了混合RAG+Memory方法：结合检索增强生成和记忆机制提升对话基础
在CPDC 2025竞赛中取得优异成绩：多个任务获得前列排名，验证了方法有效性

方法详解

任务定义

CPDC竞赛包含三个任务：

任务1：任务导向对话智能体 - 评估功能调用正确性和参数选择准确性
任务2：上下文感知对话智能体 - 评估NPC响应与指定角色的一致性
任务3：集成上下文对话和任务执行 - 结合任务1和任务2

API赛道方法

Deflanderization提示策略

核心思想是指导模型自然简洁地响应，避免夸张的角色扮演。错误分析表明基线设置经常产生过于详细和上下文分散的输出，过度关注叙事设定而非直接回应玩家请求。

主要提示技术：

D (Deflanderization)：提示模型避免过度角色扮演
F (Fewshot)：包含两个样本对话(商人和公会接待员)
CoT (Chain of Thought)：指导模型逐步思考
RW (Remove world setting)：构建对话提示时移除世界观信息
G (Guide)：限制回应为1-2个短句，使用简单语言

管道设计

如图2所示，API赛道采用五步管道：

准备功能调用提示
功能生成(API调用#1)
执行函数
准备对话提示
对话生成(API调用#2)

GPU赛道方法

模型选择与微调

由于计算限制(AWS g5e.2xlarge实例，L40s GPU)，选择了能在该环境下运行的模型，最终选定Qwen3-14B作为主要模型。

微调策略：

全量SFT：在初始和合成多轮对话数据上进行监督微调
LoRA微调：在对话和功能调用数据集上进行低秩适应(rank=32, α=32)

混合RAG+Memory方法

检索模块：使用Qwen3-Embedding-0.6B编码玩家和NPC对话历史
注入阶段：在功能选择和对话起草两个阶段注入检索上下文
RAG+Refine：重写生成草稿以匹配高相似度黄金响应的语调和长度

数据增强

使用gemini-2.5-pro-preview生成功能调用数据，GPT-4o-mini生成对话数据：

多轮对话：2,800个数据点
多轮推理：2,800个数据点(任务2)
功能调用生成：328个数据点(任务1)

实验设置

数据集

任务1：train.json, sample.json - 功能调用数据
任务2：train.json, sample.json - 角色对话数据
数据分析显示平衡的NPC角色分布(20个商人，20个公会接待员)

评价指标

任务1指标

功能名称精确匹配：预测功能名与参考完全匹配的准确率
功能参数精确匹配：所有预测参数与参考完全匹配的准确率
BERTScore：使用BERT嵌入衡量语义相似度

任务2指标

BLEU-4：基于修正n-gram精度的评分
词级F1：基于词汇集合的F1分数
CPDCscore：综合WordF1、BLEU、USEScore和BERTScore的加权分数

实现细节

API赛道：GPT-4o-mini，每轮最多2次API调用，输入限制2000tokens，输出限制200tokens
GPU赛道：vLLM框架部署，dtype='bfloat16'，gpu_memory_utilization=0.8

实验结果

API赛道主要结果

任务	方法	CPDCscore
任务1	ZeroShot	0.422
任务1	最佳方法(D+RW)	0.586
任务3	ZeroShot	0.510
任务3	最佳方法	0.601

关键发现：

Deflanderization效果显著：D策略相比零样本基线在任务3上获得+0.013的CPDCscore提升
样本提示进一步提升：添加少样本示例(F)在任务1上分别获得+0.092和+0.133的改进
复杂提示收益有限：CoT、引导响应等复杂策略收益边际或不一致

GPU赛道主要结果

模型	方法	任务1得分	任务2得分	总分
LLaMA3.1-8B	baseline	0.439	0.333	0.386
Qwen3-14B	SFT + LoRA	0.590	0.606	0.598

关键发现：

模型规模和微调至关重要：Qwen3-14B配合SFT和LoRA达到0.598总分，排名第4
检索增强提供适度改进：RAG方法将Qwen3-8B性能提升至0.522
任务间权衡：RAG+Refine在任务1表现最佳但任务2性能下降，LoRA-SFT实现更好平衡

消融实验

通过系统性消融实验验证了各组件贡献：

Deflanderization vs 标准提示
少样本学习 vs 零样本学习
不同检索策略对比
SFT vs LoRA vs 组合方法

结论与讨论

主要结论

轻量级Deflanderization策略有效：在API设置中通过抑制过度角色扮演显著提升性能
微调大模型在GPU赛道占优：Qwen3-14B配合SFT和LoRA取得最佳效果
任务间平衡是关键挑战：改善角色扮演保真度的方法有时会损害参数正确性

局限性

计算资源限制：GPU赛道受限于L40s内存预算，限制了更大模型的使用
检索语料规模：RAG方法受限于检索语料的规模和质量
评估指标局限：自动评估指标无法完全反映对话系统质量，需要人工评估

未来方向

混合策略探索：统一轻量级提示与检索增强微调的混合策略
长期一致性：在更长对话中维持角色一致性的方法
多模态扩展：结合视觉和音频信息的多模态NPC系统

深度评价

优点

问题定义清晰：Flanderization概念引入新颖，准确描述了LLM角色扮演中的关键问题
方法互补性强：API和GPU赛道采用不同但互补的策略，展现了全面的技术视野
实验充分：系统性的消融实验和多维度评估验证了方法有效性
实用价值高：在实际竞赛中取得优异成绩，证明了方法的实用性

不足

理论分析不足：缺乏对Deflanderization现象的深层理论分析
泛化性未验证：方法主要在CPDC数据集上验证，缺乏在其他游戏场景的泛化验证
计算效率分析缺失：未详细分析不同方法的计算开销和推理效率
用户体验评估不足：缺乏真实玩家的主观体验评估

影响力

学术贡献：为游戏AI领域引入了新的研究方向和解决方案
实用价值：方法可直接应用于游戏开发中的NPC设计
可复现性：提供了详细的实现细节和提示模板，便于复现

适用场景

RPG游戏：特别适合需要丰富角色互动的角色扮演游戏
教育游戏：可用于创建智能教学助手和虚拟导师
社交平台：扩展至Discord等社交平台的聊天机器人

参考文献

Kazi et al. (2024): Large language models as user-agents for evaluating task-oriented-dialogue systems
Lee et al. (2025): AMAN: Agent for mentoring and assisting newbies in MMORPG
Phillips et al. (2025): Goal-oriented interactions in games using llms
Park et al. (2023): Generative agents: Interactive simulacra of human behavior
Sony AI (2025): The commonsense persona-grounded dialogue challenge 2025

本论文在游戏AI领域提出了创新性的解决方案，通过Deflanderization技术有效平衡了NPC的角色真实性与任务执行能力，为未来游戏中智能角色的设计提供了重要参考。