2025-11-24T17:52:17.819931

Deflanderization for Game Dialogue: Balancing Character Authenticity with Task Execution in LLM-based NPCs

Buakhaw, Kerdthaisong, Phenhiran et al.
The emergence of large language models (LLMs) has opened new opportunities for cre- ating dynamic non-player characters (NPCs) in gaming environments, enabling both func- tional task execution and persona-consistent dialogue generation. In this paper, we (Tu_Character_lab) report our participation in the Commonsense Persona-Grounded Dialogue Challenge (CPDC) 2025 Round 2, which eval- uates agents across three tracks: task-oriented dialogue, context-aware dialogue, and their integration. Our approach combines two complementary strategies: (i) lightweight prompting techniques in the API track, including a Deflanderization prompting method to suppress excessive role-play and improve task fidelity, and (ii) fine-tuned large models in the GPU track, leveraging Qwen3-14B with supervisedfinetuning (SFT) and Low-Rank Adaptation(LoRA). Our best submissions ranked 2nd on Task 1, 2nd on Task 3 (API track), and 4th on Task 3 (GPU track).
academic

ゲーム対話のためのDeflanderization:LLMベースのNPCにおけるキャラクター真正性とタスク実行のバランス

基本情報

  • 論文ID: 2510.13586
  • タイトル: Deflanderization for Game Dialogue: Balancing Character Authenticity with Task Execution in LLM-based NPCs
  • 著者: Pasin Buakhaw, Kun Kerdthaisong, Phuree Phenhiran, Pitikorn Khlaisamniang, Supasate Vorathammathorn, Piyalitt Ittichaiwong, Nutchanon Yongsatianchot
  • 分類: cs.CL(計算言語学)、cs.AI(人工知能)
  • 発表日: 2025年10月26日
  • 論文リンク: https://arxiv.org/abs/2510.13586v3

要旨

大規模言語モデル(LLM)の出現により、ゲーム環境における動的な非プレイヤーキャラクター(NPC)の作成に新たな機会がもたらされ、機能的なタスク実行とキャラクター一貫性のある対話生成を同時に実現することが可能になった。本論文は、チーム(TU_Character_lab)がCommon Sense Persona-grounded Dialogue Challenge(CPDC)2025の第2ラウンドに参加した成果を報告する。本競技は、タスク指向対話、文脈認識対話、およびそれらの統合という3つのトラックにおけるエージェントのパフォーマンスを評価する。研究方法は2つの相補的な戦略を組み合わせている:(1)APIトラックにおける軽量プロンプティング技術。過度なロールプレイを抑制し、タスク忠実度を向上させるDeflanderization プロンプティング方法を含む;(2)GPUトラックにおける大規模モデルの微調整。Qwen3-14Bを用いた教師あり微調整(SFT)と低ランク適応(LoRA)を活用する。最良の提出物は、タスク1で第2位、タスク3(APIトラック)で第2位、タスク3(GPUトラック)で第4位にランクされた。

研究背景と動機

問題定義

従来のゲーム開発は事前プログラムされたロジックに大きく依存しており、ゲーム内のイベントとキャラクター相互作用は事前設定されたスクリプトと対話ツリーに従う。プレイヤーの没入感と物語の深さを向上させるため、開発者はLLMをNPCの中核コンポーネントとして採用し始め、人間のような行動を示し、プレイヤーとの動的で文脈認識の対話を可能にしている。

中核的課題

長期的な相互作用において動的なキャラクターの一貫性と深さを維持することは重大な課題であり、特に「Flanderization」現象が問題となる。この用語は『ザ・シンプソンズ』のキャラクター、ネッド・フランダースに由来し、複雑なキャラクターが時間とともに徐々に単純化され、最終的には単一の誇張された特性によって定義される漫画的なイメージになることを指す。

研究動機

  1. キャラクター真正性とタスク実行のバランス:既存のLLM駆動NPCは、過度なロールプレイ時に機能的正確性を無視することが多い
  2. 長期対話の一貫性:拡張された対話を通じてキャラクターの一貫性を維持する必要性
  3. マルチタスク統合:タスク指向対話とキャラクター一貫性対話を同時に処理する課題

中核的貢献

  1. Deflanderization プロンプティング技術の提案:過度なロールプレイを抑制し、対話生成と機能生成能力の間でバランスを取る
  2. 軽量プロンプティングと微調整の相補的戦略の探索:APIトラックではプロンプトエンジニアリング、GPUトラックではモデル微調整を使用
  3. ハイブリッドRAG+メモリ方法の構築:検索拡張生成とメモリ機構を組み合わせて対話の基礎を向上させる
  4. CPDC 2025競技での優秀成績の達成:複数のタスクで上位ランクを獲得し、方法の有効性を検証

方法の詳細

タスク定義

CPDC競技は3つのタスクで構成される:

  • タスク1:タスク指向対話エージェント - 機能呼び出しの正確性とパラメータ選択の精度を評価
  • タスク2:文脈認識対話エージェント - NPC応答が指定されたキャラクターとの一貫性を評価
  • タスク3:文脈対話とタスク実行の統合 - タスク1とタスク2を組み合わせる

APIトラック方法

Deflanderization プロンプティング戦略

中核的な考え方は、モデルに自然で簡潔な応答を指導し、誇張されたロールプレイを避けることである。エラー分析により、ベースライン設定は過度に詳細で文脈が散在した出力を頻繁に生成し、プレイヤーの直接的な要求への応答よりも物語設定に過度に焦点を当てていることが示された。

主要なプロンプティング技術

  • D(Deflanderization):モデルに過度なロールプレイを避けるよう指導
  • F(Fewshot):2つのサンプル対話(商人とギルド受付係)を含む
  • CoT(Chain of Thought):モデルに段階的思考を指導
  • RW(Remove world setting):対話プロンプト構築時にワールド設定情報を削除
  • G(Guide):応答を1~2文の短文に制限し、簡単な言語を使用

パイプライン設計

図2に示すように、APIトラックは5段階のパイプラインを採用している:

  1. 機能呼び出しプロンプトの準備
  2. 機能生成(API呼び出し#1)
  3. 関数の実行
  4. 対話プロンプトの準備
  5. 対話生成(API呼び出し#2)

GPUトラック方法

モデル選択と微調整

計算制限(AWS g5e.2xlarge インスタンス、L40s GPU)のため、この環境で実行可能なモデルを選択し、最終的にQwen3-14Bをメインモデルとして選定した。

微調整戦略

  1. 完全SFT:初期および合成マルチターン対話データに対する教師あり微調整
  2. LoRA微調整:対話および機能呼び出しデータセットに対する低ランク適応(rank=32、α=32)

ハイブリッドRAG+メモリ方法

  • 検索モジュール:Qwen3-Embedding-0.6Bを使用してプレイヤーとNPC対話履歴をエンコード
  • 注入段階:機能選択と対話起草の2つの段階で検索文脈を注入
  • RAG+Refine:生成ドラフトを高類似度のゴールド応答のトーンと長さに合わせるために書き直す

データ拡張

gemini-2.5-pro-previewを使用して機能呼び出しデータを生成し、GPT-4o-miniを使用して対話データを生成:

  • マルチターン対話:2,800データポイント
  • マルチターン推論:2,800データポイント(タスク2)
  • 機能呼び出し生成:328データポイント(タスク1)

実験設定

データセット

  • タスク1:train.json、sample.json - 機能呼び出しデータ
  • タスク2:train.json、sample.json - キャラクター対話データ
  • データ分析は均衡したNPCキャラクター分布を示す(商人20人、ギルド受付係20人)

評価指標

タスク1指標

  • 機能名正確一致:予測機能名が参照と完全に一致する精度
  • 機能パラメータ正確一致:すべての予測パラメータが参照と完全に一致する精度
  • BERTScore:BERT埋め込みを使用した意味的類似度の測定

タスク2指標

  • BLEU-4:修正n-gram精度に基づくスコア
  • 単語レベルF1:語彙集合に基づくF1スコア
  • CPDCscore:WordF1、BLEU、USEScore、BERTScoreの加重スコアを統合

実装詳細

  • APIトラック:GPT-4o-mini、ラウンドあたり最大2回のAPI呼び出し、入力制限2000トークン、出力制限200トークン
  • GPUトラック:vLLMフレームワークデプロイ、dtype='bfloat16'、gpu_memory_utilization=0.8

実験結果

APIトラック主要結果

タスク方法CPDCscore
タスク1ゼロショット0.422
タスク1最良方法(D+RW)0.586
タスク3ゼロショット0.510
タスク3最良方法0.601

主要な知見

  1. Deflanderization効果は顕著:D戦略はゼロショットベースラインと比較してタスク3で+0.013のCPDCscore向上を達成
  2. 少数ショットプロンプティングがさらに向上:少数ショット例(F)の追加により、タスク1でそれぞれ+0.092および+0.133の改善を達成
  3. 複雑なプロンプティングの利益は限定的:CoT、応答ガイダンスなどの複雑な戦略は限定的または一貫性のない利益をもたらす

GPUトラック主要結果

モデル方法タスク1スコアタスク2スコア総スコア
LLaMA3.1-8Bベースライン0.4390.3330.386
Qwen3-14BSFT + LoRA0.5900.6060.598

主要な知見

  1. モデルサイズと微調整が重要:Qwen3-14BとSFT、LoRAの組み合わせで0.598の総スコアを達成し、第4位にランク
  2. 検索拡張は適度な改善を提供:RAG方法はQwen3-8Bのパフォーマンスを0.522に向上させた
  3. タスク間のトレードオフ:RAG+Refineはタスク1で最高のパフォーマンスを示すがタスク2のパフォーマンスは低下し、LoRA-SFTはより良いバランスを実現

アブレーション実験

各コンポーネントの貢献を検証するための体系的なアブレーション実験:

  • Deflanderization vs 標準プロンプティング
  • 少数ショット学習 vs ゼロショット学習
  • 異なる検索戦略の比較
  • SFT vs LoRA vs 組み合わせ方法

関連研究

ゲーム指向対話エージェント

  • タスク指向システム:(Kazi et al., 2024)などがエージェント計画効果と目標整合性を評価
  • ゲームアシスタント:(Lee et al., 2025)新規プレイヤーを支援する専門的なゲームアシスタントを開発
  • マルチエージェントフレームワーク:(Phillips et al., 2025)対話エージェントと目標検証エージェントを使用

ツール呼び出し能力

  • 機能呼び出しアーキテクチャ:実行、知覚、検証、制御、検索コンポーネントを含むマルチステップフレームワーク
  • 評価ベンチマーク:τ2-Benchはエージェント協調能力を評価するための二重制御環境を導入

ロールプレイングLLM

  • ユーザー個性化:LaMPなどのベンチマークが個性化テキスト生成を評価
  • 環境適応:ChatDev、MetaGPTなどのマルチエージェントシステムにおけるロールプレイ

結論と考察

主要な結論

  1. 軽量Deflanderization戦略は有効:APIの設定で過度なロールプレイを抑制することにより、パフォーマンスが大幅に向上
  2. 微調整大規模モデルはGPUトラックで優位:Qwen3-14BとSFT、LoRAの組み合わせが最良の効果を達成
  3. タスク間のバランスが重要な課題:キャラクター扮演忠実度を改善する方法は、パラメータ正確性を損なうことがある

限界

  1. 計算リソースの制限:GPUトラックはL40sメモリ予算に制限され、より大規模なモデルの使用が制限される
  2. 検索コーパスサイズ:RAG方法は検索コーパスのサイズと品質に制限される
  3. 評価指標の限界:自動評価指標は対話システムの品質を完全に反映できず、人間による評価が必要

今後の方向性

  1. ハイブリッド戦略の探索:軽量プロンプティングと検索拡張微調整を統合するハイブリッド戦略
  2. 長期一貫性:より長い対話でキャラクター一貫性を維持する方法
  3. マルチモーダル拡張:視覚および音声情報を組み込んだマルチモーダルNPCシステム

深層的評価

利点

  1. 問題定義が明確:Flanderization概念の導入は新規で、LLMロールプレイの重要な問題を正確に説明
  2. 方法の相補性が強い:APIおよびGPUトラックは異なるが相補的な戦略を採用し、包括的な技術的視点を示す
  3. 実験が充分:体系的なアブレーション実験と多次元評価が方法の有効性を検証
  4. 実用価値が高い:実際の競技で優秀な成績を達成し、方法の実用性を証明

不足

  1. 理論分析が不足:Flanderization現象の深層的な理論分析が欠ける
  2. 汎化性が未検証:方法は主にCPDCデータセットで検証され、他のゲームシーンでの汎化が欠ける
  3. 計算効率分析が欠ける:異なる方法の計算コストと推論効率の詳細分析が欠ける
  4. ユーザー体験評価が不足:実際のプレイヤーの主観的体験評価が欠ける

影響力

  1. 学術的貢献:ゲームAI分野に新しい研究方向とソリューションをもたらす
  2. 実用価値:方法はゲーム開発におけるNPC設計に直接適用可能
  3. 再現性:詳細な実装詳細とプロンプトテンプレートを提供し、再現を容易にする

適用シーン

  1. RPGゲーム:豊かなキャラクター相互作用が必要なロールプレイングゲームに特に適している
  2. 教育ゲーム:知的な教育アシスタントと仮想チューターの作成に使用可能
  3. ソーシャルプラットフォーム:Discordなどのソーシャルプラットフォームのチャットボットに拡張可能

参考文献

  1. Kazi et al. (2024): Large language models as user-agents for evaluating task-oriented-dialogue systems
  2. Lee et al. (2025): AMAN: Agent for mentoring and assisting newbies in MMORPG
  3. Phillips et al. (2025): Goal-oriented interactions in games using llms
  4. Park et al. (2023): Generative agents: Interactive simulacra of human behavior
  5. Sony AI (2025): The commonsense persona-grounded dialogue challenge 2025

本論文は、ゲームAI分野における革新的なソリューションを提案し、Deflanderization技術を通じてNPCのキャラクター真正性とタスク実行能力を効果的にバランスさせ、将来のゲームにおける知的キャラクター設計に重要な参考を提供している。