2025-11-24T17:52:17.819931

Deflanderization for Game Dialogue: Balancing Character Authenticity with Task Execution in LLM-based NPCs

Buakhaw, Kerdthaisong, Phenhiran et al.
The emergence of large language models (LLMs) has opened new opportunities for cre- ating dynamic non-player characters (NPCs) in gaming environments, enabling both func- tional task execution and persona-consistent dialogue generation. In this paper, we (Tu_Character_lab) report our participation in the Commonsense Persona-Grounded Dialogue Challenge (CPDC) 2025 Round 2, which eval- uates agents across three tracks: task-oriented dialogue, context-aware dialogue, and their integration. Our approach combines two complementary strategies: (i) lightweight prompting techniques in the API track, including a Deflanderization prompting method to suppress excessive role-play and improve task fidelity, and (ii) fine-tuned large models in the GPU track, leveraging Qwen3-14B with supervisedfinetuning (SFT) and Low-Rank Adaptation(LoRA). Our best submissions ranked 2nd on Task 1, 2nd on Task 3 (API track), and 4th on Task 3 (GPU track).
academic

Дефландеризация для игрового диалога: Балансирование аутентичности персонажа с выполнением задач в NPC на основе LLM

Основная информация

  • ID статьи: 2510.13586
  • Название: Deflanderization for Game Dialogue: Balancing Character Authenticity with Task Execution in LLM-based NPCs
  • Авторы: Pasин Буакхав, Кун Кердтайсонг, Фури Пенхиран, Питикорн Хлайсамниянг, Супасате Воратхамматорн, Пиялитт Иттичайвонг, Нутчанон Йонгсатианчот
  • Классификация: cs.CL (вычислительная лингвистика), cs.AI (искусственный интеллект)
  • Дата публикации: 26 октября 2025 г.
  • Ссылка на статью: https://arxiv.org/abs/2510.13586v3

Аннотация

Появление больших языковых моделей (LLM) открыло новые возможности для создания динамических неигровых персонажей (NPC) в игровых средах, позволяя им одновременно выполнять функциональные задачи и генерировать диалоги, соответствующие характеру. В данной статье представлены результаты участия команды (TU_Character_lab) во втором раунде Конкурса диалогов, ориентированных на персонажей здравого смысла (CPDC) 2025, который оценивает производительность агентов по трём направлениям: диалоги, ориентированные на задачи, контекстно-осведомленные диалоги и их интеграция. Методология исследования объединяет две взаимодополняющие стратегии: (1) облегченные методы подсказок в направлении API, включая метод подсказок дефландеризации, который подавляет чрезмерное ролевое поведение и повышает точность выполнения задач; (2) тонкую настройку больших моделей в направлении GPU с использованием Qwen3-14B для контролируемой тонкой настройки (SFT) и адаптации низкого ранга (LoRA). Лучшие результаты заняли 2-е место в задаче 1, 2-е место в задаче 3 (направление API) и 4-е место в задаче 3 (направление GPU).

Исследовательский контекст и мотивация

Определение проблемы

Традиционная разработка игр в значительной степени зависит от предварительно запрограммированной логики, где игровые события и взаимодействия персонажей следуют предустановленным сценариям и деревьям диалогов. Для повышения погружения игроков и глубины повествования разработчики начали использовать LLM в качестве основного компонента NPC, позволяя им демонстрировать человекоподобное поведение и вести динамичные, контекстно-осведомленные диалоги с игроками.

Основные вызовы

Сохранение согласованности и глубины динамических персонажей при длительном взаимодействии представляет значительный вызов, особенно явление "фландеризации" (Flanderization). Этот термин происходит от персонажа Неда Фландерса из "Симпсонов" и обозначает постепенное упрощение сложных персонажей с течением времени, в результате чего они становятся карикатурными образами, определяемыми единственной преувеличенной чертой.

Исследовательская мотивация

  1. Балансирование аутентичности персонажа и выполнения задач: Существующие NPC на основе LLM часто пренебрегают функциональной корректностью при чрезмерном ролевом поведении
  2. Долгосрочная согласованность диалога: Необходимость сохранения связности персонажа в расширенных диалогах
  3. Интеграция многозадачности: Вызов одновременной обработки диалогов, ориентированных на задачи, и диалогов, соответствующих характеру

Основные вклады

  1. Предложена техника подсказок Deflanderization: Подавляет чрезмерное ролевое поведение, достигая баланса между способностями генерации диалогов и функциональной генерации
  2. Исследованы взаимодополняющие стратегии облегченных подсказок и тонкой настройки: Использование инженерии подсказок для направления API и тонкой настройки модели для направления GPU
  3. Разработан гибридный метод RAG+Memory: Объединение поиска с увеличением генерации и механизмов памяти для улучшения основы диалога
  4. Достигнуты отличные результаты в конкурсе CPDC 2025: Получены высокие рейтинги по нескольким задачам, подтверждающие эффективность методов

Подробное описание методов

Определение задач

Конкурс CPDC включает три задачи:

  • Задача 1: Агент диалога, ориентированный на задачи — оценка корректности вызовов функций и точности выбора параметров
  • Задача 2: Агент контекстно-осведомленного диалога — оценка соответствия ответов NPC указанному персонажу
  • Задача 3: Интегрированный контекстный диалог и выполнение задач — объединение задач 1 и 2

Метод направления API

Стратегия подсказок Deflanderization

Основная идея заключается в направлении модели на естественные и лаконичные ответы, избегая преувеличенного ролевого поведения. Анализ ошибок показал, что базовые параметры часто генерируют чрезмерно подробные и контекстно рассеянные выходные данные, уделяя чрезмерное внимание нарративной обстановке вместо прямого ответа на запросы игроков.

Основные методы подсказок:

  • D (Deflanderization): Направляет модель избегать чрезмерного ролевого поведения
  • F (Fewshot): Включает два примера диалогов (торговец и администратор гильдии)
  • CoT (Chain of Thought): Направляет модель на пошаговое мышление
  • RW (Remove world setting): Удаляет информацию об окружающем мире при построении подсказок диалога
  • G (Guide): Ограничивает ответ 1-2 короткими предложениями, используя простой язык

Проектирование конвейера

Как показано на рисунке 2, направление API использует пятиэтапный конвейер:

  1. Подготовка подсказки для вызова функции
  2. Генерация функции (вызов API #1)
  3. Выполнение функции
  4. Подготовка подсказки диалога
  5. Генерация диалога (вызов API #2)

Метод направления GPU

Выбор модели и тонкая настройка

Учитывая вычислительные ограничения (экземпляр AWS g5e.2xlarge с GPU L40s), была выбрана модель, способная работать в этой среде, в итоге выбран Qwen3-14B в качестве основной модели.

Стратегия тонкой настройки:

  1. Полная SFT: Контролируемая тонкая настройка на начальных и синтетических многораундовых данных диалогов
  2. Тонкая настройка LoRA: Адаптация низкого ранга на наборах данных диалогов и вызовов функций (rank=32, α=32)

Гибридный метод RAG+Memory

  • Модуль поиска: Использует Qwen3-Embedding-0.6B для кодирования истории диалогов игрока и NPC
  • Этап внедрения: Внедрение контекста поиска на двух этапах — выбор функции и составление диалога
  • RAG+Refine: Переписывание черновика генерации для соответствия тону и длине эталонных ответов с высокой схожестью

Увеличение данных

Использование gemini-2.5-pro-preview для генерации данных вызовов функций и GPT-4o-mini для генерации данных диалогов:

  • Многораундовые диалоги: 2800 точек данных
  • Многораундовое рассуждение: 2800 точек данных (задача 2)
  • Генерация вызовов функций: 328 точек данных (задача 1)

Экспериментальная установка

Наборы данных

  • Задача 1: train.json, sample.json — данные вызовов функций
  • Задача 2: train.json, sample.json — данные диалогов персонажей
  • Анализ данных показывает сбалансированное распределение персонажей NPC (20 торговцев, 20 администраторов гильдий)

Метрики оценки

Метрики задачи 1

  • Точное совпадение имени функции: Точность совпадения предсказанного имени функции с эталонным
  • Точное совпадение параметров функции: Точность совпадения всех предсказанных параметров с эталонными
  • BERTScore: Измерение семантического сходства с использованием встраивания BERT

Метрики задачи 2

  • BLEU-4: Оценка на основе исправленной точности n-грамм
  • F1 на уровне слов: Оценка F1 на основе наборов словарей
  • CPDCscore: Взвешенная оценка, объединяющая WordF1, BLEU, USEScore и BERTScore

Детали реализации

  • Направление API: GPT-4o-mini, максимум 2 вызова API за раунд, ограничение входа 2000 токенов, ограничение выхода 200 токенов
  • Направление GPU: Развертывание на платформе vLLM, dtype='bfloat16', gpu_memory_utilization=0.8

Результаты экспериментов

Основные результаты направления API

ЗадачаМетодCPDCscore
Задача 1ZeroShot0.422
Задача 1Лучший метод (D+RW)0.586
Задача 3ZeroShot0.510
Задача 3Лучший метод0.601

Ключевые выводы:

  1. Значительный эффект Deflanderization: Стратегия D показала улучшение +0.013 в CPDCscore по сравнению с базовым уровнем нулевого выстрела в задаче 3
  2. Дальнейшее улучшение подсказок с примерами: Добавление примеров с несколькими выстрелами (F) дало улучшение +0.092 и +0.133 в задаче 1
  3. Ограниченная выгода от сложных подсказок: Сложные стратегии, такие как CoT и направленные ответы, показали предельную или непоследовательную выгоду

Основные результаты направления GPU

МодельМетодОценка задачи 1Оценка задачи 2Общая оценка
LLaMA3.1-8Bбазовый уровень0.4390.3330.386
Qwen3-14BSFT + LoRA0.5900.6060.598

Ключевые выводы:

  1. Критическая важность размера модели и тонкой настройки: Qwen3-14B с SFT и LoRA достигла общей оценки 0.598, заняв 4-е место
  2. Умеренное улучшение от поиска с увеличением: Метод RAG повысил производительность Qwen3-8B до 0.522
  3. Компромисс между задачами: RAG+Refine показал лучшую производительность в задаче 1, но снизил производительность в задаче 2, в то время как LoRA-SFT достигла лучшего баланса

Абляционные исследования

Систематические абляционные исследования подтвердили вклад каждого компонента:

  • Deflanderization против стандартных подсказок
  • Обучение с несколькими примерами против нулевого выстрела
  • Сравнение различных стратегий поиска
  • SFT против LoRA против комбинированного метода

Связанные работы

Игровые агенты, ориентированные на диалог

  • Системы, ориентированные на задачи: Такие как (Kazi et al., 2024), оценивающие эффективность планирования агентов и согласованность целей
  • Игровые помощники: (Lee et al., 2025) разработали специализированных помощников для игр, помогающих новым игрокам
  • Многоагентные платформы: (Phillips et al., 2025) использовали агентов диалога и агентов проверки целей

Возможности вызова инструментов

  • Архитектура вызова функций: Многоэтапные платформы с компонентами выполнения, восприятия, проверки, управления и поиска
  • Оценочные тесты: τ2-Bench представляет двойную контролируемую среду для оценки координации агентов

LLM с ролевым поведением

  • Персонализация пользователя: Тесты, такие как LaMP, оценивают персонализированную генерацию текста
  • Адаптация к окружению: Системы с несколькими агентами, такие как ChatDev и MetaGPT, с ролевым поведением

Заключение и обсуждение

Основные выводы

  1. Эффективность облегченной стратегии Deflanderization: Значительное улучшение производительности в параметре API путем подавления чрезмерного ролевого поведения
  2. Преимущество тонкой настройки больших моделей в направлении GPU: Qwen3-14B с SFT и LoRA достигла лучших результатов
  3. Балансирование между задачами — ключевой вызов: Методы, улучшающие точность ролевого поведения, иногда снижают корректность параметров

Ограничения

  1. Ограничения вычислительных ресурсов: Направление GPU ограничено бюджетом памяти L40s, что ограничивает использование более крупных моделей
  2. Масштаб корпуса поиска: Методы RAG ограничены масштабом и качеством корпуса поиска
  3. Ограничения метрик оценки: Автоматические метрики оценки не полностью отражают качество диалоговой системы, требуется оценка человеком

Будущие направления

  1. Исследование гибридных стратегий: Объединение облегченных подсказок с поиском, увеличивающим тонкую настройку
  2. Долгосрочная согласованность: Методы сохранения согласованности персонажа в более длительных диалогах
  3. Мультимодальное расширение: Системы мультимодальных NPC, объединяющие визуальную и аудиоинформацию

Глубокая оценка

Преимущества

  1. Четкое определение проблемы: Введение концепции Flanderization является новаторским и точно описывает ключевую проблему в ролевом поведении LLM
  2. Сильная взаимодополняемость методов: Использование различных, но взаимодополняющих стратегий в направлениях API и GPU демонстрирует всестороннее техническое видение
  3. Достаточные эксперименты: Систематические абляционные исследования и многомерная оценка подтверждают эффективность методов
  4. Высокая практическая ценность: Достижение отличных результатов в реальном конкурсе доказывает практическую применимость методов

Недостатки

  1. Недостаточный теоретический анализ: Отсутствует глубокий теоретический анализ явления Flanderization
  2. Непроверенная обобщаемость: Методы в основном проверены на наборе данных CPDC, отсутствует проверка обобщаемости на других игровых сценариях
  3. Отсутствие анализа вычислительной эффективности: Не проведен детальный анализ вычислительных затрат и эффективности вывода различных методов
  4. Недостаточная оценка пользовательского опыта: Отсутствует субъективная оценка опыта реальных игроков

Влияние

  1. Академический вклад: Введение нового направления исследований и решений в области игровой AI
  2. Практическая ценность: Методы могут быть непосредственно применены в разработке игр для проектирования NPC
  3. Воспроизводимость: Предоставлены подробные детали реализации и шаблоны подсказок, облегчающие воспроизведение

Применимые сценарии

  1. RPG-игры: Особенно подходят для ролевых игр, требующих богатого взаимодействия персонажей
  2. Образовательные игры: Могут использоваться для создания интеллектуальных помощников обучения и виртуальных наставников
  3. Социальные платформы: Расширение на чат-ботов в социальных платформах, таких как Discord

Библиография

  1. Kazi et al. (2024): Large language models as user-agents for evaluating task-oriented-dialogue systems
  2. Lee et al. (2025): AMAN: Agent for mentoring and assisting newbies in MMORPG
  3. Phillips et al. (2025): Goal-oriented interactions in games using llms
  4. Park et al. (2023): Generative agents: Interactive simulacra of human behavior
  5. Sony AI (2025): The commonsense persona-grounded dialogue challenge 2025

В данной статье предложено инновационное решение в области игровой AI, которое эффективно балансирует аутентичность персонажа NPC и способность выполнения задач благодаря технике Deflanderization, предоставляя важный ориентир для проектирования интеллектуальных персонажей в будущих играх.