2025-11-24T17:52:17.819931

Deflanderization for Game Dialogue: Balancing Character Authenticity with Task Execution in LLM-based NPCs

Buakhaw, Kerdthaisong, Phenhiran et al.

The emergence of large language models (LLMs) has opened new opportunities for cre- ating dynamic non-player characters (NPCs) in gaming environments, enabling both func- tional task execution and persona-consistent dialogue generation. In this paper, we (Tu_Character_lab) report our participation in the Commonsense Persona-Grounded Dialogue Challenge (CPDC) 2025 Round 2, which eval- uates agents across three tracks: task-oriented dialogue, context-aware dialogue, and their integration. Our approach combines two complementary strategies: (i) lightweight prompting techniques in the API track, including a Deflanderization prompting method to suppress excessive role-play and improve task fidelity, and (ii) fine-tuned large models in the GPU track, leveraging Qwen3-14B with supervisedfinetuning (SFT) and Low-Rank Adaptation(LoRA). Our best submissions ranked 2nd on Task 1, 2nd on Task 3 (API track), and 4th on Task 3 (GPU track).

academic

Дефландеризация для игрового диалога: Балансирование аутентичности персонажа с выполнением задач в NPC на основе LLM

Основная информация

ID статьи: 2510.13586
Название: Deflanderization for Game Dialogue: Balancing Character Authenticity with Task Execution in LLM-based NPCs
Авторы: Pasин Буакхав, Кун Кердтайсонг, Фури Пенхиран, Питикорн Хлайсамниянг, Супасате Воратхамматорн, Пиялитт Иттичайвонг, Нутчанон Йонгсатианчот
Классификация: cs.CL (вычислительная лингвистика), cs.AI (искусственный интеллект)
Дата публикации: 26 октября 2025 г.
Ссылка на статью: https://arxiv.org/abs/2510.13586v3

Аннотация

Появление больших языковых моделей (LLM) открыло новые возможности для создания динамических неигровых персонажей (NPC) в игровых средах, позволяя им одновременно выполнять функциональные задачи и генерировать диалоги, соответствующие характеру. В данной статье представлены результаты участия команды (TU_Character_lab) во втором раунде Конкурса диалогов, ориентированных на персонажей здравого смысла (CPDC) 2025, который оценивает производительность агентов по трём направлениям: диалоги, ориентированные на задачи, контекстно-осведомленные диалоги и их интеграция. Методология исследования объединяет две взаимодополняющие стратегии: (1) облегченные методы подсказок в направлении API, включая метод подсказок дефландеризации, который подавляет чрезмерное ролевое поведение и повышает точность выполнения задач; (2) тонкую настройку больших моделей в направлении GPU с использованием Qwen3-14B для контролируемой тонкой настройки (SFT) и адаптации низкого ранга (LoRA). Лучшие результаты заняли 2-е место в задаче 1, 2-е место в задаче 3 (направление API) и 4-е место в задаче 3 (направление GPU).

Исследовательский контекст и мотивация

Определение проблемы

Традиционная разработка игр в значительной степени зависит от предварительно запрограммированной логики, где игровые события и взаимодействия персонажей следуют предустановленным сценариям и деревьям диалогов. Для повышения погружения игроков и глубины повествования разработчики начали использовать LLM в качестве основного компонента NPC, позволяя им демонстрировать человекоподобное поведение и вести динамичные, контекстно-осведомленные диалоги с игроками.

Основные вызовы

Сохранение согласованности и глубины динамических персонажей при длительном взаимодействии представляет значительный вызов, особенно явление "фландеризации" (Flanderization). Этот термин происходит от персонажа Неда Фландерса из "Симпсонов" и обозначает постепенное упрощение сложных персонажей с течением времени, в результате чего они становятся карикатурными образами, определяемыми единственной преувеличенной чертой.

Исследовательская мотивация

Балансирование аутентичности персонажа и выполнения задач: Существующие NPC на основе LLM часто пренебрегают функциональной корректностью при чрезмерном ролевом поведении
Долгосрочная согласованность диалога: Необходимость сохранения связности персонажа в расширенных диалогах
Интеграция многозадачности: Вызов одновременной обработки диалогов, ориентированных на задачи, и диалогов, соответствующих характеру

Основные вклады

Предложена техника подсказок Deflanderization: Подавляет чрезмерное ролевое поведение, достигая баланса между способностями генерации диалогов и функциональной генерации
Исследованы взаимодополняющие стратегии облегченных подсказок и тонкой настройки: Использование инженерии подсказок для направления API и тонкой настройки модели для направления GPU
Разработан гибридный метод RAG+Memory: Объединение поиска с увеличением генерации и механизмов памяти для улучшения основы диалога
Достигнуты отличные результаты в конкурсе CPDC 2025: Получены высокие рейтинги по нескольким задачам, подтверждающие эффективность методов

Подробное описание методов

Определение задач

Конкурс CPDC включает три задачи:

Задача 1: Агент диалога, ориентированный на задачи — оценка корректности вызовов функций и точности выбора параметров
Задача 2: Агент контекстно-осведомленного диалога — оценка соответствия ответов NPC указанному персонажу
Задача 3: Интегрированный контекстный диалог и выполнение задач — объединение задач 1 и 2

Метод направления API

Стратегия подсказок Deflanderization

Основная идея заключается в направлении модели на естественные и лаконичные ответы, избегая преувеличенного ролевого поведения. Анализ ошибок показал, что базовые параметры часто генерируют чрезмерно подробные и контекстно рассеянные выходные данные, уделяя чрезмерное внимание нарративной обстановке вместо прямого ответа на запросы игроков.

Основные методы подсказок:

D (Deflanderization): Направляет модель избегать чрезмерного ролевого поведения
F (Fewshot): Включает два примера диалогов (торговец и администратор гильдии)
CoT (Chain of Thought): Направляет модель на пошаговое мышление
RW (Remove world setting): Удаляет информацию об окружающем мире при построении подсказок диалога
G (Guide): Ограничивает ответ 1-2 короткими предложениями, используя простой язык

Проектирование конвейера

Как показано на рисунке 2, направление API использует пятиэтапный конвейер:

Подготовка подсказки для вызова функции
Генерация функции (вызов API #1)
Выполнение функции
Подготовка подсказки диалога
Генерация диалога (вызов API #2)

Метод направления GPU

Выбор модели и тонкая настройка

Учитывая вычислительные ограничения (экземпляр AWS g5e.2xlarge с GPU L40s), была выбрана модель, способная работать в этой среде, в итоге выбран Qwen3-14B в качестве основной модели.

Стратегия тонкой настройки:

Полная SFT: Контролируемая тонкая настройка на начальных и синтетических многораундовых данных диалогов
Тонкая настройка LoRA: Адаптация низкого ранга на наборах данных диалогов и вызовов функций (rank=32, α=32)

Гибридный метод RAG+Memory

Модуль поиска: Использует Qwen3-Embedding-0.6B для кодирования истории диалогов игрока и NPC
Этап внедрения: Внедрение контекста поиска на двух этапах — выбор функции и составление диалога
RAG+Refine: Переписывание черновика генерации для соответствия тону и длине эталонных ответов с высокой схожестью

Увеличение данных

Использование gemini-2.5-pro-preview для генерации данных вызовов функций и GPT-4o-mini для генерации данных диалогов:

Многораундовые диалоги: 2800 точек данных
Многораундовое рассуждение: 2800 точек данных (задача 2)
Генерация вызовов функций: 328 точек данных (задача 1)

Экспериментальная установка

Наборы данных

Задача 1: train.json, sample.json — данные вызовов функций
Задача 2: train.json, sample.json — данные диалогов персонажей
Анализ данных показывает сбалансированное распределение персонажей NPC (20 торговцев, 20 администраторов гильдий)

Метрики оценки

Метрики задачи 1

Точное совпадение имени функции: Точность совпадения предсказанного имени функции с эталонным
Точное совпадение параметров функции: Точность совпадения всех предсказанных параметров с эталонными
BERTScore: Измерение семантического сходства с использованием встраивания BERT

Метрики задачи 2

BLEU-4: Оценка на основе исправленной точности n-грамм
F1 на уровне слов: Оценка F1 на основе наборов словарей
CPDCscore: Взвешенная оценка, объединяющая WordF1, BLEU, USEScore и BERTScore

Детали реализации

Направление API: GPT-4o-mini, максимум 2 вызова API за раунд, ограничение входа 2000 токенов, ограничение выхода 200 токенов
Направление GPU: Развертывание на платформе vLLM, dtype='bfloat16', gpu_memory_utilization=0.8

Результаты экспериментов

Основные результаты направления API

Задача	Метод	CPDCscore
Задача 1	ZeroShot	0.422
Задача 1	Лучший метод (D+RW)	0.586
Задача 3	ZeroShot	0.510
Задача 3	Лучший метод	0.601

Ключевые выводы:

Значительный эффект Deflanderization: Стратегия D показала улучшение +0.013 в CPDCscore по сравнению с базовым уровнем нулевого выстрела в задаче 3
Дальнейшее улучшение подсказок с примерами: Добавление примеров с несколькими выстрелами (F) дало улучшение +0.092 и +0.133 в задаче 1
Ограниченная выгода от сложных подсказок: Сложные стратегии, такие как CoT и направленные ответы, показали предельную или непоследовательную выгоду

Основные результаты направления GPU

Модель	Метод	Оценка задачи 1	Оценка задачи 2	Общая оценка
LLaMA3.1-8B	базовый уровень	0.439	0.333	0.386
Qwen3-14B	SFT + LoRA	0.590	0.606	0.598

Ключевые выводы:

Критическая важность размера модели и тонкой настройки: Qwen3-14B с SFT и LoRA достигла общей оценки 0.598, заняв 4-е место
Умеренное улучшение от поиска с увеличением: Метод RAG повысил производительность Qwen3-8B до 0.522
Компромисс между задачами: RAG+Refine показал лучшую производительность в задаче 1, но снизил производительность в задаче 2, в то время как LoRA-SFT достигла лучшего баланса

Абляционные исследования

Систематические абляционные исследования подтвердили вклад каждого компонента:

Deflanderization против стандартных подсказок
Обучение с несколькими примерами против нулевого выстрела
Сравнение различных стратегий поиска
SFT против LoRA против комбинированного метода

Связанные работы

Игровые агенты, ориентированные на диалог

Системы, ориентированные на задачи: Такие как (Kazi et al., 2024), оценивающие эффективность планирования агентов и согласованность целей
Игровые помощники: (Lee et al., 2025) разработали специализированных помощников для игр, помогающих новым игрокам
Многоагентные платформы: (Phillips et al., 2025) использовали агентов диалога и агентов проверки целей

Возможности вызова инструментов

Архитектура вызова функций: Многоэтапные платформы с компонентами выполнения, восприятия, проверки, управления и поиска
Оценочные тесты: τ2-Bench представляет двойную контролируемую среду для оценки координации агентов

LLM с ролевым поведением

Персонализация пользователя: Тесты, такие как LaMP, оценивают персонализированную генерацию текста
Адаптация к окружению: Системы с несколькими агентами, такие как ChatDev и MetaGPT, с ролевым поведением

Заключение и обсуждение

Основные выводы

Эффективность облегченной стратегии Deflanderization: Значительное улучшение производительности в параметре API путем подавления чрезмерного ролевого поведения
Преимущество тонкой настройки больших моделей в направлении GPU: Qwen3-14B с SFT и LoRA достигла лучших результатов
Балансирование между задачами — ключевой вызов: Методы, улучшающие точность ролевого поведения, иногда снижают корректность параметров

Ограничения

Ограничения вычислительных ресурсов: Направление GPU ограничено бюджетом памяти L40s, что ограничивает использование более крупных моделей
Масштаб корпуса поиска: Методы RAG ограничены масштабом и качеством корпуса поиска
Ограничения метрик оценки: Автоматические метрики оценки не полностью отражают качество диалоговой системы, требуется оценка человеком

Будущие направления

Исследование гибридных стратегий: Объединение облегченных подсказок с поиском, увеличивающим тонкую настройку
Долгосрочная согласованность: Методы сохранения согласованности персонажа в более длительных диалогах
Мультимодальное расширение: Системы мультимодальных NPC, объединяющие визуальную и аудиоинформацию

Глубокая оценка

Преимущества

Четкое определение проблемы: Введение концепции Flanderization является новаторским и точно описывает ключевую проблему в ролевом поведении LLM
Сильная взаимодополняемость методов: Использование различных, но взаимодополняющих стратегий в направлениях API и GPU демонстрирует всестороннее техническое видение
Достаточные эксперименты: Систематические абляционные исследования и многомерная оценка подтверждают эффективность методов
Высокая практическая ценность: Достижение отличных результатов в реальном конкурсе доказывает практическую применимость методов

Недостатки

Недостаточный теоретический анализ: Отсутствует глубокий теоретический анализ явления Flanderization
Непроверенная обобщаемость: Методы в основном проверены на наборе данных CPDC, отсутствует проверка обобщаемости на других игровых сценариях
Отсутствие анализа вычислительной эффективности: Не проведен детальный анализ вычислительных затрат и эффективности вывода различных методов
Недостаточная оценка пользовательского опыта: Отсутствует субъективная оценка опыта реальных игроков

Влияние

Академический вклад: Введение нового направления исследований и решений в области игровой AI
Практическая ценность: Методы могут быть непосредственно применены в разработке игр для проектирования NPC
Воспроизводимость: Предоставлены подробные детали реализации и шаблоны подсказок, облегчающие воспроизведение

Применимые сценарии

RPG-игры: Особенно подходят для ролевых игр, требующих богатого взаимодействия персонажей
Образовательные игры: Могут использоваться для создания интеллектуальных помощников обучения и виртуальных наставников
Социальные платформы: Расширение на чат-ботов в социальных платформах, таких как Discord

Библиография

Kazi et al. (2024): Large language models as user-agents for evaluating task-oriented-dialogue systems
Lee et al. (2025): AMAN: Agent for mentoring and assisting newbies in MMORPG
Phillips et al. (2025): Goal-oriented interactions in games using llms
Park et al. (2023): Generative agents: Interactive simulacra of human behavior
Sony AI (2025): The commonsense persona-grounded dialogue challenge 2025

В данной статье предложено инновационное решение в области игровой AI, которое эффективно балансирует аутентичность персонажа NPC и способность выполнения задач благодаря технике Deflanderization, предоставляя важный ориентир для проектирования интеллектуальных персонажей в будущих играх.