The emergence of large language models (LLMs) has opened new opportunities for cre- ating dynamic non-player characters (NPCs) in gaming environments, enabling both func- tional task execution and persona-consistent dialogue generation. In this paper, we (Tu_Character_lab) report our participation in the Commonsense Persona-Grounded Dialogue Challenge (CPDC) 2025 Round 2, which eval- uates agents across three tracks: task-oriented dialogue, context-aware dialogue, and their integration. Our approach combines two complementary strategies: (i) lightweight prompting techniques in the API track, including a Deflanderization prompting method to suppress excessive role-play and improve task fidelity, and (ii) fine-tuned large models in the GPU track, leveraging Qwen3-14B with supervisedfinetuning (SFT) and Low-Rank Adaptation(LoRA). Our best submissions ranked 2nd on Task 1, 2nd on Task 3 (API track), and 4th on Task 3 (GPU track).
- ID статьи: 2510.13586
- Название: Deflanderization for Game Dialogue: Balancing Character Authenticity with Task Execution in LLM-based NPCs
- Авторы: Pasин Буакхав, Кун Кердтайсонг, Фури Пенхиран, Питикорн Хлайсамниянг, Супасате Воратхамматорн, Пиялитт Иттичайвонг, Нутчанон Йонгсатианчот
- Классификация: cs.CL (вычислительная лингвистика), cs.AI (искусственный интеллект)
- Дата публикации: 26 октября 2025 г.
- Ссылка на статью: https://arxiv.org/abs/2510.13586v3
Появление больших языковых моделей (LLM) открыло новые возможности для создания динамических неигровых персонажей (NPC) в игровых средах, позволяя им одновременно выполнять функциональные задачи и генерировать диалоги, соответствующие характеру. В данной статье представлены результаты участия команды (TU_Character_lab) во втором раунде Конкурса диалогов, ориентированных на персонажей здравого смысла (CPDC) 2025, который оценивает производительность агентов по трём направлениям: диалоги, ориентированные на задачи, контекстно-осведомленные диалоги и их интеграция. Методология исследования объединяет две взаимодополняющие стратегии: (1) облегченные методы подсказок в направлении API, включая метод подсказок дефландеризации, который подавляет чрезмерное ролевое поведение и повышает точность выполнения задач; (2) тонкую настройку больших моделей в направлении GPU с использованием Qwen3-14B для контролируемой тонкой настройки (SFT) и адаптации низкого ранга (LoRA). Лучшие результаты заняли 2-е место в задаче 1, 2-е место в задаче 3 (направление API) и 4-е место в задаче 3 (направление GPU).
Традиционная разработка игр в значительной степени зависит от предварительно запрограммированной логики, где игровые события и взаимодействия персонажей следуют предустановленным сценариям и деревьям диалогов. Для повышения погружения игроков и глубины повествования разработчики начали использовать LLM в качестве основного компонента NPC, позволяя им демонстрировать человекоподобное поведение и вести динамичные, контекстно-осведомленные диалоги с игроками.
Сохранение согласованности и глубины динамических персонажей при длительном взаимодействии представляет значительный вызов, особенно явление "фландеризации" (Flanderization). Этот термин происходит от персонажа Неда Фландерса из "Симпсонов" и обозначает постепенное упрощение сложных персонажей с течением времени, в результате чего они становятся карикатурными образами, определяемыми единственной преувеличенной чертой.
- Балансирование аутентичности персонажа и выполнения задач: Существующие NPC на основе LLM часто пренебрегают функциональной корректностью при чрезмерном ролевом поведении
- Долгосрочная согласованность диалога: Необходимость сохранения связности персонажа в расширенных диалогах
- Интеграция многозадачности: Вызов одновременной обработки диалогов, ориентированных на задачи, и диалогов, соответствующих характеру
- Предложена техника подсказок Deflanderization: Подавляет чрезмерное ролевое поведение, достигая баланса между способностями генерации диалогов и функциональной генерации
- Исследованы взаимодополняющие стратегии облегченных подсказок и тонкой настройки: Использование инженерии подсказок для направления API и тонкой настройки модели для направления GPU
- Разработан гибридный метод RAG+Memory: Объединение поиска с увеличением генерации и механизмов памяти для улучшения основы диалога
- Достигнуты отличные результаты в конкурсе CPDC 2025: Получены высокие рейтинги по нескольким задачам, подтверждающие эффективность методов
Конкурс CPDC включает три задачи:
- Задача 1: Агент диалога, ориентированный на задачи — оценка корректности вызовов функций и точности выбора параметров
- Задача 2: Агент контекстно-осведомленного диалога — оценка соответствия ответов NPC указанному персонажу
- Задача 3: Интегрированный контекстный диалог и выполнение задач — объединение задач 1 и 2
Основная идея заключается в направлении модели на естественные и лаконичные ответы, избегая преувеличенного ролевого поведения. Анализ ошибок показал, что базовые параметры часто генерируют чрезмерно подробные и контекстно рассеянные выходные данные, уделяя чрезмерное внимание нарративной обстановке вместо прямого ответа на запросы игроков.
Основные методы подсказок:
- D (Deflanderization): Направляет модель избегать чрезмерного ролевого поведения
- F (Fewshot): Включает два примера диалогов (торговец и администратор гильдии)
- CoT (Chain of Thought): Направляет модель на пошаговое мышление
- RW (Remove world setting): Удаляет информацию об окружающем мире при построении подсказок диалога
- G (Guide): Ограничивает ответ 1-2 короткими предложениями, используя простой язык
Как показано на рисунке 2, направление API использует пятиэтапный конвейер:
- Подготовка подсказки для вызова функции
- Генерация функции (вызов API #1)
- Выполнение функции
- Подготовка подсказки диалога
- Генерация диалога (вызов API #2)
Учитывая вычислительные ограничения (экземпляр AWS g5e.2xlarge с GPU L40s), была выбрана модель, способная работать в этой среде, в итоге выбран Qwen3-14B в качестве основной модели.
Стратегия тонкой настройки:
- Полная SFT: Контролируемая тонкая настройка на начальных и синтетических многораундовых данных диалогов
- Тонкая настройка LoRA: Адаптация низкого ранга на наборах данных диалогов и вызовов функций (rank=32, α=32)
- Модуль поиска: Использует Qwen3-Embedding-0.6B для кодирования истории диалогов игрока и NPC
- Этап внедрения: Внедрение контекста поиска на двух этапах — выбор функции и составление диалога
- RAG+Refine: Переписывание черновика генерации для соответствия тону и длине эталонных ответов с высокой схожестью
Использование gemini-2.5-pro-preview для генерации данных вызовов функций и GPT-4o-mini для генерации данных диалогов:
- Многораундовые диалоги: 2800 точек данных
- Многораундовое рассуждение: 2800 точек данных (задача 2)
- Генерация вызовов функций: 328 точек данных (задача 1)
- Задача 1: train.json, sample.json — данные вызовов функций
- Задача 2: train.json, sample.json — данные диалогов персонажей
- Анализ данных показывает сбалансированное распределение персонажей NPC (20 торговцев, 20 администраторов гильдий)
- Точное совпадение имени функции: Точность совпадения предсказанного имени функции с эталонным
- Точное совпадение параметров функции: Точность совпадения всех предсказанных параметров с эталонными
- BERTScore: Измерение семантического сходства с использованием встраивания BERT
- BLEU-4: Оценка на основе исправленной точности n-грамм
- F1 на уровне слов: Оценка F1 на основе наборов словарей
- CPDCscore: Взвешенная оценка, объединяющая WordF1, BLEU, USEScore и BERTScore
- Направление API: GPT-4o-mini, максимум 2 вызова API за раунд, ограничение входа 2000 токенов, ограничение выхода 200 токенов
- Направление GPU: Развертывание на платформе vLLM, dtype='bfloat16', gpu_memory_utilization=0.8
| Задача | Метод | CPDCscore |
|---|
| Задача 1 | ZeroShot | 0.422 |
| Задача 1 | Лучший метод (D+RW) | 0.586 |
| Задача 3 | ZeroShot | 0.510 |
| Задача 3 | Лучший метод | 0.601 |
Ключевые выводы:
- Значительный эффект Deflanderization: Стратегия D показала улучшение +0.013 в CPDCscore по сравнению с базовым уровнем нулевого выстрела в задаче 3
- Дальнейшее улучшение подсказок с примерами: Добавление примеров с несколькими выстрелами (F) дало улучшение +0.092 и +0.133 в задаче 1
- Ограниченная выгода от сложных подсказок: Сложные стратегии, такие как CoT и направленные ответы, показали предельную или непоследовательную выгоду
| Модель | Метод | Оценка задачи 1 | Оценка задачи 2 | Общая оценка |
|---|
| LLaMA3.1-8B | базовый уровень | 0.439 | 0.333 | 0.386 |
| Qwen3-14B | SFT + LoRA | 0.590 | 0.606 | 0.598 |
Ключевые выводы:
- Критическая важность размера модели и тонкой настройки: Qwen3-14B с SFT и LoRA достигла общей оценки 0.598, заняв 4-е место
- Умеренное улучшение от поиска с увеличением: Метод RAG повысил производительность Qwen3-8B до 0.522
- Компромисс между задачами: RAG+Refine показал лучшую производительность в задаче 1, но снизил производительность в задаче 2, в то время как LoRA-SFT достигла лучшего баланса
Систематические абляционные исследования подтвердили вклад каждого компонента:
- Deflanderization против стандартных подсказок
- Обучение с несколькими примерами против нулевого выстрела
- Сравнение различных стратегий поиска
- SFT против LoRA против комбинированного метода
- Системы, ориентированные на задачи: Такие как (Kazi et al., 2024), оценивающие эффективность планирования агентов и согласованность целей
- Игровые помощники: (Lee et al., 2025) разработали специализированных помощников для игр, помогающих новым игрокам
- Многоагентные платформы: (Phillips et al., 2025) использовали агентов диалога и агентов проверки целей
- Архитектура вызова функций: Многоэтапные платформы с компонентами выполнения, восприятия, проверки, управления и поиска
- Оценочные тесты: τ2-Bench представляет двойную контролируемую среду для оценки координации агентов
- Персонализация пользователя: Тесты, такие как LaMP, оценивают персонализированную генерацию текста
- Адаптация к окружению: Системы с несколькими агентами, такие как ChatDev и MetaGPT, с ролевым поведением
- Эффективность облегченной стратегии Deflanderization: Значительное улучшение производительности в параметре API путем подавления чрезмерного ролевого поведения
- Преимущество тонкой настройки больших моделей в направлении GPU: Qwen3-14B с SFT и LoRA достигла лучших результатов
- Балансирование между задачами — ключевой вызов: Методы, улучшающие точность ролевого поведения, иногда снижают корректность параметров
- Ограничения вычислительных ресурсов: Направление GPU ограничено бюджетом памяти L40s, что ограничивает использование более крупных моделей
- Масштаб корпуса поиска: Методы RAG ограничены масштабом и качеством корпуса поиска
- Ограничения метрик оценки: Автоматические метрики оценки не полностью отражают качество диалоговой системы, требуется оценка человеком
- Исследование гибридных стратегий: Объединение облегченных подсказок с поиском, увеличивающим тонкую настройку
- Долгосрочная согласованность: Методы сохранения согласованности персонажа в более длительных диалогах
- Мультимодальное расширение: Системы мультимодальных NPC, объединяющие визуальную и аудиоинформацию
- Четкое определение проблемы: Введение концепции Flanderization является новаторским и точно описывает ключевую проблему в ролевом поведении LLM
- Сильная взаимодополняемость методов: Использование различных, но взаимодополняющих стратегий в направлениях API и GPU демонстрирует всестороннее техническое видение
- Достаточные эксперименты: Систематические абляционные исследования и многомерная оценка подтверждают эффективность методов
- Высокая практическая ценность: Достижение отличных результатов в реальном конкурсе доказывает практическую применимость методов
- Недостаточный теоретический анализ: Отсутствует глубокий теоретический анализ явления Flanderization
- Непроверенная обобщаемость: Методы в основном проверены на наборе данных CPDC, отсутствует проверка обобщаемости на других игровых сценариях
- Отсутствие анализа вычислительной эффективности: Не проведен детальный анализ вычислительных затрат и эффективности вывода различных методов
- Недостаточная оценка пользовательского опыта: Отсутствует субъективная оценка опыта реальных игроков
- Академический вклад: Введение нового направления исследований и решений в области игровой AI
- Практическая ценность: Методы могут быть непосредственно применены в разработке игр для проектирования NPC
- Воспроизводимость: Предоставлены подробные детали реализации и шаблоны подсказок, облегчающие воспроизведение
- RPG-игры: Особенно подходят для ролевых игр, требующих богатого взаимодействия персонажей
- Образовательные игры: Могут использоваться для создания интеллектуальных помощников обучения и виртуальных наставников
- Социальные платформы: Расширение на чат-ботов в социальных платформах, таких как Discord
- Kazi et al. (2024): Large language models as user-agents for evaluating task-oriented-dialogue systems
- Lee et al. (2025): AMAN: Agent for mentoring and assisting newbies in MMORPG
- Phillips et al. (2025): Goal-oriented interactions in games using llms
- Park et al. (2023): Generative agents: Interactive simulacra of human behavior
- Sony AI (2025): The commonsense persona-grounded dialogue challenge 2025
В данной статье предложено инновационное решение в области игровой AI, которое эффективно балансирует аутентичность персонажа NPC и способность выполнения задач благодаря технике Deflanderization, предоставляя важный ориентир для проектирования интеллектуальных персонажей в будущих играх.