2025-11-24T17:52:17.819931

Deflanderization for Game Dialogue: Balancing Character Authenticity with Task Execution in LLM-based NPCs

Buakhaw, Kerdthaisong, Phenhiran et al.

The emergence of large language models (LLMs) has opened new opportunities for cre- ating dynamic non-player characters (NPCs) in gaming environments, enabling both func- tional task execution and persona-consistent dialogue generation. In this paper, we (Tu_Character_lab) report our participation in the Commonsense Persona-Grounded Dialogue Challenge (CPDC) 2025 Round 2, which eval- uates agents across three tracks: task-oriented dialogue, context-aware dialogue, and their integration. Our approach combines two complementary strategies: (i) lightweight prompting techniques in the API track, including a Deflanderization prompting method to suppress excessive role-play and improve task fidelity, and (ii) fine-tuned large models in the GPU track, leveraging Qwen3-14B with supervisedfinetuning (SFT) and Low-Rank Adaptation(LoRA). Our best submissions ranked 2nd on Task 1, 2nd on Task 3 (API track), and 4th on Task 3 (GPU track).

academic

Deflanderización para Diálogos en Juegos: Equilibrando la Autenticidad del Personaje con la Ejecución de Tareas en NPCs Basados en LLM

Información Básica

ID del Artículo: 2510.13586
Título: Deflanderización para Diálogos en Juegos: Equilibrando la Autenticidad del Personaje con la Ejecución de Tareas en NPCs Basados en LLM
Autores: Pasin Buakhaw, Kun Kerdthaisong, Phuree Phenhiran, Pitikorn Khlaisamniang, Supasate Vorathammathorn, Piyalitt Ittichaiwong, Nutchanon Yongsatianchot
Clasificación: cs.CL (Lingüística Computacional), cs.AI (Inteligencia Artificial)
Fecha de Publicación: 26 de octubre de 2025
Enlace del Artículo: https://arxiv.org/abs/2510.13586v3

Resumen

La emergencia de modelos de lenguaje de gran escala (LLMs) ha abierto nuevas oportunidades para crear personajes no jugadores (NPCs) dinámicos en entornos de juegos, permitiendo simultáneamente la ejecución de tareas funcionales y la generación de diálogos coherentes con el personaje. Este artículo reporta la participación del equipo (TU_Character_lab) en la segunda ronda del Desafío de Diálogo Orientado a Personajes de Sentido Común (CPDC) 2025, que evalúa el desempeño de agentes en tres pistas: diálogo orientado a tareas, diálogo consciente del contexto e integración de ambos. La metodología de investigación combina dos estrategias complementarias: (1) técnicas de indicación ligeras en la pista API, incluyendo el método de indicación de deflanderización que suprime el exceso de interpretación de roles y mejora la fidelidad de tareas; (2) ajuste fino de modelos grandes en la pista GPU, utilizando Qwen3-14B para ajuste fino supervisado (SFT) y adaptación de bajo rango (LoRA). Los mejores envíos clasificaron segundo en la Tarea 1, segundo en la Tarea 3 (pista API) y cuarto en la Tarea 3 (pista GPU).

Antecedentes de Investigación y Motivación

Definición del Problema

El desarrollo de juegos tradicional depende fuertemente de la lógica preprogramada, donde los eventos del juego e interacciones de personajes siguen guiones predefinidos y árboles de diálogo. Para mejorar la inmersión del jugador y la profundidad narrativa, los desarrolladores han comenzado a integrar LLMs como componentes centrales de NPCs, permitiéndoles exhibir comportamientos similares a los humanos e interactuar dinámicamente con los jugadores en diálogos conscientes del contexto.

Desafíos Centrales

Mantener la consistencia y profundidad de personajes dinámicos durante interacciones prolongadas presenta desafíos significativos, particularmente el fenómeno de "flanderización". Este término, derivado del personaje Ned Flanders de Los Simpson, se refiere a la simplificación gradual de personajes complejos a lo largo del tiempo, convirtiéndose finalmente en caricaturas definidas por una única característica exagerada.

Motivación de la Investigación

Equilibrar autenticidad del personaje con ejecución de tareas: Los NPCs impulsados por LLM existentes frecuentemente descuidan la corrección funcional cuando se exceden en la interpretación de roles
Consistencia de diálogo a largo plazo: Necesidad de mantener coherencia del personaje en diálogos extendidos
Integración multitarea: Desafío de manejar simultáneamente diálogos orientados a tareas y diálogos conscientes del personaje

Contribuciones Principales

Propuesta de técnica de indicación de Deflanderización: Suprime la interpretación excesiva de roles, logrando equilibrio entre capacidades de generación de diálogos y generación funcional
Exploración de estrategias complementarias de indicación ligera y ajuste fino: Ingeniería de indicaciones para la pista API, ajuste fino de modelos para la pista GPU
Construcción de método híbrido RAG+Memory: Combinación de generación aumentada por recuperación y mecanismos de memoria para mejorar la fundamentación del diálogo
Logros sobresalientes en la competencia CPDC 2025: Clasificaciones de primer nivel en múltiples tareas, validando la efectividad del método

Explicación Detallada de Métodos

Definición de Tareas

La competencia CPDC comprende tres tareas:

Tarea 1: Agente de diálogo orientado a tareas - Evalúa la corrección de llamadas funcionales y precisión en la selección de parámetros
Tarea 2: Agente de diálogo consciente del contexto - Evalúa la consistencia de respuestas del NPC con el personaje especificado
Tarea 3: Diálogo integrado consciente del contexto y ejecución de tareas - Combina Tareas 1 y 2

Método de Pista API

Estrategia de Indicación de Deflanderización

La idea central es guiar al modelo para responder de manera natural y concisa, evitando la interpretación de roles exagerada. El análisis de errores reveló que la configuración de línea base frecuentemente producía salidas excesivamente detalladas y dispersas contextualmente, enfocándose excesivamente en la configuración narrativa en lugar de responder directamente a las solicitudes del jugador.

Técnicas de Indicación Principales:

D (Deflanderización): Indica al modelo evitar interpretación de roles excesiva
F (Pocos ejemplos): Incluye dos diálogos de ejemplo (comerciante y recepcionista de gremio)
CoT (Cadena de Pensamiento): Guía al modelo para pensar paso a paso
RW (Eliminar configuración del mundo): Elimina información de la configuración del mundo al construir indicaciones de diálogo
G (Guía): Limita respuestas a 1-2 oraciones cortas, utilizando lenguaje simple

Diseño de Canalización

Como se muestra en la Figura 2, la pista API emplea una canalización de cinco pasos:

Preparar indicación de llamada funcional
Generación funcional (Llamada API #1)
Ejecutar función
Preparar indicación de diálogo
Generación de diálogo (Llamada API #2)

Método de Pista GPU

Selección de Modelo y Ajuste Fino

Debido a limitaciones computacionales (instancia AWS g5e.2xlarge, GPU L40s), se seleccionó un modelo capaz de ejecutarse en ese entorno, finalmente eligiendo Qwen3-14B como modelo principal.

Estrategia de Ajuste Fino:

SFT Completo: Ajuste fino supervisado en datos de diálogos iniciales y sintéticos multiturno
Ajuste Fino LoRA: Adaptación de bajo rango en conjuntos de datos de diálogos y llamadas funcionales (rango=32, α=32)

Método Híbrido RAG+Memory

Módulo de Recuperación: Utiliza Qwen3-Embedding-0.6B para codificar historial de diálogos de jugador y NPC
Fase de Inyección: Inyecta contexto recuperado en dos fases: selección funcional y redacción de diálogos
RAG+Refine: Reescribe borradores generados para coincidir con el tono y longitud de respuestas de referencia de alta similitud

Aumento de Datos

Utiliza gemini-2.5-pro-preview para generar datos de llamadas funcionales, GPT-4o-mini para generar datos de diálogos:

Diálogos multiturno: 2,800 puntos de datos
Razonamiento multiturno: 2,800 puntos de datos (Tarea 2)
Generación de llamadas funcionales: 328 puntos de datos (Tarea 1)

Configuración Experimental

Conjunto de Datos

Tarea 1: train.json, sample.json - Datos de llamadas funcionales
Tarea 2: train.json, sample.json - Datos de diálogos de personajes
El análisis de datos muestra distribución equilibrada de personajes NPC (20 comerciantes, 20 recepcionistas de gremio)

Métricas de Evaluación

Métricas de Tarea 1

Coincidencia Exacta de Nombre de Función: Precisión donde el nombre de función predicho coincide exactamente con la referencia
Coincidencia Exacta de Parámetros de Función: Precisión donde todos los parámetros predichos coinciden exactamente con la referencia
BERTScore: Mide similitud semántica utilizando incrustaciones BERT

Métricas de Tarea 2

BLEU-4: Puntuación basada en precisión de n-gramas modificada
F1 a Nivel de Palabra: Puntuación F1 basada en conjuntos de vocabulario
CPDCscore: Puntuación ponderada que integra WordF1, BLEU, USEScore y BERTScore

Detalles de Implementación

Pista API: GPT-4o-mini, máximo 2 llamadas API por turno, límite de entrada 2000 tokens, límite de salida 200 tokens
Pista GPU: Marco vLLM desplegado, dtype='bfloat16', gpu_memory_utilization=0.8

Resultados Experimentales

Resultados Principales de Pista API

Tarea	Método	CPDCscore
Tarea 1	ZeroShot	0.422
Tarea 1	Mejor Método (D+RW)	0.586
Tarea 3	ZeroShot	0.510
Tarea 3	Mejor Método	0.601

Hallazgos Clave:

Efecto significativo de Deflanderización: La estrategia D logra mejora de +0.013 en CPDCscore comparado con línea base de cero ejemplos en Tarea 3
Mejora adicional de indicación con ejemplos: Agregar ejemplos (F) logra mejoras de +0.092 y +0.133 respectivamente en Tarea 1
Beneficio limitado de indicaciones complejas: Estrategias complejas como CoT y respuestas guiadas muestran beneficios marginales o inconsistentes

Resultados Principales de Pista GPU

Modelo	Método	Puntuación Tarea 1	Puntuación Tarea 2	Puntuación Total
LLaMA3.1-8B	baseline	0.439	0.333	0.386
Qwen3-14B	SFT + LoRA	0.590	0.606	0.598

Hallazgos Clave:

Tamaño de modelo y ajuste fino son críticos: Qwen3-14B con SFT y LoRA alcanza puntuación total de 0.598, clasificando cuarto
Mejora moderada proporcionada por recuperación aumentada: El método RAG eleva el desempeño de Qwen3-8B a 0.522
Compensación entre tareas: RAG+Refine muestra mejor desempeño en Tarea 1 pero rendimiento reducido en Tarea 2, mientras que LoRA-SFT logra mejor equilibrio

Experimentos de Ablación

Experimentos de ablación sistemáticos validan contribuciones de componentes:

Deflanderización vs indicación estándar
Aprendizaje con pocos ejemplos vs aprendizaje sin ejemplos
Comparación de diferentes estrategias de recuperación
SFT vs LoRA vs métodos combinados

Trabajo Relacionado

Agentes de Diálogo Orientados a Juegos

Sistemas orientados a tareas: Como (Kazi et al., 2024) que evalúan efectividad de planificación de agentes y alineación de objetivos
Asistentes de juegos: (Lee et al., 2025) desarrolla asistentes especializados para ayudar a jugadores novatos
Marcos multiagente: (Phillips et al., 2025) utiliza agentes de diálogo y agentes de validación de objetivos

Capacidades de Llamada de Herramientas

Arquitectura de llamadas funcionales: Marco multietapa que incluye componentes de ejecución, percepción, verificación, control y recuperación
Benchmarks de evaluación: τ2-Bench introduce entorno de control dual para evaluar capacidades de coordinación de agentes

LLMs de Interpretación de Roles

Personalización de usuario: Benchmarks como LaMP evalúan generación de texto personalizado
Adaptación ambiental: Sistemas multiagente como ChatDev y MetaGPT con interpretación de roles

Conclusiones y Discusión

Conclusiones Principales

Estrategia ligera de Deflanderización es efectiva: Suprime interpretación de roles excesiva mejorando significativamente el desempeño en configuración API
Ajuste fino de modelos grandes predomina en pista GPU: Qwen3-14B con SFT y LoRA logra mejor desempeño
Equilibrio entre tareas es desafío clave: Métodos que mejoran fidelidad de interpretación de roles a veces dañan corrección de parámetros

Limitaciones

Restricciones de recursos computacionales: Pista GPU limitada por presupuesto de memoria L40s, restringiendo uso de modelos más grandes
Escala de corpus de recuperación: Método RAG limitado por escala y calidad del corpus de recuperación
Limitaciones de métricas de evaluación: Métricas de evaluación automática no capturan completamente la calidad del sistema de diálogos, requiriendo evaluación humana

Direcciones Futuras

Exploración de estrategias híbridas: Estrategia unificada combinando indicación ligera con ajuste fino aumentado por recuperación
Consistencia a largo plazo: Métodos para mantener consistencia de personaje en diálogos más extensos
Extensión multimodal: Sistemas NPC multimodales incorporando información visual y de audio

Evaluación Profunda

Fortalezas

Definición clara del problema: Introducción del concepto de Flanderización es novedosa, describiendo precisamente problemas clave en interpretación de roles con LLM
Fuerte complementariedad de métodos: Estrategias diferentes pero complementarias en pistas API y GPU, demostrando perspectiva técnica comprehensiva
Experimentación suficiente: Experimentos de ablación sistemáticos y evaluación multidimensional validan efectividad de métodos
Alto valor práctico: Logros sobresalientes en competencia real demuestran practicidad de métodos

Deficiencias

Análisis teórico insuficiente: Falta análisis teórico profundo del fenómeno de Flanderización
Generalización no verificada: Métodos validados principalmente en conjunto de datos CPDC, falta verificación de generalización en otros escenarios de juegos
Análisis de eficiencia computacional ausente: Falta análisis detallado de costos computacionales e eficiencia de inferencia de diferentes métodos
Evaluación de experiencia de usuario insuficiente: Falta evaluación de experiencia subjetiva de jugadores reales

Impacto

Contribución académica: Introduce nuevas direcciones de investigación y soluciones para campo de IA en juegos
Valor práctico: Métodos aplicables directamente a diseño de NPCs en desarrollo de juegos
Reproducibilidad: Proporciona detalles de implementación detallados y plantillas de indicaciones facilitando reproducción

Escenarios Aplicables

Juegos RPG: Particularmente adecuado para juegos de rol que requieren interacción rica de personajes
Juegos educativos: Puede utilizarse para crear asistentes de enseñanza inteligentes y tutores virtuales
Plataformas sociales: Extensible a chatbots en plataformas sociales como Discord

Referencias

Kazi et al. (2024): Modelos de lenguaje de gran escala como agentes de usuario para evaluar sistemas de diálogo orientados a tareas
Lee et al. (2025): AMAN: Agente para mentoría y asistencia de novatos en MMORPG
Phillips et al. (2025): Interacciones orientadas a objetivos en juegos utilizando llms
Park et al. (2023): Agentes generativos: Simulacros interactivos de comportamiento humano
Sony AI (2025): El desafío de diálogo orientado a personajes de sentido común 2025

Este artículo propone una solución innovadora en el campo de IA para juegos, equilibrando efectivamente la autenticidad del personaje del NPC con capacidades de ejecución de tareas mediante tecnología de Deflanderización, proporcionando referencias importantes para el diseño futuro de personajes inteligentes en juegos.