2025-11-24T17:52:17.819931

Deflanderization for Game Dialogue: Balancing Character Authenticity with Task Execution in LLM-based NPCs

Buakhaw, Kerdthaisong, Phenhiran et al.
The emergence of large language models (LLMs) has opened new opportunities for cre- ating dynamic non-player characters (NPCs) in gaming environments, enabling both func- tional task execution and persona-consistent dialogue generation. In this paper, we (Tu_Character_lab) report our participation in the Commonsense Persona-Grounded Dialogue Challenge (CPDC) 2025 Round 2, which eval- uates agents across three tracks: task-oriented dialogue, context-aware dialogue, and their integration. Our approach combines two complementary strategies: (i) lightweight prompting techniques in the API track, including a Deflanderization prompting method to suppress excessive role-play and improve task fidelity, and (ii) fine-tuned large models in the GPU track, leveraging Qwen3-14B with supervisedfinetuning (SFT) and Low-Rank Adaptation(LoRA). Our best submissions ranked 2nd on Task 1, 2nd on Task 3 (API track), and 4th on Task 3 (GPU track).
academic

Deflanderización para Diálogos en Juegos: Equilibrando la Autenticidad del Personaje con la Ejecución de Tareas en NPCs Basados en LLM

Información Básica

  • ID del Artículo: 2510.13586
  • Título: Deflanderización para Diálogos en Juegos: Equilibrando la Autenticidad del Personaje con la Ejecución de Tareas en NPCs Basados en LLM
  • Autores: Pasin Buakhaw, Kun Kerdthaisong, Phuree Phenhiran, Pitikorn Khlaisamniang, Supasate Vorathammathorn, Piyalitt Ittichaiwong, Nutchanon Yongsatianchot
  • Clasificación: cs.CL (Lingüística Computacional), cs.AI (Inteligencia Artificial)
  • Fecha de Publicación: 26 de octubre de 2025
  • Enlace del Artículo: https://arxiv.org/abs/2510.13586v3

Resumen

La emergencia de modelos de lenguaje de gran escala (LLMs) ha abierto nuevas oportunidades para crear personajes no jugadores (NPCs) dinámicos en entornos de juegos, permitiendo simultáneamente la ejecución de tareas funcionales y la generación de diálogos coherentes con el personaje. Este artículo reporta la participación del equipo (TU_Character_lab) en la segunda ronda del Desafío de Diálogo Orientado a Personajes de Sentido Común (CPDC) 2025, que evalúa el desempeño de agentes en tres pistas: diálogo orientado a tareas, diálogo consciente del contexto e integración de ambos. La metodología de investigación combina dos estrategias complementarias: (1) técnicas de indicación ligeras en la pista API, incluyendo el método de indicación de deflanderización que suprime el exceso de interpretación de roles y mejora la fidelidad de tareas; (2) ajuste fino de modelos grandes en la pista GPU, utilizando Qwen3-14B para ajuste fino supervisado (SFT) y adaptación de bajo rango (LoRA). Los mejores envíos clasificaron segundo en la Tarea 1, segundo en la Tarea 3 (pista API) y cuarto en la Tarea 3 (pista GPU).

Antecedentes de Investigación y Motivación

Definición del Problema

El desarrollo de juegos tradicional depende fuertemente de la lógica preprogramada, donde los eventos del juego e interacciones de personajes siguen guiones predefinidos y árboles de diálogo. Para mejorar la inmersión del jugador y la profundidad narrativa, los desarrolladores han comenzado a integrar LLMs como componentes centrales de NPCs, permitiéndoles exhibir comportamientos similares a los humanos e interactuar dinámicamente con los jugadores en diálogos conscientes del contexto.

Desafíos Centrales

Mantener la consistencia y profundidad de personajes dinámicos durante interacciones prolongadas presenta desafíos significativos, particularmente el fenómeno de "flanderización". Este término, derivado del personaje Ned Flanders de Los Simpson, se refiere a la simplificación gradual de personajes complejos a lo largo del tiempo, convirtiéndose finalmente en caricaturas definidas por una única característica exagerada.

Motivación de la Investigación

  1. Equilibrar autenticidad del personaje con ejecución de tareas: Los NPCs impulsados por LLM existentes frecuentemente descuidan la corrección funcional cuando se exceden en la interpretación de roles
  2. Consistencia de diálogo a largo plazo: Necesidad de mantener coherencia del personaje en diálogos extendidos
  3. Integración multitarea: Desafío de manejar simultáneamente diálogos orientados a tareas y diálogos conscientes del personaje

Contribuciones Principales

  1. Propuesta de técnica de indicación de Deflanderización: Suprime la interpretación excesiva de roles, logrando equilibrio entre capacidades de generación de diálogos y generación funcional
  2. Exploración de estrategias complementarias de indicación ligera y ajuste fino: Ingeniería de indicaciones para la pista API, ajuste fino de modelos para la pista GPU
  3. Construcción de método híbrido RAG+Memory: Combinación de generación aumentada por recuperación y mecanismos de memoria para mejorar la fundamentación del diálogo
  4. Logros sobresalientes en la competencia CPDC 2025: Clasificaciones de primer nivel en múltiples tareas, validando la efectividad del método

Explicación Detallada de Métodos

Definición de Tareas

La competencia CPDC comprende tres tareas:

  • Tarea 1: Agente de diálogo orientado a tareas - Evalúa la corrección de llamadas funcionales y precisión en la selección de parámetros
  • Tarea 2: Agente de diálogo consciente del contexto - Evalúa la consistencia de respuestas del NPC con el personaje especificado
  • Tarea 3: Diálogo integrado consciente del contexto y ejecución de tareas - Combina Tareas 1 y 2

Método de Pista API

Estrategia de Indicación de Deflanderización

La idea central es guiar al modelo para responder de manera natural y concisa, evitando la interpretación de roles exagerada. El análisis de errores reveló que la configuración de línea base frecuentemente producía salidas excesivamente detalladas y dispersas contextualmente, enfocándose excesivamente en la configuración narrativa en lugar de responder directamente a las solicitudes del jugador.

Técnicas de Indicación Principales:

  • D (Deflanderización): Indica al modelo evitar interpretación de roles excesiva
  • F (Pocos ejemplos): Incluye dos diálogos de ejemplo (comerciante y recepcionista de gremio)
  • CoT (Cadena de Pensamiento): Guía al modelo para pensar paso a paso
  • RW (Eliminar configuración del mundo): Elimina información de la configuración del mundo al construir indicaciones de diálogo
  • G (Guía): Limita respuestas a 1-2 oraciones cortas, utilizando lenguaje simple

Diseño de Canalización

Como se muestra en la Figura 2, la pista API emplea una canalización de cinco pasos:

  1. Preparar indicación de llamada funcional
  2. Generación funcional (Llamada API #1)
  3. Ejecutar función
  4. Preparar indicación de diálogo
  5. Generación de diálogo (Llamada API #2)

Método de Pista GPU

Selección de Modelo y Ajuste Fino

Debido a limitaciones computacionales (instancia AWS g5e.2xlarge, GPU L40s), se seleccionó un modelo capaz de ejecutarse en ese entorno, finalmente eligiendo Qwen3-14B como modelo principal.

Estrategia de Ajuste Fino:

  1. SFT Completo: Ajuste fino supervisado en datos de diálogos iniciales y sintéticos multiturno
  2. Ajuste Fino LoRA: Adaptación de bajo rango en conjuntos de datos de diálogos y llamadas funcionales (rango=32, α=32)

Método Híbrido RAG+Memory

  • Módulo de Recuperación: Utiliza Qwen3-Embedding-0.6B para codificar historial de diálogos de jugador y NPC
  • Fase de Inyección: Inyecta contexto recuperado en dos fases: selección funcional y redacción de diálogos
  • RAG+Refine: Reescribe borradores generados para coincidir con el tono y longitud de respuestas de referencia de alta similitud

Aumento de Datos

Utiliza gemini-2.5-pro-preview para generar datos de llamadas funcionales, GPT-4o-mini para generar datos de diálogos:

  • Diálogos multiturno: 2,800 puntos de datos
  • Razonamiento multiturno: 2,800 puntos de datos (Tarea 2)
  • Generación de llamadas funcionales: 328 puntos de datos (Tarea 1)

Configuración Experimental

Conjunto de Datos

  • Tarea 1: train.json, sample.json - Datos de llamadas funcionales
  • Tarea 2: train.json, sample.json - Datos de diálogos de personajes
  • El análisis de datos muestra distribución equilibrada de personajes NPC (20 comerciantes, 20 recepcionistas de gremio)

Métricas de Evaluación

Métricas de Tarea 1

  • Coincidencia Exacta de Nombre de Función: Precisión donde el nombre de función predicho coincide exactamente con la referencia
  • Coincidencia Exacta de Parámetros de Función: Precisión donde todos los parámetros predichos coinciden exactamente con la referencia
  • BERTScore: Mide similitud semántica utilizando incrustaciones BERT

Métricas de Tarea 2

  • BLEU-4: Puntuación basada en precisión de n-gramas modificada
  • F1 a Nivel de Palabra: Puntuación F1 basada en conjuntos de vocabulario
  • CPDCscore: Puntuación ponderada que integra WordF1, BLEU, USEScore y BERTScore

Detalles de Implementación

  • Pista API: GPT-4o-mini, máximo 2 llamadas API por turno, límite de entrada 2000 tokens, límite de salida 200 tokens
  • Pista GPU: Marco vLLM desplegado, dtype='bfloat16', gpu_memory_utilization=0.8

Resultados Experimentales

Resultados Principales de Pista API

TareaMétodoCPDCscore
Tarea 1ZeroShot0.422
Tarea 1Mejor Método (D+RW)0.586
Tarea 3ZeroShot0.510
Tarea 3Mejor Método0.601

Hallazgos Clave:

  1. Efecto significativo de Deflanderización: La estrategia D logra mejora de +0.013 en CPDCscore comparado con línea base de cero ejemplos en Tarea 3
  2. Mejora adicional de indicación con ejemplos: Agregar ejemplos (F) logra mejoras de +0.092 y +0.133 respectivamente en Tarea 1
  3. Beneficio limitado de indicaciones complejas: Estrategias complejas como CoT y respuestas guiadas muestran beneficios marginales o inconsistentes

Resultados Principales de Pista GPU

ModeloMétodoPuntuación Tarea 1Puntuación Tarea 2Puntuación Total
LLaMA3.1-8Bbaseline0.4390.3330.386
Qwen3-14BSFT + LoRA0.5900.6060.598

Hallazgos Clave:

  1. Tamaño de modelo y ajuste fino son críticos: Qwen3-14B con SFT y LoRA alcanza puntuación total de 0.598, clasificando cuarto
  2. Mejora moderada proporcionada por recuperación aumentada: El método RAG eleva el desempeño de Qwen3-8B a 0.522
  3. Compensación entre tareas: RAG+Refine muestra mejor desempeño en Tarea 1 pero rendimiento reducido en Tarea 2, mientras que LoRA-SFT logra mejor equilibrio

Experimentos de Ablación

Experimentos de ablación sistemáticos validan contribuciones de componentes:

  • Deflanderización vs indicación estándar
  • Aprendizaje con pocos ejemplos vs aprendizaje sin ejemplos
  • Comparación de diferentes estrategias de recuperación
  • SFT vs LoRA vs métodos combinados

Trabajo Relacionado

Agentes de Diálogo Orientados a Juegos

  • Sistemas orientados a tareas: Como (Kazi et al., 2024) que evalúan efectividad de planificación de agentes y alineación de objetivos
  • Asistentes de juegos: (Lee et al., 2025) desarrolla asistentes especializados para ayudar a jugadores novatos
  • Marcos multiagente: (Phillips et al., 2025) utiliza agentes de diálogo y agentes de validación de objetivos

Capacidades de Llamada de Herramientas

  • Arquitectura de llamadas funcionales: Marco multietapa que incluye componentes de ejecución, percepción, verificación, control y recuperación
  • Benchmarks de evaluación: τ2-Bench introduce entorno de control dual para evaluar capacidades de coordinación de agentes

LLMs de Interpretación de Roles

  • Personalización de usuario: Benchmarks como LaMP evalúan generación de texto personalizado
  • Adaptación ambiental: Sistemas multiagente como ChatDev y MetaGPT con interpretación de roles

Conclusiones y Discusión

Conclusiones Principales

  1. Estrategia ligera de Deflanderización es efectiva: Suprime interpretación de roles excesiva mejorando significativamente el desempeño en configuración API
  2. Ajuste fino de modelos grandes predomina en pista GPU: Qwen3-14B con SFT y LoRA logra mejor desempeño
  3. Equilibrio entre tareas es desafío clave: Métodos que mejoran fidelidad de interpretación de roles a veces dañan corrección de parámetros

Limitaciones

  1. Restricciones de recursos computacionales: Pista GPU limitada por presupuesto de memoria L40s, restringiendo uso de modelos más grandes
  2. Escala de corpus de recuperación: Método RAG limitado por escala y calidad del corpus de recuperación
  3. Limitaciones de métricas de evaluación: Métricas de evaluación automática no capturan completamente la calidad del sistema de diálogos, requiriendo evaluación humana

Direcciones Futuras

  1. Exploración de estrategias híbridas: Estrategia unificada combinando indicación ligera con ajuste fino aumentado por recuperación
  2. Consistencia a largo plazo: Métodos para mantener consistencia de personaje en diálogos más extensos
  3. Extensión multimodal: Sistemas NPC multimodales incorporando información visual y de audio

Evaluación Profunda

Fortalezas

  1. Definición clara del problema: Introducción del concepto de Flanderización es novedosa, describiendo precisamente problemas clave en interpretación de roles con LLM
  2. Fuerte complementariedad de métodos: Estrategias diferentes pero complementarias en pistas API y GPU, demostrando perspectiva técnica comprehensiva
  3. Experimentación suficiente: Experimentos de ablación sistemáticos y evaluación multidimensional validan efectividad de métodos
  4. Alto valor práctico: Logros sobresalientes en competencia real demuestran practicidad de métodos

Deficiencias

  1. Análisis teórico insuficiente: Falta análisis teórico profundo del fenómeno de Flanderización
  2. Generalización no verificada: Métodos validados principalmente en conjunto de datos CPDC, falta verificación de generalización en otros escenarios de juegos
  3. Análisis de eficiencia computacional ausente: Falta análisis detallado de costos computacionales e eficiencia de inferencia de diferentes métodos
  4. Evaluación de experiencia de usuario insuficiente: Falta evaluación de experiencia subjetiva de jugadores reales

Impacto

  1. Contribución académica: Introduce nuevas direcciones de investigación y soluciones para campo de IA en juegos
  2. Valor práctico: Métodos aplicables directamente a diseño de NPCs en desarrollo de juegos
  3. Reproducibilidad: Proporciona detalles de implementación detallados y plantillas de indicaciones facilitando reproducción

Escenarios Aplicables

  1. Juegos RPG: Particularmente adecuado para juegos de rol que requieren interacción rica de personajes
  2. Juegos educativos: Puede utilizarse para crear asistentes de enseñanza inteligentes y tutores virtuales
  3. Plataformas sociales: Extensible a chatbots en plataformas sociales como Discord

Referencias

  1. Kazi et al. (2024): Modelos de lenguaje de gran escala como agentes de usuario para evaluar sistemas de diálogo orientados a tareas
  2. Lee et al. (2025): AMAN: Agente para mentoría y asistencia de novatos en MMORPG
  3. Phillips et al. (2025): Interacciones orientadas a objetivos en juegos utilizando llms
  4. Park et al. (2023): Agentes generativos: Simulacros interactivos de comportamiento humano
  5. Sony AI (2025): El desafío de diálogo orientado a personajes de sentido común 2025

Este artículo propone una solución innovadora en el campo de IA para juegos, equilibrando efectivamente la autenticidad del personaje del NPC con capacidades de ejecución de tareas mediante tecnología de Deflanderización, proporcionando referencias importantes para el diseño futuro de personajes inteligentes en juegos.