2025-11-24T17:52:17.819931

Deflanderization for Game Dialogue: Balancing Character Authenticity with Task Execution in LLM-based NPCs

Buakhaw, Kerdthaisong, Phenhiran et al.
The emergence of large language models (LLMs) has opened new opportunities for cre- ating dynamic non-player characters (NPCs) in gaming environments, enabling both func- tional task execution and persona-consistent dialogue generation. In this paper, we (Tu_Character_lab) report our participation in the Commonsense Persona-Grounded Dialogue Challenge (CPDC) 2025 Round 2, which eval- uates agents across three tracks: task-oriented dialogue, context-aware dialogue, and their integration. Our approach combines two complementary strategies: (i) lightweight prompting techniques in the API track, including a Deflanderization prompting method to suppress excessive role-play and improve task fidelity, and (ii) fine-tuned large models in the GPU track, leveraging Qwen3-14B with supervisedfinetuning (SFT) and Low-Rank Adaptation(LoRA). Our best submissions ranked 2nd on Task 1, 2nd on Task 3 (API track), and 4th on Task 3 (GPU track).
academic

Deflanderization für Spieldialoge: Ausgewogenheit zwischen Charakterauthentizität und Aufgabenausführung in LLM-basierten NPCs

Grundlegende Informationen

  • Paper-ID: 2510.13586
  • Titel: Deflanderization for Game Dialogue: Balancing Character Authenticity with Task Execution in LLM-based NPCs
  • Autoren: Pasin Buakhaw, Kun Kerdthaisong, Phuree Phenhiran, Pitikorn Khlaisamniang, Supasate Vorathammathorn, Piyalitt Ittichaiwong, Nutchanon Yongsatianchot
  • Klassifizierung: cs.CL (Computerlinguistik), cs.AI (Künstliche Intelligenz)
  • Veröffentlichungsdatum: 26. Oktober 2025
  • Paper-Link: https://arxiv.org/abs/2510.13586v3

Zusammenfassung

Das Aufkommen großer Sprachmodelle (LLMs) eröffnet neue Möglichkeiten für die Erstellung dynamischer Nicht-Spieler-Charaktere (NPCs) in Spielumgebungen, die gleichzeitig funktionale Aufgabenausführung und charakterkonsistente Dialoggenerierung ermöglichen. Dieser Beitrag berichtet über die Teilnahme des Teams (TU_Character_lab) an der zweiten Runde der Common Sense Persona-grounded Dialogue Challenge (CPDC) 2025, die die Leistung von Agenten in drei Tracks bewertet: aufgabenorientierte Dialoge, kontextbewusste Dialoge und deren Integration. Der Forschungsansatz kombiniert zwei komplementäre Strategien: (1) leichte Prompt-Techniken im API-Track, einschließlich der Deflanderization-Prompt-Methode zur Unterdrückung übermäßiger Rollenspiele und Verbesserung der Aufgabengenauigkeit; (2) Feinabstimmung großer Modelle im GPU-Track unter Verwendung von Qwen3-14B für überwachte Feinabstimmung (SFT) und Low-Rank-Anpassung (LoRA). Die beste Einreichung rangiert auf Platz 2 bei Aufgabe 1, Platz 2 bei Aufgabe 3 (API-Track) und Platz 4 bei Aufgabe 3 (GPU-Track).

Forschungshintergrund und Motivation

Problemdefinition

Die traditionelle Spieleentwicklung ist stark von vorprogrammierter Logik abhängig, wobei Spielereignisse und Charakterinteraktionen vordefinierten Skripten und Dialogbäumen folgen. Um die Spielerimmersion und narrative Tiefe zu verbessern, beginnen Entwickler, LLMs als Kernkomponenten von NPCs einzusetzen, um ihnen menschenähnliches Verhalten zu ermöglichen und dynamische, kontextbewusste Dialoge mit Spielern zu führen.

Kernherausforderungen

Die Aufrechterhaltung von Konsistenz und Tiefe dynamischer Charaktere über längere Interaktionen hinweg stellt eine erhebliche Herausforderung dar, insbesondere das Phänomen der „Flanderisierung" (Flanderization). Dieser Begriff stammt vom Charakter Ned Flanders aus „Die Simpsons" und bezieht sich auf die allmähliche Vereinfachung komplexer Charaktere im Laufe der Zeit, bis sie schließlich von einem einzelnen übertriebenen Merkmal definiert werden.

Forschungsmotivation

  1. Ausgewogenheit zwischen Charakterauthentizität und Aufgabenausführung: Bestehende LLM-gesteuerte NPCs vernachlässigen häufig funktionale Korrektheit bei übermäßigem Rollenspiel
  2. Langfristige Dialogkonsistenz: Notwendigkeit, Charakterkohärenz in erweiterten Dialogen zu bewahren
  3. Multi-Task-Integration: Herausforderung der gleichzeitigen Behandlung aufgabenorientierter und charakterkonsistenter Dialoge

Kernbeiträge

  1. Einführung der Deflanderization-Prompt-Technik: Unterdrückung übermäßigen Rollenspiels und Ausgewogenheit zwischen Dialoggenerierung und funktionalen Generierungsfähigkeiten
  2. Erkundung komplementärer Strategien aus leichten Prompts und Feinabstimmung: Prompt-Engineering im API-Track, Modellfeinabstimmung im GPU-Track
  3. Entwicklung einer hybriden RAG+Memory-Methode: Kombination von Retrieval-Augmented Generation und Speichermechanismen zur Verbesserung der Dialoggrundlagen
  4. Hervorragende Ergebnisse in der CPDC 2025-Konkurrenz: Vordere Platzierungen in mehreren Aufgaben validieren die Methodeneffektivität

Methodische Details

Aufgabendefinition

Die CPDC-Konkurrenz umfasst drei Aufgaben:

  • Aufgabe 1: Aufgabenorientierter Dialog-Agent – Bewertung der Korrektheit von Funktionsaufrufen und Parameterauswahlgenauigkeit
  • Aufgabe 2: Kontextbewusster Dialog-Agent – Bewertung der NPC-Reaktion auf Konsistenz mit dem angegebenen Charakter
  • Aufgabe 3: Integration kontextbewusster Dialoge und Aufgabenausführung – Kombination von Aufgabe 1 und 2

API-Track-Methode

Deflanderization-Prompt-Strategie

Die Kernidee besteht darin, das Modell anzuleiten, natürlich und prägnant zu reagieren und übertriebenes Rollenspiel zu vermeiden. Die Fehleranalyse zeigt, dass Baseline-Einstellungen häufig zu detaillierte und kontextverstreute Ausgaben erzeugen, die sich übermäßig auf narrative Einstellungen konzentrieren, anstatt direkt auf Spieleranfragen zu reagieren.

Hauptprompt-Techniken:

  • D (Deflanderization): Anleitung des Modells zur Vermeidung übermäßigen Rollenspiels
  • F (Fewshot): Einbeziehung von zwei Beispieldialogen (Kaufmann und Gildenempfänger)
  • CoT (Chain of Thought): Anleitung des Modells zum schrittweisen Denken
  • RW (Remove world setting): Entfernung von Weltanschauungsinformationen beim Aufbau von Dialog-Prompts
  • G (Guide): Begrenzung der Antwort auf 1-2 kurze Sätze mit einfacher Sprache

Pipeline-Design

Wie in Abbildung 2 dargestellt, verwendet der API-Track eine fünfstufige Pipeline:

  1. Vorbereitung des Funktionsaufrufs-Prompts
  2. Funktionsgenerierung (API-Aufruf #1)
  3. Funktionsausführung
  4. Vorbereitung des Dialog-Prompts
  5. Dialoggenerierung (API-Aufruf #2)

GPU-Track-Methode

Modellauswahl und Feinabstimmung

Aufgrund von Rechenbeschränkungen (AWS g5e.2xlarge-Instanz, L40s-GPU) wurde ein Modell ausgewählt, das in dieser Umgebung ausgeführt werden kann. Letztendlich wurde Qwen3-14B als Hauptmodell gewählt.

Feinabstimmungsstrategie:

  1. Vollständige SFT: Überwachte Feinabstimmung auf anfänglichen und synthetischen mehrrundigen Dialogdaten
  2. LoRA-Feinabstimmung: Low-Rank-Anpassung auf Dialog- und Funktionsaufrufdatensätzen (rank=32, α=32)

Hybride RAG+Memory-Methode

  • Abrufmodul: Verwendung von Qwen3-Embedding-0.6B zur Kodierung von Spieler- und NPC-Dialogverlauf
  • Injektionsphase: Abrufkontext in zwei Phasen injizieren: Funktionsauswahl und Dialogentwurf
  • RAG+Refine: Umschreiben von Generierungsentwürfen zur Anpassung an Ton und Länge von Gold-Referenzantworten mit hoher Ähnlichkeit

Datenerweiterung

Verwendung von gemini-2.5-pro-preview zur Generierung von Funktionsaufrufdaten und GPT-4o-mini zur Generierung von Dialogdaten:

  • Mehrrundige Dialoge: 2.800 Datenpunkte
  • Mehrrundiges Reasoning: 2.800 Datenpunkte (Aufgabe 2)
  • Funktionsaufrufs-Generierung: 328 Datenpunkte (Aufgabe 1)

Experimentelle Einrichtung

Datensätze

  • Aufgabe 1: train.json, sample.json – Funktionsaufrufdaten
  • Aufgabe 2: train.json, sample.json – Charakterdialdaten
  • Datenanalyse zeigt ausgewogene NPC-Charakterverteilung (20 Kaufleute, 20 Gildenempfänger)

Bewertungsmetriken

Aufgabe 1-Metriken

  • Funktionsnamen-Exact-Match: Genauigkeit der Vorhersage von Funktionsnamen, die genau mit der Referenz übereinstimmen
  • Funktionsparameter-Exact-Match: Genauigkeit, bei der alle vorhergesagten Parameter genau mit der Referenz übereinstimmen
  • BERTScore: Messung der semantischen Ähnlichkeit unter Verwendung von BERT-Einbettungen

Aufgabe 2-Metriken

  • BLEU-4: Bewertung basierend auf korrigierter n-Gramm-Präzision
  • Wort-Level F1: F1-Score basierend auf Wortmengen
  • CPDCscore: Gewichteter Score, der WordF1, BLEU, USEScore und BERTScore kombiniert

Implementierungsdetails

  • API-Track: GPT-4o-mini, maximal 2 API-Aufrufe pro Runde, Eingabebegrenzung 2000 Tokens, Ausgabebegrenzung 200 Tokens
  • GPU-Track: vLLM-Framework-Bereitstellung, dtype='bfloat16', gpu_memory_utilization=0.8

Experimentelle Ergebnisse

Hauptergebnisse des API-Tracks

AufgabeMethodeCPDCscore
Aufgabe 1ZeroShot0.422
Aufgabe 1Beste Methode (D+RW)0.586
Aufgabe 3ZeroShot0.510
Aufgabe 3Beste Methode0.601

Schlüsselergebnisse:

  1. Signifikante Deflanderization-Effekte: D-Strategie erreicht +0,013 CPDCscore-Verbesserung gegenüber Zero-Shot-Baseline bei Aufgabe 3
  2. Weitere Verbesserung durch Few-Shot-Prompts: Hinzufügen von Few-Shot-Beispielen (F) erreicht +0,092 bzw. +0,133 Verbesserungen bei Aufgabe 1
  3. Begrenzte Gewinne bei komplexen Prompts: Komplexe Strategien wie CoT und Antwortleitfäden zeigen marginale oder inkonsistente Gewinne

Hauptergebnisse des GPU-Tracks

ModellMethodeAufgabe 1-ScoreAufgabe 2-ScoreGesamtscore
LLaMA3.1-8BBaseline0.4390.3330.386
Qwen3-14BSFT + LoRA0.5900.6060.598

Schlüsselergebnisse:

  1. Modellgröße und Feinabstimmung sind entscheidend: Qwen3-14B mit SFT und LoRA erreicht 0.598 Gesamtscore, Platz 4
  2. Retrieval-Verbesserung bietet moderate Verbesserungen: RAG-Methode verbessert Qwen3-8B-Leistung auf 0.522
  3. Aufgabenübergreifende Kompromisse: RAG+Refine zeigt beste Leistung bei Aufgabe 1, aber reduzierte Leistung bei Aufgabe 2; LoRA-SFT erreicht bessere Balance

Ablationsstudien

Systematische Ablationsstudien validieren Komponentenbeiträge:

  • Deflanderization vs. Standard-Prompting
  • Few-Shot-Lernen vs. Zero-Shot-Lernen
  • Vergleich verschiedener Abrufstrategien
  • SFT vs. LoRA vs. kombinierte Methoden

Verwandte Arbeiten

Spielorientierte Dialog-Agenten

  • Aufgabenorientierte Systeme: Wie (Kazi et al., 2024) zur Bewertung der Planungseffektivität und Zielausrichtung von Agenten
  • Spiel-Assistenten: (Lee et al., 2025) entwickelt spezialisierte Spiel-Assistenten zur Unterstützung neuer Spieler
  • Multi-Agent-Frameworks: (Phillips et al., 2025) nutzt Dialog-Agenten und Zielvalidierungs-Agenten

Werkzeugaufrufs-Fähigkeiten

  • Funktionsaufrufs-Architektur: Mehrstufige Frameworks mit Ausführungs-, Wahrnehmungs-, Validierungs-, Kontroll- und Abrufkomponenten
  • Bewertungs-Benchmarks: τ2-Bench führt duale Kontrollumgebungen zur Bewertung der Agent-Koordinationsfähigkeit ein

Rollenspiel-LLMs

  • Benutzer-Personalisierung: LaMP und andere Benchmarks zur Bewertung personalisierter Textgenerierung
  • Umgebungsanpassung: Rollenspiel in Multi-Agent-Systemen wie ChatDev und MetaGPT

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Leichte Deflanderization-Strategien sind effektiv: Signifikante Leistungsverbesserung im API-Setup durch Unterdrückung übermäßigen Rollenspiels
  2. Feinabstimmung großer Modelle dominiert im GPU-Track: Qwen3-14B mit SFT und LoRA erreicht beste Ergebnisse
  3. Aufgabenübergreifende Balance ist eine Schlüsselherausforderung: Methoden zur Verbesserung der Rollenspiel-Genauigkeit können manchmal die Parametergenauigkeit beeinträchtigen

Einschränkungen

  1. Rechenbeschränkungen: GPU-Track ist durch L40s-Speicherbudget begrenzt, was die Verwendung größerer Modelle einschränkt
  2. Abrufkorpus-Größe: RAG-Methode ist durch Größe und Qualität des Abrufkorpus begrenzt
  3. Bewertungsmetrik-Einschränkungen: Automatische Bewertungsmetriken können Dialogsystem-Qualität nicht vollständig widerspiegeln; menschliche Bewertung ist erforderlich

Zukünftige Richtungen

  1. Hybrid-Strategie-Erkundung: Vereinheitlichte Hybrid-Strategien aus leichten Prompts und Retrieval-verstärkter Feinabstimmung
  2. Langfristige Konsistenz: Methoden zur Aufrechterhaltung von Charakterkonsistenz in längeren Dialogen
  3. Multimodale Erweiterung: Multimodale NPC-Systeme, die visuelle und Audioinformationen integrieren

Tiefgreifende Bewertung

Stärken

  1. Klare Problemdefinition: Innovative Einführung des Flanderisierungs-Konzepts, das Schlüsselprobleme beim LLM-Rollenspiel präzise beschreibt
  2. Starke Methodenkomplementarität: Unterschiedliche aber komplementäre Strategien in API- und GPU-Tracks zeigen umfassende technische Perspektive
  3. Umfassende Experimente: Systematische Ablationsstudien und mehrdimensionale Bewertung validieren Methodeneffektivität
  4. Hoher praktischer Wert: Hervorragende Ergebnisse in realer Konkurrenz beweisen praktische Anwendbarkeit

Schwächen

  1. Unzureichende theoretische Analyse: Mangel an tiefgreifender theoretischer Analyse des Flanderisierungs-Phänomens
  2. Unverifizierten Generalisierbarkeit: Methoden hauptsächlich auf CPDC-Datensatz validiert, Generalisierung auf andere Spielszenarien nicht verifiziert
  3. Fehlende Recheneffizienz-Analyse: Keine detaillierte Analyse der Rechenkosten und Inferenzeffizienz verschiedener Methoden
  4. Unzureichende Benutzerfahrungs-Bewertung: Mangel an subjektiver Bewertung echter Spieler

Auswirkungen

  1. Akademischer Beitrag: Führt neue Forschungsrichtung und Lösungen im Game-AI-Bereich ein
  2. Praktischer Wert: Methoden können direkt auf NPC-Design in der Spieleentwicklung angewendet werden
  3. Reproduzierbarkeit: Detaillierte Implementierungsdetails und Prompt-Vorlagen ermöglichen einfache Reproduktion

Anwendungsszenarien

  1. RPG-Spiele: Besonders geeignet für Rollenspiele mit umfangreicher Charakterinteraktion
  2. Lernspiele: Einsatz zur Erstellung intelligenter Lehr-Assistenten und virtueller Tutoren
  3. Soziale Plattformen: Erweiterung auf Chat-Bots auf sozialen Plattformen wie Discord

Literaturverzeichnis

  1. Kazi et al. (2024): Large language models as user-agents for evaluating task-oriented-dialogue systems
  2. Lee et al. (2025): AMAN: Agent for mentoring and assisting newbies in MMORPG
  3. Phillips et al. (2025): Goal-oriented interactions in games using llms
  4. Park et al. (2023): Generative agents: Interactive simulacra of human behavior
  5. Sony AI (2025): The commonsense persona-grounded dialogue challenge 2025

Dieses Papier präsentiert eine innovative Lösung im Game-AI-Bereich. Durch die Deflanderization-Technik wird effektiv ein Gleichgewicht zwischen Charakterauthentizität und Aufgabenausführungsfähigkeit von NPCs erreicht und bietet wichtige Referenzen für die zukünftige Gestaltung intelligenter Charaktere in Spielen.