2025-11-24T17:52:17.819931

Deflanderization for Game Dialogue: Balancing Character Authenticity with Task Execution in LLM-based NPCs

Buakhaw, Kerdthaisong, Phenhiran et al.

The emergence of large language models (LLMs) has opened new opportunities for cre- ating dynamic non-player characters (NPCs) in gaming environments, enabling both func- tional task execution and persona-consistent dialogue generation. In this paper, we (Tu_Character_lab) report our participation in the Commonsense Persona-Grounded Dialogue Challenge (CPDC) 2025 Round 2, which eval- uates agents across three tracks: task-oriented dialogue, context-aware dialogue, and their integration. Our approach combines two complementary strategies: (i) lightweight prompting techniques in the API track, including a Deflanderization prompting method to suppress excessive role-play and improve task fidelity, and (ii) fine-tuned large models in the GPU track, leveraging Qwen3-14B with supervisedfinetuning (SFT) and Low-Rank Adaptation(LoRA). Our best submissions ranked 2nd on Task 1, 2nd on Task 3 (API track), and 4th on Task 3 (GPU track).

academic

Deflanderization für Spieldialoge: Ausgewogenheit zwischen Charakterauthentizität und Aufgabenausführung in LLM-basierten NPCs

Grundlegende Informationen

Paper-ID: 2510.13586
Titel: Deflanderization for Game Dialogue: Balancing Character Authenticity with Task Execution in LLM-based NPCs
Autoren: Pasin Buakhaw, Kun Kerdthaisong, Phuree Phenhiran, Pitikorn Khlaisamniang, Supasate Vorathammathorn, Piyalitt Ittichaiwong, Nutchanon Yongsatianchot
Klassifizierung: cs.CL (Computerlinguistik), cs.AI (Künstliche Intelligenz)
Veröffentlichungsdatum: 26. Oktober 2025
Paper-Link: https://arxiv.org/abs/2510.13586v3

Zusammenfassung

Das Aufkommen großer Sprachmodelle (LLMs) eröffnet neue Möglichkeiten für die Erstellung dynamischer Nicht-Spieler-Charaktere (NPCs) in Spielumgebungen, die gleichzeitig funktionale Aufgabenausführung und charakterkonsistente Dialoggenerierung ermöglichen. Dieser Beitrag berichtet über die Teilnahme des Teams (TU_Character_lab) an der zweiten Runde der Common Sense Persona-grounded Dialogue Challenge (CPDC) 2025, die die Leistung von Agenten in drei Tracks bewertet: aufgabenorientierte Dialoge, kontextbewusste Dialoge und deren Integration. Der Forschungsansatz kombiniert zwei komplementäre Strategien: (1) leichte Prompt-Techniken im API-Track, einschließlich der Deflanderization-Prompt-Methode zur Unterdrückung übermäßiger Rollenspiele und Verbesserung der Aufgabengenauigkeit; (2) Feinabstimmung großer Modelle im GPU-Track unter Verwendung von Qwen3-14B für überwachte Feinabstimmung (SFT) und Low-Rank-Anpassung (LoRA). Die beste Einreichung rangiert auf Platz 2 bei Aufgabe 1, Platz 2 bei Aufgabe 3 (API-Track) und Platz 4 bei Aufgabe 3 (GPU-Track).

Forschungshintergrund und Motivation

Problemdefinition

Die traditionelle Spieleentwicklung ist stark von vorprogrammierter Logik abhängig, wobei Spielereignisse und Charakterinteraktionen vordefinierten Skripten und Dialogbäumen folgen. Um die Spielerimmersion und narrative Tiefe zu verbessern, beginnen Entwickler, LLMs als Kernkomponenten von NPCs einzusetzen, um ihnen menschenähnliches Verhalten zu ermöglichen und dynamische, kontextbewusste Dialoge mit Spielern zu führen.

Kernherausforderungen

Die Aufrechterhaltung von Konsistenz und Tiefe dynamischer Charaktere über längere Interaktionen hinweg stellt eine erhebliche Herausforderung dar, insbesondere das Phänomen der „Flanderisierung" (Flanderization). Dieser Begriff stammt vom Charakter Ned Flanders aus „Die Simpsons" und bezieht sich auf die allmähliche Vereinfachung komplexer Charaktere im Laufe der Zeit, bis sie schließlich von einem einzelnen übertriebenen Merkmal definiert werden.

Forschungsmotivation

Ausgewogenheit zwischen Charakterauthentizität und Aufgabenausführung: Bestehende LLM-gesteuerte NPCs vernachlässigen häufig funktionale Korrektheit bei übermäßigem Rollenspiel
Langfristige Dialogkonsistenz: Notwendigkeit, Charakterkohärenz in erweiterten Dialogen zu bewahren
Multi-Task-Integration: Herausforderung der gleichzeitigen Behandlung aufgabenorientierter und charakterkonsistenter Dialoge

Kernbeiträge

Einführung der Deflanderization-Prompt-Technik: Unterdrückung übermäßigen Rollenspiels und Ausgewogenheit zwischen Dialoggenerierung und funktionalen Generierungsfähigkeiten
Erkundung komplementärer Strategien aus leichten Prompts und Feinabstimmung: Prompt-Engineering im API-Track, Modellfeinabstimmung im GPU-Track
Entwicklung einer hybriden RAG+Memory-Methode: Kombination von Retrieval-Augmented Generation und Speichermechanismen zur Verbesserung der Dialoggrundlagen
Hervorragende Ergebnisse in der CPDC 2025-Konkurrenz: Vordere Platzierungen in mehreren Aufgaben validieren die Methodeneffektivität

Methodische Details

Aufgabendefinition

Die CPDC-Konkurrenz umfasst drei Aufgaben:

Aufgabe 1: Aufgabenorientierter Dialog-Agent – Bewertung der Korrektheit von Funktionsaufrufen und Parameterauswahlgenauigkeit
Aufgabe 2: Kontextbewusster Dialog-Agent – Bewertung der NPC-Reaktion auf Konsistenz mit dem angegebenen Charakter
Aufgabe 3: Integration kontextbewusster Dialoge und Aufgabenausführung – Kombination von Aufgabe 1 und 2

API-Track-Methode

Deflanderization-Prompt-Strategie

Die Kernidee besteht darin, das Modell anzuleiten, natürlich und prägnant zu reagieren und übertriebenes Rollenspiel zu vermeiden. Die Fehleranalyse zeigt, dass Baseline-Einstellungen häufig zu detaillierte und kontextverstreute Ausgaben erzeugen, die sich übermäßig auf narrative Einstellungen konzentrieren, anstatt direkt auf Spieleranfragen zu reagieren.

Hauptprompt-Techniken:

D (Deflanderization): Anleitung des Modells zur Vermeidung übermäßigen Rollenspiels
F (Fewshot): Einbeziehung von zwei Beispieldialogen (Kaufmann und Gildenempfänger)
CoT (Chain of Thought): Anleitung des Modells zum schrittweisen Denken
RW (Remove world setting): Entfernung von Weltanschauungsinformationen beim Aufbau von Dialog-Prompts
G (Guide): Begrenzung der Antwort auf 1-2 kurze Sätze mit einfacher Sprache

Pipeline-Design

Wie in Abbildung 2 dargestellt, verwendet der API-Track eine fünfstufige Pipeline:

Vorbereitung des Funktionsaufrufs-Prompts
Funktionsgenerierung (API-Aufruf #1)
Funktionsausführung
Vorbereitung des Dialog-Prompts
Dialoggenerierung (API-Aufruf #2)

GPU-Track-Methode

Modellauswahl und Feinabstimmung

Aufgrund von Rechenbeschränkungen (AWS g5e.2xlarge-Instanz, L40s-GPU) wurde ein Modell ausgewählt, das in dieser Umgebung ausgeführt werden kann. Letztendlich wurde Qwen3-14B als Hauptmodell gewählt.

Feinabstimmungsstrategie:

Vollständige SFT: Überwachte Feinabstimmung auf anfänglichen und synthetischen mehrrundigen Dialogdaten
LoRA-Feinabstimmung: Low-Rank-Anpassung auf Dialog- und Funktionsaufrufdatensätzen (rank=32, α=32)

Hybride RAG+Memory-Methode

Abrufmodul: Verwendung von Qwen3-Embedding-0.6B zur Kodierung von Spieler- und NPC-Dialogverlauf
Injektionsphase: Abrufkontext in zwei Phasen injizieren: Funktionsauswahl und Dialogentwurf
RAG+Refine: Umschreiben von Generierungsentwürfen zur Anpassung an Ton und Länge von Gold-Referenzantworten mit hoher Ähnlichkeit

Datenerweiterung

Verwendung von gemini-2.5-pro-preview zur Generierung von Funktionsaufrufdaten und GPT-4o-mini zur Generierung von Dialogdaten:

Mehrrundige Dialoge: 2.800 Datenpunkte
Mehrrundiges Reasoning: 2.800 Datenpunkte (Aufgabe 2)
Funktionsaufrufs-Generierung: 328 Datenpunkte (Aufgabe 1)

Experimentelle Einrichtung

Datensätze

Aufgabe 1: train.json, sample.json – Funktionsaufrufdaten
Aufgabe 2: train.json, sample.json – Charakterdialdaten
Datenanalyse zeigt ausgewogene NPC-Charakterverteilung (20 Kaufleute, 20 Gildenempfänger)

Bewertungsmetriken

Aufgabe 1-Metriken

Funktionsnamen-Exact-Match: Genauigkeit der Vorhersage von Funktionsnamen, die genau mit der Referenz übereinstimmen
Funktionsparameter-Exact-Match: Genauigkeit, bei der alle vorhergesagten Parameter genau mit der Referenz übereinstimmen
BERTScore: Messung der semantischen Ähnlichkeit unter Verwendung von BERT-Einbettungen

Aufgabe 2-Metriken

BLEU-4: Bewertung basierend auf korrigierter n-Gramm-Präzision
Wort-Level F1: F1-Score basierend auf Wortmengen
CPDCscore: Gewichteter Score, der WordF1, BLEU, USEScore und BERTScore kombiniert

Implementierungsdetails

API-Track: GPT-4o-mini, maximal 2 API-Aufrufe pro Runde, Eingabebegrenzung 2000 Tokens, Ausgabebegrenzung 200 Tokens
GPU-Track: vLLM-Framework-Bereitstellung, dtype='bfloat16', gpu_memory_utilization=0.8

Experimentelle Ergebnisse

Hauptergebnisse des API-Tracks

Aufgabe	Methode	CPDCscore
Aufgabe 1	ZeroShot	0.422
Aufgabe 1	Beste Methode (D+RW)	0.586
Aufgabe 3	ZeroShot	0.510
Aufgabe 3	Beste Methode	0.601

Schlüsselergebnisse:

Signifikante Deflanderization-Effekte: D-Strategie erreicht +0,013 CPDCscore-Verbesserung gegenüber Zero-Shot-Baseline bei Aufgabe 3
Weitere Verbesserung durch Few-Shot-Prompts: Hinzufügen von Few-Shot-Beispielen (F) erreicht +0,092 bzw. +0,133 Verbesserungen bei Aufgabe 1
Begrenzte Gewinne bei komplexen Prompts: Komplexe Strategien wie CoT und Antwortleitfäden zeigen marginale oder inkonsistente Gewinne

Hauptergebnisse des GPU-Tracks

Modell	Methode	Aufgabe 1-Score	Aufgabe 2-Score	Gesamtscore
LLaMA3.1-8B	Baseline	0.439	0.333	0.386
Qwen3-14B	SFT + LoRA	0.590	0.606	0.598

Schlüsselergebnisse:

Modellgröße und Feinabstimmung sind entscheidend: Qwen3-14B mit SFT und LoRA erreicht 0.598 Gesamtscore, Platz 4
Retrieval-Verbesserung bietet moderate Verbesserungen: RAG-Methode verbessert Qwen3-8B-Leistung auf 0.522
Aufgabenübergreifende Kompromisse: RAG+Refine zeigt beste Leistung bei Aufgabe 1, aber reduzierte Leistung bei Aufgabe 2; LoRA-SFT erreicht bessere Balance

Ablationsstudien

Systematische Ablationsstudien validieren Komponentenbeiträge:

Deflanderization vs. Standard-Prompting
Few-Shot-Lernen vs. Zero-Shot-Lernen
Vergleich verschiedener Abrufstrategien
SFT vs. LoRA vs. kombinierte Methoden

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Leichte Deflanderization-Strategien sind effektiv: Signifikante Leistungsverbesserung im API-Setup durch Unterdrückung übermäßigen Rollenspiels
Feinabstimmung großer Modelle dominiert im GPU-Track: Qwen3-14B mit SFT und LoRA erreicht beste Ergebnisse
Aufgabenübergreifende Balance ist eine Schlüsselherausforderung: Methoden zur Verbesserung der Rollenspiel-Genauigkeit können manchmal die Parametergenauigkeit beeinträchtigen

Einschränkungen

Rechenbeschränkungen: GPU-Track ist durch L40s-Speicherbudget begrenzt, was die Verwendung größerer Modelle einschränkt
Abrufkorpus-Größe: RAG-Methode ist durch Größe und Qualität des Abrufkorpus begrenzt
Bewertungsmetrik-Einschränkungen: Automatische Bewertungsmetriken können Dialogsystem-Qualität nicht vollständig widerspiegeln; menschliche Bewertung ist erforderlich

Zukünftige Richtungen

Hybrid-Strategie-Erkundung: Vereinheitlichte Hybrid-Strategien aus leichten Prompts und Retrieval-verstärkter Feinabstimmung
Langfristige Konsistenz: Methoden zur Aufrechterhaltung von Charakterkonsistenz in längeren Dialogen
Multimodale Erweiterung: Multimodale NPC-Systeme, die visuelle und Audioinformationen integrieren

Tiefgreifende Bewertung

Stärken

Klare Problemdefinition: Innovative Einführung des Flanderisierungs-Konzepts, das Schlüsselprobleme beim LLM-Rollenspiel präzise beschreibt
Starke Methodenkomplementarität: Unterschiedliche aber komplementäre Strategien in API- und GPU-Tracks zeigen umfassende technische Perspektive
Umfassende Experimente: Systematische Ablationsstudien und mehrdimensionale Bewertung validieren Methodeneffektivität
Hoher praktischer Wert: Hervorragende Ergebnisse in realer Konkurrenz beweisen praktische Anwendbarkeit

Schwächen

Unzureichende theoretische Analyse: Mangel an tiefgreifender theoretischer Analyse des Flanderisierungs-Phänomens
Unverifizierten Generalisierbarkeit: Methoden hauptsächlich auf CPDC-Datensatz validiert, Generalisierung auf andere Spielszenarien nicht verifiziert
Fehlende Recheneffizienz-Analyse: Keine detaillierte Analyse der Rechenkosten und Inferenzeffizienz verschiedener Methoden
Unzureichende Benutzerfahrungs-Bewertung: Mangel an subjektiver Bewertung echter Spieler

Auswirkungen

Akademischer Beitrag: Führt neue Forschungsrichtung und Lösungen im Game-AI-Bereich ein
Praktischer Wert: Methoden können direkt auf NPC-Design in der Spieleentwicklung angewendet werden
Reproduzierbarkeit: Detaillierte Implementierungsdetails und Prompt-Vorlagen ermöglichen einfache Reproduktion

Anwendungsszenarien

RPG-Spiele: Besonders geeignet für Rollenspiele mit umfangreicher Charakterinteraktion
Lernspiele: Einsatz zur Erstellung intelligenter Lehr-Assistenten und virtueller Tutoren
Soziale Plattformen: Erweiterung auf Chat-Bots auf sozialen Plattformen wie Discord

Literaturverzeichnis

Kazi et al. (2024): Large language models as user-agents for evaluating task-oriented-dialogue systems
Lee et al. (2025): AMAN: Agent for mentoring and assisting newbies in MMORPG
Phillips et al. (2025): Goal-oriented interactions in games using llms
Park et al. (2023): Generative agents: Interactive simulacra of human behavior
Sony AI (2025): The commonsense persona-grounded dialogue challenge 2025

Dieses Papier präsentiert eine innovative Lösung im Game-AI-Bereich. Durch die Deflanderization-Technik wird effektiv ein Gleichgewicht zwischen Charakterauthentizität und Aufgabenausführungsfähigkeit von NPCs erreicht und bietet wichtige Referenzen für die zukünftige Gestaltung intelligenter Charaktere in Spielen.