Constrained by the cost and ethical concerns of involving real seekers in AI-driven mental health, researchers develop LLM-based conversational agents (CAs) with tailored configurations, such as profiles, symptoms, and scenarios, to simulate seekers. While these efforts advance AI in mental health, achieving more realistic seeker simulation remains hindered by two key challenges: dynamic evolution and multi-session memory. Seekers' mental states often fluctuate during counseling, which typically spans multiple sessions. To address this, we propose AnnaAgent, an emotional and cognitive dynamic agent system equipped with tertiary memory. AnnaAgent incorporates an emotion modulator and a complaint elicitor trained on real counseling dialogues, enabling dynamic control of the simulator's configurations. Additionally, its tertiary memory mechanism effectively integrates short-term and long-term memory across sessions. Evaluation results, both automated and manual, demonstrate that AnnaAgent achieves more realistic seeker simulation in psychological counseling compared to existing baselines. The ethically reviewed and screened code can be found on https://github.com/sci-m-wang/AnnaAgent.
- Paper-ID: 2506.00551
- Titel: AnnaAgent: Dynamic Evolution Agent System with Multi-Session Memory for Realistic Seeker Simulation
- Autoren: Ming Wang, Peidong Wang, Lin Wu, Xiaocui Yang, Daling Wang, Shi Feng, Yuxin Chen, Bixuan Wang, Yifei Zhang
- Klassifizierung: cs.CL cs.AI
- Veröffentlichungsdatum: 10. Juni 2025 (arXiv-Preprint)
- Paper-Link: https://arxiv.org/abs/2506.00551
Aufgrund von Kosten- und Ethikproblemen bei der Einbeziehung echter Hilfesuchender in KI-gestützte psychische Gesundheitsforschung haben Forscher LLM-basierte Dialogagenten (CA) entwickelt, um Hilfesuchende zu simulieren, wobei angepasste Konfigurationen wie persönliche Profile, Symptome und Szenarien verwendet werden. Obwohl diese Bemühungen die Anwendung von KI im Bereich der psychischen Gesundheit vorantreiben, bleiben zwei Schlüsselherausforderungen für eine realistischere Simulation von Hilfesuchenden bestehen: dynamische Evolution und Multi-Session-Speicher. Der psychische Zustand von Hilfesuchenden schwankt häufig während des Beratungsprozesses, der typischerweise mehrere Sitzungen umfasst. Um dieses Problem zu lösen, wird AnnaAgent vorgestellt – ein Emotionen- und Kognitions-Dynamik-Agentensystem mit dreistufigem Speicher. AnnaAgent integriert einen Emotionsregler und einen Beschwerdeleiter, die auf echten Beratungsdialogen trainiert wurden, und kann die Konfiguration des Simulators dynamisch steuern. Darüber hinaus integriert sein dreistufiger Speichermechanismus effektiv Kurz- und Langzeitspeicher über Sitzungen hinweg. Die Evaluierungsergebnisse zeigen, dass AnnaAgent eine realistischere Simulation von Hilfesuchenden in der psychologischen Beratung erreicht als bestehende Baselines.
Das Kernproblem dieser Forschung ist, wie man das Verhalten von Hilfesuchenden in der KI-gestützten psychischen Gesundheitsforschung realistischer simulieren kann. Konkret:
- Kosten- und Ethikbeschränkungen: Die Durchführung von Forschung mit einer großen Anzahl echter Hilfesuchender ist nicht nur kostspielig, sondern kann auch ethische Probleme aufwerfen
- Unzulänglichkeiten bestehender Simulationsmethoden: Aktuelle LLM-basierte Dialogagenten weisen bei der Simulation von Hilfesuchenden Probleme wie flache Emotionen und leichte Akzeptanz von Ratschlägen auf
- Mangel an Dynamik: Bestehende Methoden können die emotionalen Schwankungen und kognitiven Veränderungen von Hilfesuchenden während des Beratungsprozesses nicht simulieren
- Fehlender Multi-Session-Speicher: Psychologische Beratung ist typischerweise ein langfristiger, mehrsitziger Prozess, aber bestehende Methoden verfügen über keinen Speichermechanismus über Sitzungen hinweg
Psychische Gesundheitsprobleme sind eine wichtige Herausforderung für die heutige Gesellschaft, während die Anzahl der geschulten Therapeuten begrenzt ist. KI-Technologie hat enormes Potenzial für psychische Gesundheitsunterstützung, erfordert aber realistischere Simulationen von Hilfesuchenden für:
- Datenkonstruktion und Wirksamkeitsbewertung
- Schulung von Psychotherapeuten
- Psychologische Forschung und Experimente
Durch Literaturrecherche identifizierten die Autoren folgende Probleme bei bestehenden Simulationsmethoden für Hilfesuchende:
- Statische Konfiguration: Emotionen und Symptomerkenntnis bleiben während des gesamten Beratungsprozesses unverändert
- Fehlender Speichermechanismus: Unfähigkeit, Dialoge zu verarbeiten, die Inhalte aus vorherigen Sitzungen betreffen
- Unrealistisches Verhalten: Neigung zur Zustimmung zu Ratschlägen, übermäßige Unterwürfigkeit, flache emotionale Ausdrücke
- Erstmalige Identifizierung von zwei Schlüsselherausforderungen – dynamische Evolution und Multi-Session-Speicher – und Formalisierung der dynamischen Evolution als Veränderungen in Emotionen und Beschwerden sowie Unterteilung des Multi-Session-Speichers in verschiedene Phasen
- Entwurf des AnnaAgent-Systems: Ein Emotionen- und Kognitions-Dynamik-Agentensystem mit dreistufigem Speicher, das die dynamische Evolution in der Beratung durch Steuerung von Emotionen und Symptomerkenntnis-Veränderungen im Dialog simuliert
- Validierung der Systemeffektivität: Experimentelle Bewertung zeigt, dass AnnaAgent das Verhalten von Hilfesuchenden in der psychologischen Beratung realistischer simuliert
Die Simulationsaufgabe für Hilfesuchende erfordert die Zuweisung einer Rollenkonfiguration an das LLM, einschließlich:
- Profil: Grundlegende persönliche Informationen (Alter, Geschlecht, Beruf usw.)
- Beschwerde: Erkenntnis des Hilfesuchenden über Symptome und Hauptprobleme
- Situation: Lebensumgebung und erlebte Ereignisse
- Status: Körperliche und psychische Zustände
- Emotion: Erwarteter emotionaler Reaktionsstil
AnnaAgent verwendet eine Multi-Agent-Systemarchitektur mit zwei Hauptagentengruppen:
Emotionsregelung:
- Emotionsreasoner: Basierend auf Qwen2.5-7B-Instruct trainiert, verwendet D4-Datensatz zum Erlernen von Emotionsevolutionsmustern in echten Beratungen
- Emotionsstörer: Führt zufällige Störungen ein, um verfestigte Emotionsmuster zu vermeiden, weist Wahrscheinlichkeitsgewichte basierend auf emotionaler Distanz zu:
P(emoT)=∑Gjw(d(GB,Gj))×∣Gj∣w(d(GT,GB)×∣GT∣)
wobei GB und GT jeweils die Basis- und Zielemotionsgruppen darstellen und d(⋅) die Distanz zwischen Emotionsgruppen bezeichnet.
Beschwerdeleitung:
- Beschwerdekettengenerierung: Generiert Beschwerdeveränderungsketten basierend auf Hilfesuchenden-Konfiguration und aktuellen Ereignissen
- Beschwerdewechselkontrolle: Bestimmt algorithmisch, ob zur nächsten Phase der Beschwerdekette gewechselt werden soll
- Echtzeitspeicher: Dialoginhalte der aktuellen Sitzung
- Kurzzeitspeicher: Aktuelle Ereignisse und Zustandsveränderungen, erfasst durch Selbstberichtsskalen
- Langzeitspeicher: Dialoge und Skalendatensätze aus vorherigen Sitzungen, geplant durch Agentic RAG
- Dynamische Evolutionsmodellierung: Erstmalige Formalisierung der dynamischen Veränderungen von Hilfesuchenden als Evolution in zwei Dimensionen – Emotionen und Beschwerden
- Dreistufiger Speichermechanismus: Zeitlich geschichtetes Speichersystem, das sich auf Gedächtnistheorie bezieht
- Datengesteuerte Evolutionslernvorgänge: Basierend auf echten Beratungsdaten trainierte Modelle für Emotionen- und Beschwerdeveränderungen
- Multi-Agent-Koordination: Realisierung komplexer dynamischer Steuerung und Speicherscheduling durch Agentenzusammenarbeit
- D4-Datensatz: Chinesischer Depressions-Diagnose-orientierter Dialogdatensatz
- DAIC-WOZ-Datensatz: Englischer psychischer Gesundheitsdialog-Datensatz
- Verwendung von GPT-4o für Datenannotation, Einbeziehung von 3 Psychologie-Experten zur Überprüfung von Beschwerdekettendaten
- Anthropomorphismusgrad: Verwendung von BERT-Score zur Bewertung der Konsistenz zwischen Simulator-Äußerungen und echten Hilfesuchenden
- Persönlichkeitstreue: Entwurf von Interviewfragen, Verwendung von G-Eval-Bewertung zur Bewertung der Konfigurationsübereinstimmung
- Genauigkeit der Erkenntnis aus vorherigen Sitzungen: Bewertung der Effektivität des Langzeitspeichers
Auswahl von drei Baseline-Methoden:
- Chen et al. (2023a)
- Duro et al. (2024)
- Qiu and Lan (2024)
- Backbone-Modell: Qwen2.5-7B-Instruct
- Beratermodelle: PsycoLLM, EmoLLM, SoulChat
- Emotionsklassifizierung: Basierend auf GoEmotions-Emotionskategorien
- Skalierungsinstrumente: SCL-90, BDI, SAAS und andere Selbstberichtsskalen
Anthropomorphismusgrad-Vergleich:
Auf den D4- und DAIC-Datensätzen erreicht AnnaAgent die beste oder zweitbeste Leistung im Dialog mit verschiedenen Beratermodellen:
| Datensatz | Berater | Chen et al. | Duro et al. | Qiu & Lan | AnnaAgent |
|---|
| D4 | PsycoLLM | 0.6293 | 0.6455 | 0.6866 | 0.6691 |
| D4 | EmoLLM | 0.6529 | 0.6469 | 0.6449 | 0.6649 |
| DAIC | PsycoLLM | 0.3458 | 0.4864 | 0.3426 | 0.4910 |
Persönlichkeitstreue: AnnaAgent übertrifft die Baseline-Methoden insgesamt in der G-Eval-Bewertung.
- Dynamische Evolutionsablation: Nach Entfernung der dynamischen Evolutionskomponente fällt der F1-Score von 0,6691 auf 0,6144 (D4-Datensatz)
- Langzeitspeicher-Ablation: Die Entfernung des Langzeitspeichers reduziert die Genauigkeit der Erkenntnis des virtuellen Hilfesuchenden über vorherige Sitzungen erheblich
Experimente mit GPT-4o-mini und Llama-3.1-8B-Instruct zeigen, dass AnnaAgent eine gute modellübergreifende Stabilität aufweist, mit relativen Standardabweichungen unter 10%.
- Dialogsysteme: ChatCounselor, Serena und andere bieten Unterstützung bei psychischer Gesundheit
- Diagnose und Behandlung: Verbesserung der Diagnosegenauigkeit, Behandlungsergebnisse und Servicebarkeit
- Standardisierte Patienten: Von echten Personen gespielt, kostspielig aber realistischer
- Virtuelle Hilfesuchende: Kostengünstig aber weniger realistisch
- Rollenwissenskonstruktion: Durch feingranulare Rolleninformationen und Emotionsannotationen
- Personalisiertes Training: Bedingte Anweisung-Feinabstimmung kombiniert mit Persönlichkeitsmerkmalsinformationen
- AnnaAgent löst erfolgreich die Herausforderungen der dynamischen Evolution und des Multi-Session-Speichers in der Hilfesuchenden-Simulation
- Auf echten Daten trainierte Modelle für Emotionen- und Beschwerdeveränderungen können die Simulationsrealismus effektiv verbessern
- Der dreistufige Speichermechanismus zeigt hervorragende Leistung bei der Verarbeitung sitzungsübergreifender Informationen
- Formalisierungsvereinfachung: Zur Erleichterung der technischen Implementierung wurde der dynamische Evolutionsprozess in gewissem Maße vereinfacht
- Grober Speichersystem: Der Koordinationsmechanismus des dreistufigen Speichersystems ist noch relativ primitiv
- Datenabhängigkeit: Stark abhängig von der Qualität und Quantität echter Beratungsdaten
- Feingranulare Modellierung der dynamischen Evolution
- Komplexere Multi-Session-Speicherkoordinationsmechanismen
- Erweiterung auf mehr psychische Gesundheitsszenarien und Sprachen
- Genaue Problemidentifizierung: Erstmalige klare Identifizierung von zwei Kernherausforderungen – dynamische Evolution und Multi-Session-Speicher
- Vernünftiger Methodenentwurf: Klare Multi-Agent-Systemarchitektur mit definierten Modulfunktionen
- Umfassende Experimente: Hauptergebnisse, Ablationsstudien und Generalisierungsvalidierung
- Hoher praktischer Wert: Bereitstellung wichtiger Werkzeuge für KI-Forschung im Bereich psychische Gesundheit
- Begrenzte theoretische Tiefe: Mangel an tiefgreifender psychologischer Theorieanalyse der Dynamik-Evolutionsmechanismen
- Einzelne Bewertungsmetriken: Hauptsächlich Abhängigkeit von automatisierten Metriken, Mangel an manueller Bewertung durch Psychologie-Fachleute
- Unzureichende Ethikbetrachtung: Obwohl ethische Überprüfung erwähnt wird, ist die Diskussion über potenzielle Missbrauchsrisiken nicht ausreichend
- Akademischer Beitrag: Bereitstellung neuer Forschungsrichtungen und Benchmarks für das KI-Bereich psychische Gesundheit
- Praktischer Wert: Anwendbar auf Berater-Schulung, psychologische Forschung und mehrere andere Szenarien
- Reproduzierbarkeit: Bereitstellung von Open-Source-Code für einfache Reproduktion und Erweiterung
- Schulung und Bewertung von Psychotherapeuten
- Entwicklung von Dialogsystemen für psychische Gesundheit
- Psychologische Forschung und Experimente
- Datenerweiterung für psychische Gesundheit
Das Paper zitiert umfangreiche verwandte Arbeiten, einschließlich:
- Übersichtsarbeiten zu KI-Anwendungen in der psychischen Gesundheit
- Forschung zu LLM-Rollenspiel und Multi-Agent-Systemen
- Forschung zu psychologischer Beratung und standardisierten Patienten
- Literatur zu Gedächtnistheorie und RAG-Technologie
Gesamtbewertung: Dies ist ein Paper mit wichtigen Beiträgen im Bereich KI und psychische Gesundheit, das erstmals systematisch Schlüsseltechnische Herausforderungen in der Hilfesuchenden-Simulation löst. Obwohl es Raum für Verbesserungen in theoretischer Tiefe und Bewertung gibt, machen seine innovativen Methoden und praktischen Werte es zu einem wichtigen Fortschritt in diesem Bereich.