2025-11-25T04:46:17.326463

ChatThero: An LLM-Supported Chatbot for Behavior Change and Therapeutic Support in Addiction Recovery

Wang, Yao, Li et al.

Substance use disorders (SUDs) affect millions of people, and relapses are common, requiring multi-session treatments. Access to care is limited, which contributes to the challenge of recovery support. We present \textbf{ChatThero}, an innovative low-cost, multi-session, stressor-aware, and memory-persistent autonomous \emph{language agent} designed to facilitate long-term behavior change and therapeutic support in addiction recovery. Unlike existing work that mostly finetuned large language models (LLMs) on patient-therapist conversation data, ChatThero was trained in a multi-agent simulated environment that mirrors real therapy. We created anonymized patient profiles from recovery communities (e.g., Reddit). We classify patients as \texttt{easy}, \texttt{medium}, and \texttt{difficult}, three scales representing their resistance to recovery. We created an external environment by introducing stressors (e.g., social determinants of health) to simulate real-world situations. We dynamically inject clinically-grounded therapeutic strategies (motivational interview and cognitive behavioral therapy). Our evaluation, conducted by both human (blinded clinicians) and LLM-as-Judge, shows that ChatThero is superior in empathy and clinical relevance. We show that stressor simulation improves robustness of ChatThero. Explicit stressors increase relapse-like setbacks, matching real-world patterns. We evaluate ChatThero with behavioral change metrics. On a 1--5 scale, ChatThero raises \texttt{motivation} by $+1.71$ points (from $2.39$ to $4.10$) and \texttt{confidence} by $+1.67$ points (from $1.52$ to $3.19$), substantially outperforming GPT-5. On \texttt{difficult} patients, ChatThero reaches the success milestone with $26\%$ fewer turns than GPT-5.

academic

ChatThero: Ein LLM-gestützter Chatbot für Verhaltensänderung und therapeutische Unterstützung in der Suchtgenesung

Grundinformationen

Papier-ID: 2508.20996
Titel: ChatThero: A Language Agent for Recovery Support
Autoren: Junda Wang, Zonghai Yao, Lingxi Li, Junhui Qian, Zhichao Yang, Hong Yu
Klassifizierung: cs.AI
Veröffentlichungsdatum/Konferenz: arXiv preprint 2025
Papierlink: https://arxiv.org/abs/2508.20996v2

Zusammenfassung

Substanzabhängigkeitsstörungen (SUDs) beeinflussen Millionen von Menschen mit hohen Rückfallquoten und erfordern mehrfache Behandlungen. Angesichts begrenzter medizinischer Ressourcen stehen Genesungsunterstützungsprogramme vor enormen Herausforderungen. Dieser Artikel präsentiert ChatThero, einen innovativen, kostengünstigen, mehrfach-sitzungsgestützten, stressempfindlichen und speicherbeständigen autonomen Sprachagenten, der darauf abzielt, langfristige Verhaltensänderungen und therapeutische Unterstützung in der Suchtgenesung zu fördern. Im Gegensatz zu bestehenden Arbeiten, die hauptsächlich große Sprachmodelle auf Patient-Therapeut-Dialogdaten feinabstimmen, wird ChatThero in einer Multi-Agent-Umgebung trainiert, die echte Therapie simuliert. Das Forschungsteam erstellte anonymisierte Patientenprofile aus Genesungsgemeinschaften (wie Reddit) und klassifizierte Patienten in drei Schwierigkeitsstufen – leicht, mittel und schwer – die ihre Genesungsresistenz darstellen. Durch die Einführung von Stressoren zur Simulation realistischer Szenarien werden dynamisch klinisch fundierte therapeutische Strategien (Motivierende Gesprächsführung und Kognitive Verhaltenstherapie) eingespielt. Die Evaluierungsergebnisse zeigen, dass ChatThero in Empathie und klinischer Relevanz überlegen ist, wobei die Stresssimulation die Robustheit des Systems verbessert.

Forschungshintergrund und Motivation

Bedeutung des Problems

Großflächiges gesellschaftliches Problem: Etwa 2,5 Millionen Menschen in den USA leiden an Opioid-Abhängigkeitsstörungen, über 66 Millionen berichten über kürzliche illegale Drogennutzung
Hohe Rückfallquoten: Ohne kontinuierliche Unterstützung können Rückfallquoten im ersten Jahr 80-90% erreichen
Knappheit therapeutischer Ressourcen: Weniger als ein Viertel der Patienten mit Opioid-Abhängigkeitsstörungen erhalten Behandlung
Mehrfache Barrieren: Einschließlich Stigmatisierung, Kosten, Zugangsschwierigkeiten und niedriger Beteiligung

Einschränkungen bestehender Methoden

Begrenzte Wirksamkeit einzelner Interventionen: Einzelsitzungs-Interventionen können Effekte schwer aufrechterhalten und erfordern mehrfache Behandlungen und kontinuierliche Betreuung
Unzureichende bestehende KI-Systeme: Die meisten Systeme werden auf einzelnen Sitzungen oder kurzem Kontext feinabgestimmt und können den echten Genesungsprozess nicht abbilden
Begrenzte Bewertungsmethoden: Die meisten Bewertungen verwenden einmalige Qualitätsbewertungen und verpassen Trajektorien und Rückfallmuster

Forschungsmotivation

Entwicklung eines KI-Systems, das über mehrere Sitzungen hinweg kontinuierliche, personalisierte therapeutische Unterstützung bieten kann und Stress und Herausforderungen in echten Therapieumgebungen simuliert.

Kernbeiträge

Multi-Sitzungs-, stressempfindliches Sprachagenten-Framework: Vorschlag eines reproduzierbaren Simulationssystems mit Speicherbeständigkeit
Daten-Umgebungs-Konstruktionsprozess: Erfassung von Patientenprofilen aus Genesungsforen mit expliziten Stressoren zur Zustandsänderung
Zweistufiges Trainingsschema: Anwendung von SFT→DPO mit schwierigem Fall-Curriculum-Lernen für Multi-Sitzungs-Strategien
Ergebnisorientierte Multi-Sitzungs-Bewertungssuite: Einschließlich Motivations-/Vertrauenstrajektor, Erfolgszeit, Stressrobustheit und Mensch-Maschine-Konsistenz-Bewertung

Methodische Details

Aufgabendefinition

Modellierung der Genesungsunterstützung als Multi-Sitzungs-, teilweise beobachtbares Entscheidungs- und Generierungsproblem mit Störungen zwischen Sitzungen und Verlangen. Das System muss:

Kontinuität des Patientenzustands aufrechterhalten
Sich an Umgebungsstressoren anpassen
MI/CBT/Schadensminderungsstrategien auswählen und priorisieren
Speicher über Sitzungen hinweg aufrechterhalten

Modellarchitektur

Drei-Agent-System

Patienten-Agent (PA):
- Aufrechterhaltung persistenter Zustände und Resistenzniveaus (leicht/mittel/schwer)
- Basierend auf Genesungsgemeinschaftsprofilen, gefiltert und anonymisiert
- Enthält strukturierte Profile und dynamisches Gedächtnis
Umgebungs-Agent (EA):
- Einspielung expliziter Stressoren zwischen Sitzungen
- Simulation realistischer Szenarien (Gruppendruck, Arbeitsstress, Familienkonflikte usw.)
- Aktualisierung des Patientengedächtnisstatus
Therapeut-Agent (TA) - ChatThero:
- Trainierbarer Kernkomponent
- Auswahl und Priorisierung von MI/CBT-Strategien
- Aufrechterhaltung longitudinalen Gedächtnisses

Patientenprofilgenerierung

Strukturierte Profile: Enthält Persönlichkeitsmerkmale, Substanznutzungsgeschichte, bedeutende Lebensereignisse, Nutzungsmotivationen
Dynamisches Gedächtnis: Erfasst Interaktionen, emotionale Zustände, Bewältigungsmechanismen, Umwelteinflüsse
Datenschutz: Mehrstufige Pipeline zur Gewährleistung der Entfernung und Anonymisierung persönlich identifizierbarer Informationen

Technische Innovationen

1. Multi-Sitzungs-Therapie-Phasen

Anwendung eines 6-Phasen-CBT-Rahmens:

S1: Vertrauensaufbau und Bewertung
S2: Identifikation negativer Gedanken
S3: Herausforderung fehlerhafter Überzeugungen
S4: Umstrukturierung von Gedankenmustern
S5: Aufbau von Verhaltensfertigkeiten
S6: Konsolidierung und Beendigung

2. Stressor-Simulation

Drei Stressor-Kategorien:

Peer/Verfügbarkeit (Einladungen, Nähe zu Drogenkonsumenten)
Arbeit/Akademie (Fristen, Schichtwechsel)
Familie/Umgebung (Familienkonflikte, Wohnungsinstabilität)

3. Zweistufiges Training

SFT-Phase: Erlernen sicherer MI/CBT-Strukturen
DPO-Phase: Optimierung der Strategieauswahl-Timing mit schwierigem Fall-Curriculum

Experimentelle Einrichtung

Datensatz

Reddit-Daten: 57.471 eindeutige Autoren, durchschnittlich 18,25 Beiträge pro Person
Synthetische Dialoge: 60.471 Dialoge, durchschnittlich 45,72 Runden
Multi-Sitzungs-Trajektorien: 8.240 Dialoge (6-Sitzungs-Bögen)

Bewertungsmetriken

Ergebnis-Metriken:
- Motivation: 1-5 Punkte
- Vertrauen: 1-5 Punkte
Prozess-Metriken:
- Erfolgszeit: Prozentsatz der Runden bis zur Erreichung des Erfolgsschwellwerts
Menschliche Bewertungsdimensionen:
- Reaktionsfähigkeit
- Empathie
- Angemessenheit der Überzeugungsstrategie
- Klinische Relevanz
- Verhaltensrealismus

Vergleichsmethoden

GPT-4o
GPT-4o-mini
LLaMA3.1-8B-Instruct
Qwen2.5-Serie (7B, 14B, 32B)

Implementierungsdetails

Dekodierungstemperatur: 0,7
Maximale Sitzungsrunden: 60 (ca. 45 Minuten)
Multi-Sitzungen: 3-6 Besuche
Basismodell: Qwen-7B

Experimentelle Ergebnisse

Hauptergebnisse

Einzelsitzungs-Leistung

Motivationssteigerung: Von 2,39 auf 4,10 (+1,71 Punkte)
Vertrauenssteigerung: Von 1,52 auf 3,19 (+1,67 Punkte)
Erfolgszeit: ChatThero benötigt nur 26% der Runden, während GPT-4o 54% benötigt

Menschliche Bewertungsergebnisse

Modell	Reaktionsfähigkeit	Empathie	Strategieangemessenheit	Klinische Relevanz	Verhaltensrealismus	Erfolgszeit
GPT-4o	4,68	4,87	4,39	4,47	4,50	54%
GPT-4o-mini	4,66	4,86	4,38	4,49	4,46	62%
ChatThero-DPO	4,85	4,93	4,75	4,61	4,69	26%

Ablationsstudien

SFT vs. DPO: DPO übertrifft deutlich reines SFT bei Strategieauswahl und Timing-Kontrolle
Stressor-Auswirkung: Explizite Stressoren erhöhen Rückfallmuster, was realistischen Mustern entspricht
Schwierigkeitsgrad-Effekt: Verbesserungen sind bei mittleren und schwierigen Patienten am signifikantesten

Multi-Sitzungs-Analyse

Leichte Patienten: Alle Modelle erreichen nahe der Obergrenze bei der 1. Visite
Mittlere Patienten: ChatThero zeigt größere Verbesserungen innerhalb der Sitzung und höhere Ausgangswerte
Schwierige Patienten: Alle Systeme zeigen Gewinne innerhalb der Sitzung, aber schwächere Aufrechterhaltung zwischen Sitzungen

Fallstudienanalyse

ChatThero kann:

Patientenwiderstand natürlicher handhaben
Therapeutische Strategien zeitgerecht wechseln
Konkrete, umsetzbare Bewältigungspläne bereitstellen
Therapeutische Kontinuität über Sitzungen hinweg aufrechterhalten

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

ChatThero übertrifft starke Baseline-Modelle sowohl in einzelnen als auch in mehrfach-Sitzungs-Einstellungen, mit hervorragender Leistung bei Motivations-/Vertrauensergebnissen und Erfolgszeit, mit den größten Vorteilen bei mittleren und schwierigen Fällen.

Einschränkungen

Simulationsbeschränkungen: Patientensimulationen basierend auf Reddit-Narrativen erfassen möglicherweise nicht vollständig die Komplexität echter klinischer Umgebungen
Kulturelle Einschränkungen: Begrenzt auf englischsprachige, westliche Kontexte
Bewertungsumfang: Fokus auf kurzfristige Dialogergebnisse, keine Bewertung langfristiger Effekte wie Patientenvertrauen, therapeutische Allianz
Schwierige Patienten: Selbst in Multi-Sitzungs-Einstellungen zeigen schwierige Patienten leicht nachlassende Gewinne zwischen Sitzungen
Ethische Überlegungen: Erfordern zusätzliche Sicherheitsvorkehrungen und Risikoprotokolle

Zukünftige Richtungen

Umgebungsdesign: Teilweise beobachtbare, ledgergesteuerte Umgebungen
Reward-Lernen: Lernen von Reward-Modellen aus Präferenzen und Feedback
Hierarchisches Reinforcement Learning: Modelle, die Planung und Sicherheit kombinieren
Validierung in der realen Welt: Erfordert standardisierte Patiententeilnehmer und echte klinische Überwachung

Tiefgreifende Bewertung

Stärken

Hohe Innovativität: Erstmals ein Multi-Sitzungs-, stressempfindlicher Sprachagent für Suchtgenesung
Vollständige Methodik: Umfassender Prozess von Datenkonstruktion bis Training bis Bewertung
Umfangreiche Experimente: Einschließlich menschlicher und automatischer Bewertung, multidimensionale Validierung
Hohe klinische Relevanz: Basierend auf evidenzgestützten Behandlungsmethoden (MI/CBT)
Umfassende ethische Überlegungen: Strenger Datenschutz und Anonymisierungsprozess

Mängel

Simulation-Realitäts-Lücke: Trotz Bemühungen zur Simulation echter Umgebungen bestehen Unterschiede zur echten klinischen Praxis
Langzeiteffekte unbekannt: Mangel an Langzeit-Verfolgung und Validierung in der realen Welt
Begrenzte Wirksamkeit bei schwierigen Patienten: Effektivität bei schwer abhängigen Patienten bleibt begrenzt
Kulturelle Anpassungsfähigkeit: Validierung in verschiedenen kulturellen Kontexten erforderlich

Auswirkungen

Akademischer Wert: Bietet neues Paradigma für KI-Anwendungen im Bereich psychische Gesundheit
Praktisches Potenzial: Könnte Knappheit therapeutischer Ressourcen lindern
Methodologische Beiträge: Multi-Agent-Simulationsrahmen ist auf andere medizinische Szenarien übertragbar
Gesellschaftliche Bedeutung: Könnte kostengünstige, skalierbare Lösungen für Suchtgenesung bieten

Anwendungsszenarien

Ergänzende Therapiewerkzeuge: Als Ergänzung zur traditionellen Therapie
Ressourcenknappheitsgebiete: Bereitstellung grundlegender Genesungsunterstützung
Präventive Interventionen: Frühe Identifikation und Intervention bei Hochrisikogruppen
Forschungswerkzeuge: Zur Untersuchung von Therapiestrategien und Interventionseffektivität

Literaturverzeichnis

Dieser Artikel zitiert umfangreiche verwandte Forschung, einschließlich:

Klassische Literatur im Bereich Suchtbehandlung (Miller & Rose, 2009; Beck, 2019)
LLM-Anwendungen im Gesundheitswesen (Tu et al., 2025; Arora et al., 2025)
Multi-Agent-Systeme und virtuelle Patientenforschung (Park et al., 2024; Schmidgall et al., 2024)
Psychotherapie und Verhaltensänderungstheorie (Marlatt & Donovan, 2005; Hayes & Hofmann, 2018)

Gesamtbewertung: Dies ist eine bedeutsame Arbeit im Bereich der KI-gestützten psychischen Gesundheitsbehandlung mit innovativen Methoden, umfangreichen Experimenten und starkem praktischem Wert. Obwohl einige Einschränkungen bestehen, bietet sie wichtige technische Grundlagen und Forschungsrichtungen für die Entwicklung dieses Feldes.