Substance use disorders (SUDs) affect millions of people, and relapses are common, requiring multi-session treatments. Access to care is limited, which contributes to the challenge of recovery support. We present \textbf{ChatThero}, an innovative low-cost, multi-session, stressor-aware, and memory-persistent autonomous \emph{language agent} designed to facilitate long-term behavior change and therapeutic support in addiction recovery. Unlike existing work that mostly finetuned large language models (LLMs) on patient-therapist conversation data, ChatThero was trained in a multi-agent simulated environment that mirrors real therapy. We created anonymized patient profiles from recovery communities (e.g., Reddit). We classify patients as \texttt{easy}, \texttt{medium}, and \texttt{difficult}, three scales representing their resistance to recovery. We created an external environment by introducing stressors (e.g., social determinants of health) to simulate real-world situations. We dynamically inject clinically-grounded therapeutic strategies (motivational interview and cognitive behavioral therapy). Our evaluation, conducted by both human (blinded clinicians) and LLM-as-Judge, shows that ChatThero is superior in empathy and clinical relevance. We show that stressor simulation improves robustness of ChatThero. Explicit stressors increase relapse-like setbacks, matching real-world patterns. We evaluate ChatThero with behavioral change metrics. On a 1--5 scale, ChatThero raises \texttt{motivation} by $+1.71$ points (from $2.39$ to $4.10$) and \texttt{confidence} by $+1.67$ points (from $1.52$ to $3.19$), substantially outperforming GPT-5. On \texttt{difficult} patients, ChatThero reaches the success milestone with $26\%$ fewer turns than GPT-5.
- Papier-ID: 2508.20996
- Titel: ChatThero: A Language Agent for Recovery Support
- Autoren: Junda Wang, Zonghai Yao, Lingxi Li, Junhui Qian, Zhichao Yang, Hong Yu
- Klassifizierung: cs.AI
- Veröffentlichungsdatum/Konferenz: arXiv preprint 2025
- Papierlink: https://arxiv.org/abs/2508.20996v2
Substanzabhängigkeitsstörungen (SUDs) beeinflussen Millionen von Menschen mit hohen Rückfallquoten und erfordern mehrfache Behandlungen. Angesichts begrenzter medizinischer Ressourcen stehen Genesungsunterstützungsprogramme vor enormen Herausforderungen. Dieser Artikel präsentiert ChatThero, einen innovativen, kostengünstigen, mehrfach-sitzungsgestützten, stressempfindlichen und speicherbeständigen autonomen Sprachagenten, der darauf abzielt, langfristige Verhaltensänderungen und therapeutische Unterstützung in der Suchtgenesung zu fördern. Im Gegensatz zu bestehenden Arbeiten, die hauptsächlich große Sprachmodelle auf Patient-Therapeut-Dialogdaten feinabstimmen, wird ChatThero in einer Multi-Agent-Umgebung trainiert, die echte Therapie simuliert. Das Forschungsteam erstellte anonymisierte Patientenprofile aus Genesungsgemeinschaften (wie Reddit) und klassifizierte Patienten in drei Schwierigkeitsstufen – leicht, mittel und schwer – die ihre Genesungsresistenz darstellen. Durch die Einführung von Stressoren zur Simulation realistischer Szenarien werden dynamisch klinisch fundierte therapeutische Strategien (Motivierende Gesprächsführung und Kognitive Verhaltenstherapie) eingespielt. Die Evaluierungsergebnisse zeigen, dass ChatThero in Empathie und klinischer Relevanz überlegen ist, wobei die Stresssimulation die Robustheit des Systems verbessert.
- Großflächiges gesellschaftliches Problem: Etwa 2,5 Millionen Menschen in den USA leiden an Opioid-Abhängigkeitsstörungen, über 66 Millionen berichten über kürzliche illegale Drogennutzung
- Hohe Rückfallquoten: Ohne kontinuierliche Unterstützung können Rückfallquoten im ersten Jahr 80-90% erreichen
- Knappheit therapeutischer Ressourcen: Weniger als ein Viertel der Patienten mit Opioid-Abhängigkeitsstörungen erhalten Behandlung
- Mehrfache Barrieren: Einschließlich Stigmatisierung, Kosten, Zugangsschwierigkeiten und niedriger Beteiligung
- Begrenzte Wirksamkeit einzelner Interventionen: Einzelsitzungs-Interventionen können Effekte schwer aufrechterhalten und erfordern mehrfache Behandlungen und kontinuierliche Betreuung
- Unzureichende bestehende KI-Systeme: Die meisten Systeme werden auf einzelnen Sitzungen oder kurzem Kontext feinabgestimmt und können den echten Genesungsprozess nicht abbilden
- Begrenzte Bewertungsmethoden: Die meisten Bewertungen verwenden einmalige Qualitätsbewertungen und verpassen Trajektorien und Rückfallmuster
Entwicklung eines KI-Systems, das über mehrere Sitzungen hinweg kontinuierliche, personalisierte therapeutische Unterstützung bieten kann und Stress und Herausforderungen in echten Therapieumgebungen simuliert.
- Multi-Sitzungs-, stressempfindliches Sprachagenten-Framework: Vorschlag eines reproduzierbaren Simulationssystems mit Speicherbeständigkeit
- Daten-Umgebungs-Konstruktionsprozess: Erfassung von Patientenprofilen aus Genesungsforen mit expliziten Stressoren zur Zustandsänderung
- Zweistufiges Trainingsschema: Anwendung von SFT→DPO mit schwierigem Fall-Curriculum-Lernen für Multi-Sitzungs-Strategien
- Ergebnisorientierte Multi-Sitzungs-Bewertungssuite: Einschließlich Motivations-/Vertrauenstrajektor, Erfolgszeit, Stressrobustheit und Mensch-Maschine-Konsistenz-Bewertung
Modellierung der Genesungsunterstützung als Multi-Sitzungs-, teilweise beobachtbares Entscheidungs- und Generierungsproblem mit Störungen zwischen Sitzungen und Verlangen. Das System muss:
- Kontinuität des Patientenzustands aufrechterhalten
- Sich an Umgebungsstressoren anpassen
- MI/CBT/Schadensminderungsstrategien auswählen und priorisieren
- Speicher über Sitzungen hinweg aufrechterhalten
- Patienten-Agent (PA):
- Aufrechterhaltung persistenter Zustände und Resistenzniveaus (leicht/mittel/schwer)
- Basierend auf Genesungsgemeinschaftsprofilen, gefiltert und anonymisiert
- Enthält strukturierte Profile und dynamisches Gedächtnis
- Umgebungs-Agent (EA):
- Einspielung expliziter Stressoren zwischen Sitzungen
- Simulation realistischer Szenarien (Gruppendruck, Arbeitsstress, Familienkonflikte usw.)
- Aktualisierung des Patientengedächtnisstatus
- Therapeut-Agent (TA) - ChatThero:
- Trainierbarer Kernkomponent
- Auswahl und Priorisierung von MI/CBT-Strategien
- Aufrechterhaltung longitudinalen Gedächtnisses
- Strukturierte Profile: Enthält Persönlichkeitsmerkmale, Substanznutzungsgeschichte, bedeutende Lebensereignisse, Nutzungsmotivationen
- Dynamisches Gedächtnis: Erfasst Interaktionen, emotionale Zustände, Bewältigungsmechanismen, Umwelteinflüsse
- Datenschutz: Mehrstufige Pipeline zur Gewährleistung der Entfernung und Anonymisierung persönlich identifizierbarer Informationen
Anwendung eines 6-Phasen-CBT-Rahmens:
- S1: Vertrauensaufbau und Bewertung
- S2: Identifikation negativer Gedanken
- S3: Herausforderung fehlerhafter Überzeugungen
- S4: Umstrukturierung von Gedankenmustern
- S5: Aufbau von Verhaltensfertigkeiten
- S6: Konsolidierung und Beendigung
Drei Stressor-Kategorien:
- Peer/Verfügbarkeit (Einladungen, Nähe zu Drogenkonsumenten)
- Arbeit/Akademie (Fristen, Schichtwechsel)
- Familie/Umgebung (Familienkonflikte, Wohnungsinstabilität)
- SFT-Phase: Erlernen sicherer MI/CBT-Strukturen
- DPO-Phase: Optimierung der Strategieauswahl-Timing mit schwierigem Fall-Curriculum
- Reddit-Daten: 57.471 eindeutige Autoren, durchschnittlich 18,25 Beiträge pro Person
- Synthetische Dialoge: 60.471 Dialoge, durchschnittlich 45,72 Runden
- Multi-Sitzungs-Trajektorien: 8.240 Dialoge (6-Sitzungs-Bögen)
- Ergebnis-Metriken:
- Motivation: 1-5 Punkte
- Vertrauen: 1-5 Punkte
- Prozess-Metriken:
- Erfolgszeit: Prozentsatz der Runden bis zur Erreichung des Erfolgsschwellwerts
- Menschliche Bewertungsdimensionen:
- Reaktionsfähigkeit
- Empathie
- Angemessenheit der Überzeugungsstrategie
- Klinische Relevanz
- Verhaltensrealismus
- GPT-4o
- GPT-4o-mini
- LLaMA3.1-8B-Instruct
- Qwen2.5-Serie (7B, 14B, 32B)
- Dekodierungstemperatur: 0,7
- Maximale Sitzungsrunden: 60 (ca. 45 Minuten)
- Multi-Sitzungen: 3-6 Besuche
- Basismodell: Qwen-7B
- Motivationssteigerung: Von 2,39 auf 4,10 (+1,71 Punkte)
- Vertrauenssteigerung: Von 1,52 auf 3,19 (+1,67 Punkte)
- Erfolgszeit: ChatThero benötigt nur 26% der Runden, während GPT-4o 54% benötigt
| Modell | Reaktionsfähigkeit | Empathie | Strategieangemessenheit | Klinische Relevanz | Verhaltensrealismus | Erfolgszeit |
|---|
| GPT-4o | 4,68 | 4,87 | 4,39 | 4,47 | 4,50 | 54% |
| GPT-4o-mini | 4,66 | 4,86 | 4,38 | 4,49 | 4,46 | 62% |
| ChatThero-DPO | 4,85 | 4,93 | 4,75 | 4,61 | 4,69 | 26% |
- SFT vs. DPO: DPO übertrifft deutlich reines SFT bei Strategieauswahl und Timing-Kontrolle
- Stressor-Auswirkung: Explizite Stressoren erhöhen Rückfallmuster, was realistischen Mustern entspricht
- Schwierigkeitsgrad-Effekt: Verbesserungen sind bei mittleren und schwierigen Patienten am signifikantesten
- Leichte Patienten: Alle Modelle erreichen nahe der Obergrenze bei der 1. Visite
- Mittlere Patienten: ChatThero zeigt größere Verbesserungen innerhalb der Sitzung und höhere Ausgangswerte
- Schwierige Patienten: Alle Systeme zeigen Gewinne innerhalb der Sitzung, aber schwächere Aufrechterhaltung zwischen Sitzungen
ChatThero kann:
- Patientenwiderstand natürlicher handhaben
- Therapeutische Strategien zeitgerecht wechseln
- Konkrete, umsetzbare Bewältigungspläne bereitstellen
- Therapeutische Kontinuität über Sitzungen hinweg aufrechterhalten
- MAT, CBT und andere evidenzbasierte Behandlungen sind wirksam, aber Akzeptanzquoten sind niedrig
- Einzelne Interventionen haben begrenzte Wirkung, erfordern Multi-Sitzungs-Behandlung
- Bestehende Chatbots wie Therabot verbessern Engagement
- LLM unterstützen Triage, diagnostische Überlegungen in der klinischen Praxis
- Systeme wie AgentClinic, AMIE werden für medizinische Ausbildung verwendet
- Virtuelle Patientensysteme erfassen soziale/psychologische Dynamiken
ChatThero übertrifft starke Baseline-Modelle sowohl in einzelnen als auch in mehrfach-Sitzungs-Einstellungen, mit hervorragender Leistung bei Motivations-/Vertrauensergebnissen und Erfolgszeit, mit den größten Vorteilen bei mittleren und schwierigen Fällen.
- Simulationsbeschränkungen: Patientensimulationen basierend auf Reddit-Narrativen erfassen möglicherweise nicht vollständig die Komplexität echter klinischer Umgebungen
- Kulturelle Einschränkungen: Begrenzt auf englischsprachige, westliche Kontexte
- Bewertungsumfang: Fokus auf kurzfristige Dialogergebnisse, keine Bewertung langfristiger Effekte wie Patientenvertrauen, therapeutische Allianz
- Schwierige Patienten: Selbst in Multi-Sitzungs-Einstellungen zeigen schwierige Patienten leicht nachlassende Gewinne zwischen Sitzungen
- Ethische Überlegungen: Erfordern zusätzliche Sicherheitsvorkehrungen und Risikoprotokolle
- Umgebungsdesign: Teilweise beobachtbare, ledgergesteuerte Umgebungen
- Reward-Lernen: Lernen von Reward-Modellen aus Präferenzen und Feedback
- Hierarchisches Reinforcement Learning: Modelle, die Planung und Sicherheit kombinieren
- Validierung in der realen Welt: Erfordert standardisierte Patiententeilnehmer und echte klinische Überwachung
- Hohe Innovativität: Erstmals ein Multi-Sitzungs-, stressempfindlicher Sprachagent für Suchtgenesung
- Vollständige Methodik: Umfassender Prozess von Datenkonstruktion bis Training bis Bewertung
- Umfangreiche Experimente: Einschließlich menschlicher und automatischer Bewertung, multidimensionale Validierung
- Hohe klinische Relevanz: Basierend auf evidenzgestützten Behandlungsmethoden (MI/CBT)
- Umfassende ethische Überlegungen: Strenger Datenschutz und Anonymisierungsprozess
- Simulation-Realitäts-Lücke: Trotz Bemühungen zur Simulation echter Umgebungen bestehen Unterschiede zur echten klinischen Praxis
- Langzeiteffekte unbekannt: Mangel an Langzeit-Verfolgung und Validierung in der realen Welt
- Begrenzte Wirksamkeit bei schwierigen Patienten: Effektivität bei schwer abhängigen Patienten bleibt begrenzt
- Kulturelle Anpassungsfähigkeit: Validierung in verschiedenen kulturellen Kontexten erforderlich
- Akademischer Wert: Bietet neues Paradigma für KI-Anwendungen im Bereich psychische Gesundheit
- Praktisches Potenzial: Könnte Knappheit therapeutischer Ressourcen lindern
- Methodologische Beiträge: Multi-Agent-Simulationsrahmen ist auf andere medizinische Szenarien übertragbar
- Gesellschaftliche Bedeutung: Könnte kostengünstige, skalierbare Lösungen für Suchtgenesung bieten
- Ergänzende Therapiewerkzeuge: Als Ergänzung zur traditionellen Therapie
- Ressourcenknappheitsgebiete: Bereitstellung grundlegender Genesungsunterstützung
- Präventive Interventionen: Frühe Identifikation und Intervention bei Hochrisikogruppen
- Forschungswerkzeuge: Zur Untersuchung von Therapiestrategien und Interventionseffektivität
Dieser Artikel zitiert umfangreiche verwandte Forschung, einschließlich:
- Klassische Literatur im Bereich Suchtbehandlung (Miller & Rose, 2009; Beck, 2019)
- LLM-Anwendungen im Gesundheitswesen (Tu et al., 2025; Arora et al., 2025)
- Multi-Agent-Systeme und virtuelle Patientenforschung (Park et al., 2024; Schmidgall et al., 2024)
- Psychotherapie und Verhaltensänderungstheorie (Marlatt & Donovan, 2005; Hayes & Hofmann, 2018)
Gesamtbewertung: Dies ist eine bedeutsame Arbeit im Bereich der KI-gestützten psychischen Gesundheitsbehandlung mit innovativen Methoden, umfangreichen Experimenten und starkem praktischem Wert. Obwohl einige Einschränkungen bestehen, bietet sie wichtige technische Grundlagen und Forschungsrichtungen für die Entwicklung dieses Feldes.