2025-11-25T04:46:17.326463

ChatThero: An LLM-Supported Chatbot for Behavior Change and Therapeutic Support in Addiction Recovery

Wang, Yao, Li et al.
Substance use disorders (SUDs) affect millions of people, and relapses are common, requiring multi-session treatments. Access to care is limited, which contributes to the challenge of recovery support. We present \textbf{ChatThero}, an innovative low-cost, multi-session, stressor-aware, and memory-persistent autonomous \emph{language agent} designed to facilitate long-term behavior change and therapeutic support in addiction recovery. Unlike existing work that mostly finetuned large language models (LLMs) on patient-therapist conversation data, ChatThero was trained in a multi-agent simulated environment that mirrors real therapy. We created anonymized patient profiles from recovery communities (e.g., Reddit). We classify patients as \texttt{easy}, \texttt{medium}, and \texttt{difficult}, three scales representing their resistance to recovery. We created an external environment by introducing stressors (e.g., social determinants of health) to simulate real-world situations. We dynamically inject clinically-grounded therapeutic strategies (motivational interview and cognitive behavioral therapy). Our evaluation, conducted by both human (blinded clinicians) and LLM-as-Judge, shows that ChatThero is superior in empathy and clinical relevance. We show that stressor simulation improves robustness of ChatThero. Explicit stressors increase relapse-like setbacks, matching real-world patterns. We evaluate ChatThero with behavioral change metrics. On a 1--5 scale, ChatThero raises \texttt{motivation} by $+1.71$ points (from $2.39$ to $4.10$) and \texttt{confidence} by $+1.67$ points (from $1.52$ to $3.19$), substantially outperforming GPT-5. On \texttt{difficult} patients, ChatThero reaches the success milestone with $26\%$ fewer turns than GPT-5.
academic

ChatThero: Ein LLM-gestützter Chatbot für Verhaltensänderung und therapeutische Unterstützung in der Suchtgenesung

Grundinformationen

  • Papier-ID: 2508.20996
  • Titel: ChatThero: A Language Agent for Recovery Support
  • Autoren: Junda Wang, Zonghai Yao, Lingxi Li, Junhui Qian, Zhichao Yang, Hong Yu
  • Klassifizierung: cs.AI
  • Veröffentlichungsdatum/Konferenz: arXiv preprint 2025
  • Papierlink: https://arxiv.org/abs/2508.20996v2

Zusammenfassung

Substanzabhängigkeitsstörungen (SUDs) beeinflussen Millionen von Menschen mit hohen Rückfallquoten und erfordern mehrfache Behandlungen. Angesichts begrenzter medizinischer Ressourcen stehen Genesungsunterstützungsprogramme vor enormen Herausforderungen. Dieser Artikel präsentiert ChatThero, einen innovativen, kostengünstigen, mehrfach-sitzungsgestützten, stressempfindlichen und speicherbeständigen autonomen Sprachagenten, der darauf abzielt, langfristige Verhaltensänderungen und therapeutische Unterstützung in der Suchtgenesung zu fördern. Im Gegensatz zu bestehenden Arbeiten, die hauptsächlich große Sprachmodelle auf Patient-Therapeut-Dialogdaten feinabstimmen, wird ChatThero in einer Multi-Agent-Umgebung trainiert, die echte Therapie simuliert. Das Forschungsteam erstellte anonymisierte Patientenprofile aus Genesungsgemeinschaften (wie Reddit) und klassifizierte Patienten in drei Schwierigkeitsstufen – leicht, mittel und schwer – die ihre Genesungsresistenz darstellen. Durch die Einführung von Stressoren zur Simulation realistischer Szenarien werden dynamisch klinisch fundierte therapeutische Strategien (Motivierende Gesprächsführung und Kognitive Verhaltenstherapie) eingespielt. Die Evaluierungsergebnisse zeigen, dass ChatThero in Empathie und klinischer Relevanz überlegen ist, wobei die Stresssimulation die Robustheit des Systems verbessert.

Forschungshintergrund und Motivation

Bedeutung des Problems

  1. Großflächiges gesellschaftliches Problem: Etwa 2,5 Millionen Menschen in den USA leiden an Opioid-Abhängigkeitsstörungen, über 66 Millionen berichten über kürzliche illegale Drogennutzung
  2. Hohe Rückfallquoten: Ohne kontinuierliche Unterstützung können Rückfallquoten im ersten Jahr 80-90% erreichen
  3. Knappheit therapeutischer Ressourcen: Weniger als ein Viertel der Patienten mit Opioid-Abhängigkeitsstörungen erhalten Behandlung
  4. Mehrfache Barrieren: Einschließlich Stigmatisierung, Kosten, Zugangsschwierigkeiten und niedriger Beteiligung

Einschränkungen bestehender Methoden

  1. Begrenzte Wirksamkeit einzelner Interventionen: Einzelsitzungs-Interventionen können Effekte schwer aufrechterhalten und erfordern mehrfache Behandlungen und kontinuierliche Betreuung
  2. Unzureichende bestehende KI-Systeme: Die meisten Systeme werden auf einzelnen Sitzungen oder kurzem Kontext feinabgestimmt und können den echten Genesungsprozess nicht abbilden
  3. Begrenzte Bewertungsmethoden: Die meisten Bewertungen verwenden einmalige Qualitätsbewertungen und verpassen Trajektorien und Rückfallmuster

Forschungsmotivation

Entwicklung eines KI-Systems, das über mehrere Sitzungen hinweg kontinuierliche, personalisierte therapeutische Unterstützung bieten kann und Stress und Herausforderungen in echten Therapieumgebungen simuliert.

Kernbeiträge

  1. Multi-Sitzungs-, stressempfindliches Sprachagenten-Framework: Vorschlag eines reproduzierbaren Simulationssystems mit Speicherbeständigkeit
  2. Daten-Umgebungs-Konstruktionsprozess: Erfassung von Patientenprofilen aus Genesungsforen mit expliziten Stressoren zur Zustandsänderung
  3. Zweistufiges Trainingsschema: Anwendung von SFT→DPO mit schwierigem Fall-Curriculum-Lernen für Multi-Sitzungs-Strategien
  4. Ergebnisorientierte Multi-Sitzungs-Bewertungssuite: Einschließlich Motivations-/Vertrauenstrajektor, Erfolgszeit, Stressrobustheit und Mensch-Maschine-Konsistenz-Bewertung

Methodische Details

Aufgabendefinition

Modellierung der Genesungsunterstützung als Multi-Sitzungs-, teilweise beobachtbares Entscheidungs- und Generierungsproblem mit Störungen zwischen Sitzungen und Verlangen. Das System muss:

  • Kontinuität des Patientenzustands aufrechterhalten
  • Sich an Umgebungsstressoren anpassen
  • MI/CBT/Schadensminderungsstrategien auswählen und priorisieren
  • Speicher über Sitzungen hinweg aufrechterhalten

Modellarchitektur

Drei-Agent-System

  1. Patienten-Agent (PA):
    • Aufrechterhaltung persistenter Zustände und Resistenzniveaus (leicht/mittel/schwer)
    • Basierend auf Genesungsgemeinschaftsprofilen, gefiltert und anonymisiert
    • Enthält strukturierte Profile und dynamisches Gedächtnis
  2. Umgebungs-Agent (EA):
    • Einspielung expliziter Stressoren zwischen Sitzungen
    • Simulation realistischer Szenarien (Gruppendruck, Arbeitsstress, Familienkonflikte usw.)
    • Aktualisierung des Patientengedächtnisstatus
  3. Therapeut-Agent (TA) - ChatThero:
    • Trainierbarer Kernkomponent
    • Auswahl und Priorisierung von MI/CBT-Strategien
    • Aufrechterhaltung longitudinalen Gedächtnisses

Patientenprofilgenerierung

  • Strukturierte Profile: Enthält Persönlichkeitsmerkmale, Substanznutzungsgeschichte, bedeutende Lebensereignisse, Nutzungsmotivationen
  • Dynamisches Gedächtnis: Erfasst Interaktionen, emotionale Zustände, Bewältigungsmechanismen, Umwelteinflüsse
  • Datenschutz: Mehrstufige Pipeline zur Gewährleistung der Entfernung und Anonymisierung persönlich identifizierbarer Informationen

Technische Innovationen

1. Multi-Sitzungs-Therapie-Phasen

Anwendung eines 6-Phasen-CBT-Rahmens:

  • S1: Vertrauensaufbau und Bewertung
  • S2: Identifikation negativer Gedanken
  • S3: Herausforderung fehlerhafter Überzeugungen
  • S4: Umstrukturierung von Gedankenmustern
  • S5: Aufbau von Verhaltensfertigkeiten
  • S6: Konsolidierung und Beendigung

2. Stressor-Simulation

Drei Stressor-Kategorien:

  • Peer/Verfügbarkeit (Einladungen, Nähe zu Drogenkonsumenten)
  • Arbeit/Akademie (Fristen, Schichtwechsel)
  • Familie/Umgebung (Familienkonflikte, Wohnungsinstabilität)

3. Zweistufiges Training

  • SFT-Phase: Erlernen sicherer MI/CBT-Strukturen
  • DPO-Phase: Optimierung der Strategieauswahl-Timing mit schwierigem Fall-Curriculum

Experimentelle Einrichtung

Datensatz

  • Reddit-Daten: 57.471 eindeutige Autoren, durchschnittlich 18,25 Beiträge pro Person
  • Synthetische Dialoge: 60.471 Dialoge, durchschnittlich 45,72 Runden
  • Multi-Sitzungs-Trajektorien: 8.240 Dialoge (6-Sitzungs-Bögen)

Bewertungsmetriken

  1. Ergebnis-Metriken:
    • Motivation: 1-5 Punkte
    • Vertrauen: 1-5 Punkte
  2. Prozess-Metriken:
    • Erfolgszeit: Prozentsatz der Runden bis zur Erreichung des Erfolgsschwellwerts
  3. Menschliche Bewertungsdimensionen:
    • Reaktionsfähigkeit
    • Empathie
    • Angemessenheit der Überzeugungsstrategie
    • Klinische Relevanz
    • Verhaltensrealismus

Vergleichsmethoden

  • GPT-4o
  • GPT-4o-mini
  • LLaMA3.1-8B-Instruct
  • Qwen2.5-Serie (7B, 14B, 32B)

Implementierungsdetails

  • Dekodierungstemperatur: 0,7
  • Maximale Sitzungsrunden: 60 (ca. 45 Minuten)
  • Multi-Sitzungen: 3-6 Besuche
  • Basismodell: Qwen-7B

Experimentelle Ergebnisse

Hauptergebnisse

Einzelsitzungs-Leistung

  • Motivationssteigerung: Von 2,39 auf 4,10 (+1,71 Punkte)
  • Vertrauenssteigerung: Von 1,52 auf 3,19 (+1,67 Punkte)
  • Erfolgszeit: ChatThero benötigt nur 26% der Runden, während GPT-4o 54% benötigt

Menschliche Bewertungsergebnisse

ModellReaktionsfähigkeitEmpathieStrategieangemessenheitKlinische RelevanzVerhaltensrealismusErfolgszeit
GPT-4o4,684,874,394,474,5054%
GPT-4o-mini4,664,864,384,494,4662%
ChatThero-DPO4,854,934,754,614,6926%

Ablationsstudien

  • SFT vs. DPO: DPO übertrifft deutlich reines SFT bei Strategieauswahl und Timing-Kontrolle
  • Stressor-Auswirkung: Explizite Stressoren erhöhen Rückfallmuster, was realistischen Mustern entspricht
  • Schwierigkeitsgrad-Effekt: Verbesserungen sind bei mittleren und schwierigen Patienten am signifikantesten

Multi-Sitzungs-Analyse

  • Leichte Patienten: Alle Modelle erreichen nahe der Obergrenze bei der 1. Visite
  • Mittlere Patienten: ChatThero zeigt größere Verbesserungen innerhalb der Sitzung und höhere Ausgangswerte
  • Schwierige Patienten: Alle Systeme zeigen Gewinne innerhalb der Sitzung, aber schwächere Aufrechterhaltung zwischen Sitzungen

Fallstudienanalyse

ChatThero kann:

  • Patientenwiderstand natürlicher handhaben
  • Therapeutische Strategien zeitgerecht wechseln
  • Konkrete, umsetzbare Bewältigungspläne bereitstellen
  • Therapeutische Kontinuität über Sitzungen hinweg aufrechterhalten

Verwandte Arbeiten

Behandlung von Substanzabhängigkeitsstörungen

  • MAT, CBT und andere evidenzbasierte Behandlungen sind wirksam, aber Akzeptanzquoten sind niedrig
  • Einzelne Interventionen haben begrenzte Wirkung, erfordern Multi-Sitzungs-Behandlung

LLM-Anwendungen in der Verhaltensgesundheit

  • Bestehende Chatbots wie Therabot verbessern Engagement
  • LLM unterstützen Triage, diagnostische Überlegungen in der klinischen Praxis

Multi-Agent-Simulation

  • Systeme wie AgentClinic, AMIE werden für medizinische Ausbildung verwendet
  • Virtuelle Patientensysteme erfassen soziale/psychologische Dynamiken

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

ChatThero übertrifft starke Baseline-Modelle sowohl in einzelnen als auch in mehrfach-Sitzungs-Einstellungen, mit hervorragender Leistung bei Motivations-/Vertrauensergebnissen und Erfolgszeit, mit den größten Vorteilen bei mittleren und schwierigen Fällen.

Einschränkungen

  1. Simulationsbeschränkungen: Patientensimulationen basierend auf Reddit-Narrativen erfassen möglicherweise nicht vollständig die Komplexität echter klinischer Umgebungen
  2. Kulturelle Einschränkungen: Begrenzt auf englischsprachige, westliche Kontexte
  3. Bewertungsumfang: Fokus auf kurzfristige Dialogergebnisse, keine Bewertung langfristiger Effekte wie Patientenvertrauen, therapeutische Allianz
  4. Schwierige Patienten: Selbst in Multi-Sitzungs-Einstellungen zeigen schwierige Patienten leicht nachlassende Gewinne zwischen Sitzungen
  5. Ethische Überlegungen: Erfordern zusätzliche Sicherheitsvorkehrungen und Risikoprotokolle

Zukünftige Richtungen

  1. Umgebungsdesign: Teilweise beobachtbare, ledgergesteuerte Umgebungen
  2. Reward-Lernen: Lernen von Reward-Modellen aus Präferenzen und Feedback
  3. Hierarchisches Reinforcement Learning: Modelle, die Planung und Sicherheit kombinieren
  4. Validierung in der realen Welt: Erfordert standardisierte Patiententeilnehmer und echte klinische Überwachung

Tiefgreifende Bewertung

Stärken

  1. Hohe Innovativität: Erstmals ein Multi-Sitzungs-, stressempfindlicher Sprachagent für Suchtgenesung
  2. Vollständige Methodik: Umfassender Prozess von Datenkonstruktion bis Training bis Bewertung
  3. Umfangreiche Experimente: Einschließlich menschlicher und automatischer Bewertung, multidimensionale Validierung
  4. Hohe klinische Relevanz: Basierend auf evidenzgestützten Behandlungsmethoden (MI/CBT)
  5. Umfassende ethische Überlegungen: Strenger Datenschutz und Anonymisierungsprozess

Mängel

  1. Simulation-Realitäts-Lücke: Trotz Bemühungen zur Simulation echter Umgebungen bestehen Unterschiede zur echten klinischen Praxis
  2. Langzeiteffekte unbekannt: Mangel an Langzeit-Verfolgung und Validierung in der realen Welt
  3. Begrenzte Wirksamkeit bei schwierigen Patienten: Effektivität bei schwer abhängigen Patienten bleibt begrenzt
  4. Kulturelle Anpassungsfähigkeit: Validierung in verschiedenen kulturellen Kontexten erforderlich

Auswirkungen

  1. Akademischer Wert: Bietet neues Paradigma für KI-Anwendungen im Bereich psychische Gesundheit
  2. Praktisches Potenzial: Könnte Knappheit therapeutischer Ressourcen lindern
  3. Methodologische Beiträge: Multi-Agent-Simulationsrahmen ist auf andere medizinische Szenarien übertragbar
  4. Gesellschaftliche Bedeutung: Könnte kostengünstige, skalierbare Lösungen für Suchtgenesung bieten

Anwendungsszenarien

  1. Ergänzende Therapiewerkzeuge: Als Ergänzung zur traditionellen Therapie
  2. Ressourcenknappheitsgebiete: Bereitstellung grundlegender Genesungsunterstützung
  3. Präventive Interventionen: Frühe Identifikation und Intervention bei Hochrisikogruppen
  4. Forschungswerkzeuge: Zur Untersuchung von Therapiestrategien und Interventionseffektivität

Literaturverzeichnis

Dieser Artikel zitiert umfangreiche verwandte Forschung, einschließlich:

  • Klassische Literatur im Bereich Suchtbehandlung (Miller & Rose, 2009; Beck, 2019)
  • LLM-Anwendungen im Gesundheitswesen (Tu et al., 2025; Arora et al., 2025)
  • Multi-Agent-Systeme und virtuelle Patientenforschung (Park et al., 2024; Schmidgall et al., 2024)
  • Psychotherapie und Verhaltensänderungstheorie (Marlatt & Donovan, 2005; Hayes & Hofmann, 2018)

Gesamtbewertung: Dies ist eine bedeutsame Arbeit im Bereich der KI-gestützten psychischen Gesundheitsbehandlung mit innovativen Methoden, umfangreichen Experimenten und starkem praktischem Wert. Obwohl einige Einschränkungen bestehen, bietet sie wichtige technische Grundlagen und Forschungsrichtungen für die Entwicklung dieses Feldes.