2025-11-25T04:46:17.326463

ChatThero: An LLM-Supported Chatbot for Behavior Change and Therapeutic Support in Addiction Recovery

Wang, Yao, Li et al.
Substance use disorders (SUDs) affect millions of people, and relapses are common, requiring multi-session treatments. Access to care is limited, which contributes to the challenge of recovery support. We present \textbf{ChatThero}, an innovative low-cost, multi-session, stressor-aware, and memory-persistent autonomous \emph{language agent} designed to facilitate long-term behavior change and therapeutic support in addiction recovery. Unlike existing work that mostly finetuned large language models (LLMs) on patient-therapist conversation data, ChatThero was trained in a multi-agent simulated environment that mirrors real therapy. We created anonymized patient profiles from recovery communities (e.g., Reddit). We classify patients as \texttt{easy}, \texttt{medium}, and \texttt{difficult}, three scales representing their resistance to recovery. We created an external environment by introducing stressors (e.g., social determinants of health) to simulate real-world situations. We dynamically inject clinically-grounded therapeutic strategies (motivational interview and cognitive behavioral therapy). Our evaluation, conducted by both human (blinded clinicians) and LLM-as-Judge, shows that ChatThero is superior in empathy and clinical relevance. We show that stressor simulation improves robustness of ChatThero. Explicit stressors increase relapse-like setbacks, matching real-world patterns. We evaluate ChatThero with behavioral change metrics. On a 1--5 scale, ChatThero raises \texttt{motivation} by $+1.71$ points (from $2.39$ to $4.10$) and \texttt{confidence} by $+1.67$ points (from $1.52$ to $3.19$), substantially outperforming GPT-5. On \texttt{difficult} patients, ChatThero reaches the success milestone with $26\%$ fewer turns than GPT-5.
academic

ChatThero: Un Chatbot Supportato da LLM per il Cambiamento Comportamentale e il Supporto Terapeutico nel Recupero da Dipendenza

Informazioni Fondamentali

  • ID Articolo: 2508.20996
  • Titolo: ChatThero: A Language Agent for Recovery Support
  • Autori: Junda Wang, Zonghai Yao, Lingxi Li, Junhui Qian, Zhichao Yang, Hong Yu
  • Classificazione: cs.AI
  • Data di Pubblicazione/Conferenza: arXiv preprint 2025
  • Link Articolo: https://arxiv.org/abs/2508.20996v2

Abstract

I disturbi da uso di sostanze (SUDs) colpiscono milioni di persone con elevati tassi di ricaduta, richiedendo trattamenti multipli. Data la scarsità di risorse mediche, il supporto al recupero affronta sfide significative. Questo articolo propone ChatThero, un innovativo agente linguistico autonomo a basso costo, multi-sessione, consapevole dello stress e con memoria persistente, progettato per promuovere il cambiamento comportamentale a lungo termine e il supporto terapeutico nel recupero da dipendenza. A differenza dei lavori esistenti che principalmente affinano i modelli di linguaggio di grandi dimensioni su dati di dialogo paziente-terapeuta, ChatThero viene addestrato in un ambiente multi-agente che simula la terapia reale. Il team di ricerca ha creato profili di pazienti anonimi da comunità di recupero (come Reddit), stratificando i pazienti in tre livelli di difficoltà—facile, medio, difficile—rappresentanti la resistenza al recupero. Introducendo simulazioni di fattori di stress per rappresentare situazioni del mondo reale, vengono iniettate dinamicamente strategie terapeutiche basate su evidenze cliniche (intervista motivazionale e terapia cognitivo-comportamentale). I risultati della valutazione mostrano che ChatThero dimostra prestazioni superiori in empatia e rilevanza clinica, con la simulazione dello stress che aumenta la robustezza del sistema.

Contesto di Ricerca e Motivazione

Importanza del Problema

  1. Problema sociale su larga scala: Circa 2,5 milioni di persone negli USA soffrono di disturbo da uso di oppioidi, con oltre 66 milioni che riferiscono uso di droghe illegali recente
  2. Elevati tassi di ricaduta: Senza supporto continuo, i tassi di ricaduta nel primo anno possono raggiungere l'80-90%
  3. Scarsità di risorse terapeutiche: Meno di un quarto dei pazienti con disturbo da uso di oppioidi riceve trattamento
  4. Ostacoli multipli: Includono stigmatizzazione, costi, difficoltà di accesso e basso coinvolgimento

Limitazioni degli Approcci Esistenti

  1. Efficacia limitata degli interventi singoli: Gli interventi in sessione singola difficilmente mantengono gli effetti, richiedendo trattamenti multipli e cure continue
  2. Insufficienza dei sistemi AI esistenti: La maggior parte dei sistemi viene affinata su sessioni singole o contesti brevi, incapace di rappresentare il processo terapeutico reale nel recupero
  3. Limitazioni dei metodi di valutazione: La maggior parte delle valutazioni utilizza punteggi di qualità a turno singolo, perdendo traiettorie e ricadute simulate

Motivazione della Ricerca

Costruire un sistema AI capace di fornire supporto terapeutico continuo e personalizzato attraverso sessioni multiple, simulando lo stress e le sfide dell'ambiente terapeutico reale.

Contributi Fondamentali

  1. Framework di agente linguistico multi-sessione e consapevole dello stress: Propone un sistema di simulazione riproducibile con persistenza della memoria
  2. Pipeline di costruzione dati-ambiente: Acquisisce profili di pazienti da forum di recupero, introducendo processi di stress espliciti che modificano lo stato
  3. Schema di addestramento a due fasi: Adotta curriculum learning di casi difficili SFT→DPO per strategie multi-sessione
  4. Suite di valutazione multi-sessione orientata ai risultati: Include valutazione di traiettorie di motivazione/fiducia, tempo di successo, robustezza dello stress e coerenza uomo-macchina

Spiegazione Dettagliata del Metodo

Definizione del Compito

Modella il supporto al recupero come problema decisionale e generativo multi-sessione parzialmente osservabile, contenente perturbazioni inter-sessione e desiderio. Il sistema deve:

  • Mantenere la continuità dello stato del paziente
  • Adattarsi ai fattori di stress ambientali
  • Selezionare e ordinare strategie MI/CBT/riduzione del danno
  • Mantenere la memoria tra sessioni

Architettura del Modello

Sistema Tri-Agente

  1. Agente Paziente (PA):
    • Mantiene stato persistente e livello di resistenza (facile/medio/difficile)
    • Basato su profili di comunità di recupero, sottoposti a screening e anonimizzati
    • Contiene profilo strutturato e memoria dinamica
  2. Agente Ambiente (EA):
    • Inietta fattori di stress espliciti tra sessioni
    • Simula situazioni del mondo reale (pressione dei pari, stress lavorativo, conflitti familiari, ecc.)
    • Aggiorna lo stato della memoria del paziente
  3. Agente Terapeutico (TA) - ChatThero:
    • Componente addestrabile principale
    • Seleziona e ordina strategie MI/CBT
    • Mantiene memoria longitudinale

Generazione del Profilo del Paziente

  • Profilo strutturato: Contiene tratti di personalità, storia di uso di sostanze, eventi di vita significativi, motivazioni d'uso
  • Memoria dinamica: Registra interazioni, stati emotivi, meccanismi di coping, influenze ambientali
  • Protezione della privacy: Pipeline multi-fase assicura rimozione di PII e anonimizzazione

Punti di Innovazione Tecnica

1. Staging Terapeutico Multi-Sessione

Adotta framework CBT a 6 fasi:

  • S1: Costruzione della fiducia e valutazione
  • S2: Identificazione di cognizioni negative
  • S3: Sfida delle convinzioni errate
  • S4: Ristrutturazione dei pattern cognitivi
  • S5: Costruzione di abilità comportamentali
  • S6: Consolidamento e terminazione

2. Simulazione dei Fattori di Stress

Tre categorie di fattori di stress:

  • Pari/Disponibilità (inviti, vicinanza a coetanei che usano)
  • Lavoro/Accademico (scadenze, cambi di turno)
  • Famiglia/Ambiente (conflitti familiari, instabilità abitativa)

3. Addestramento a Due Fasi

  • Fase SFT: Apprendimento della struttura sicura MI/CBT
  • Fase DPO: Ottimizzazione della tempistica della selezione strategica, utilizzando curriculum learning di casi difficili

Configurazione Sperimentale

Dataset

  • Dati Reddit: 57.471 autori unici, media di 18,25 post per persona
  • Dialoghi sintetici: 60.471 dialoghi, media di 45,72 turni
  • Traiettorie multi-sessione: 8.240 dialoghi (archi di 6 sessioni)

Metriche di Valutazione

  1. Metriche di risultato:
    • Motivazione: scala 1-5
    • Fiducia: scala 1-5
  2. Metriche di processo:
    • Tempo di Successo: percentuale di turni per raggiungere la soglia di successo
  3. Dimensioni di Valutazione Umana:
    • Reattività (Responsiveness)
    • Empatia (Empathy)
    • Appropriatezza della Strategia Persuasiva (Persuasive Strategy Appropriateness)
    • Rilevanza Clinica (Clinical Relevance)
    • Realismo Comportamentale (Behavioral Realism)

Metodi di Confronto

  • GPT-4o
  • GPT-4o-mini
  • LLaMA3.1-8B-Instruct
  • Serie Qwen2.5 (7B, 14B, 32B)

Dettagli di Implementazione

  • Temperatura di decodifica: 0,7
  • Limite di turni per sessione: 60 turni (circa 45 minuti)
  • Sessioni multiple: 3-6 visite
  • Modello base: Qwen-7B

Risultati Sperimentali

Risultati Principali

Prestazioni in Sessione Singola

  • Aumento di Motivazione: da 2,39 a 4,10 (+1,71 punti)
  • Aumento di Fiducia: da 1,52 a 3,19 (+1,67 punti)
  • Tempo di Successo: ChatThero richiede solo il 26% dei turni, mentre GPT-4o ne richiede il 54%

Risultati della Valutazione Umana

ModelloReattivitàEmpatiaAppropriatezza StrategiaRilevanza ClinicaRealismo ComportamentaleTempo di Successo
GPT-4o4,684,874,394,474,5054%
GPT-4o-mini4,664,864,384,494,4662%
ChatThero-DPO4,854,934,754,614,6926%

Esperimenti di Ablazione

  • SFT vs DPO: DPO supera significativamente il solo SFT nella selezione strategica e nel controllo della tempistica
  • Impatto dei Fattori di Stress: I fattori di stress espliciti aumentano le ricadute simulate, in linea con i pattern del mondo reale
  • Effetto della Stratificazione di Difficoltà: I miglioramenti più significativi si verificano nei pazienti di difficoltà media e difficile

Analisi Multi-Sessione

  • Pazienti Facili: Tutti i modelli si avvicinano al massimale nella 1ª visita
  • Pazienti Medi: ChatThero mostra maggiori miglioramenti intra-sessione e punteggi iniziali più elevati
  • Pazienti Difficili: Tutti i sistemi mostrano guadagni intra-sessione ma mantenimento debole tra sessioni

Analisi di Casi

ChatThero è in grado di:

  • Gestire più naturalmente la resistenza del paziente
  • Cambiare strategia terapeutica al momento opportuno
  • Fornire piani di coping concreti e attuabili
  • Mantenere la continuità terapeutica tra sessioni

Lavori Correlati

Trattamento dei Disturbi da Uso di Sostanze

  • MAT, CBT e altri trattamenti basati su evidenze sono efficaci ma con bassa accettazione
  • Gli interventi singoli hanno effetto limitato, richiedendo trattamenti multi-sessione

Applicazioni di LLM nella Salute Comportamentale

  • Chatbot esistenti come Therabot aumentano il coinvolgimento
  • Gli LLM supportano il triage, il ragionamento diagnostico nella pratica clinica

Simulazione Multi-Agente

  • Sistemi come AgentClinic, AMIE utilizzati per l'educazione medica
  • I sistemi di pazienti virtuali catturano dinamiche sociali e psicologiche

Conclusioni e Discussione

Conclusioni Principali

ChatThero supera i modelli di base forti sia in impostazioni di sessione singola che multipla, eccellendo nei risultati di motivazione/fiducia e nel tempo di successo, con i benefici più evidenti nei casi di difficoltà media e difficile.

Limitazioni

  1. Limitazioni della Simulazione: La simulazione del paziente basata su narrazioni Reddit potrebbe non catturare completamente la complessità dell'ambiente clinico reale
  2. Limitazioni Culturali: Limitato a contesti anglofoni e occidentali
  3. Ambito di Valutazione: Focalizzato su risultati di dialogo a breve termine, non valuta effetti a lungo termine come fiducia del paziente e alleanza terapeutica
  4. Pazienti Difficili: Anche in impostazioni multi-sessione, i guadagni tra sessioni nei pazienti difficili tendono a diminuire
  5. Considerazioni Etiche: Richiedono protezioni di sicurezza aggiuntive e protocolli di gestione del rischio

Direzioni Future

  1. Design Ambientale: Ambienti parzialmente osservabili e guidati da contabilità
  2. Apprendimento di Ricompense: Apprendimento di modelli di ricompensa da preferenze e feedback
  3. Apprendimento per Rinforzo Gerarchico: Modelli che combinano pianificazione e sicurezza
  4. Validazione nel Mondo Reale: Richiede partecipanti pazienti standardizzati e supervisione clinica reale

Valutazione Approfondita

Punti di Forza

  1. Forte Innovatività: Primo agente linguistico multi-sessione e consapevole dello stress per il recupero da dipendenza
  2. Metodologia Completa: Pipeline completa da costruzione dati ad addestramento a valutazione
  3. Sperimentazione Approfondita: Include valutazione umana e automatica, verifica multi-dimensionale
  4. Alta Rilevanza Clinica: Basato su metodi terapeutici basati su evidenze (MI/CBT)
  5. Considerazioni Etiche Comprehensive: Rigorosi processi di protezione della privacy e anonimizzazione

Insufficienze

  1. Divario Simulazione-Realtà: Sebbene si sforzi di simulare l'ambiente reale, persiste un divario con la situazione clinica effettiva
  2. Effetti a Lungo Termine Sconosciuti: Mancanza di follow-up a lungo termine e validazione di distribuzione nel mondo reale
  3. Effetto Limitato su Pazienti Difficili: L'efficacia rimane limitata per pazienti con dipendenza grave
  4. Adattabilità Culturale: Richiede validazione in contesti culturali diversi

Impatto

  1. Valore Accademico: Fornisce nuovo paradigma per l'applicazione dell'AI nella salute mentale
  2. Potenziale Pratico: Promette di alleviare la scarsità di risorse terapeutiche
  3. Contributi Metodologici: Il framework di simulazione multi-agente è generalizzabile ad altri scenari medici
  4. Significato Sociale: Potrebbe fornire soluzione a basso costo e scalabile per il recupero da dipendenza

Scenari Applicabili

  1. Strumento di Supporto Terapeutico: Come supplemento alla terapia tradizionale
  2. Aree con Risorse Scarse: Fornire supporto al recupero di base
  3. Intervento Preventivo: Identificazione e intervento precoce di popolazioni ad alto rischio
  4. Strumento di Ricerca: Per la ricerca di strategie terapeutiche ed effetti di intervento

Bibliografia

Questo articolo cita ricerca correlata abbondante, includendo:

  • Letteratura classica nel campo del trattamento delle dipendenze (Miller & Rose, 2009; Beck, 2019)
  • Applicazioni di LLM nella salute e medicina (Tu et al., 2025; Arora et al., 2025)
  • Ricerca su sistemi multi-agente e pazienti virtuali (Park et al., 2024; Schmidgall et al., 2024)
  • Teoria della psicoterapia e del cambiamento comportamentale (Marlatt & Donovan, 2005; Hayes & Hofmann, 2018)

Valutazione Complessiva: Questo è un lavoro di significativa importanza nel campo del trattamento della salute mentale assistito da AI, con metodologia innovativa, sperimentazione approfondita e forte valore pratico e impatto accademico. Sebbene presenti alcune limitazioni, fornisce una base tecnica importante e direzioni di ricerca per lo sviluppo del campo.