2025-11-25T04:46:17.326463

ChatThero: An LLM-Supported Chatbot for Behavior Change and Therapeutic Support in Addiction Recovery

Wang, Yao, Li et al.

Substance use disorders (SUDs) affect millions of people, and relapses are common, requiring multi-session treatments. Access to care is limited, which contributes to the challenge of recovery support. We present \textbf{ChatThero}, an innovative low-cost, multi-session, stressor-aware, and memory-persistent autonomous \emph{language agent} designed to facilitate long-term behavior change and therapeutic support in addiction recovery. Unlike existing work that mostly finetuned large language models (LLMs) on patient-therapist conversation data, ChatThero was trained in a multi-agent simulated environment that mirrors real therapy. We created anonymized patient profiles from recovery communities (e.g., Reddit). We classify patients as \texttt{easy}, \texttt{medium}, and \texttt{difficult}, three scales representing their resistance to recovery. We created an external environment by introducing stressors (e.g., social determinants of health) to simulate real-world situations. We dynamically inject clinically-grounded therapeutic strategies (motivational interview and cognitive behavioral therapy). Our evaluation, conducted by both human (blinded clinicians) and LLM-as-Judge, shows that ChatThero is superior in empathy and clinical relevance. We show that stressor simulation improves robustness of ChatThero. Explicit stressors increase relapse-like setbacks, matching real-world patterns. We evaluate ChatThero with behavioral change metrics. On a 1--5 scale, ChatThero raises \texttt{motivation} by $+1.71$ points (from $2.39$ to $4.10$) and \texttt{confidence} by $+1.67$ points (from $1.52$ to $3.19$), substantially outperforming GPT-5. On \texttt{difficult} patients, ChatThero reaches the success milestone with $26\%$ fewer turns than GPT-5.

academic

ChatThero : Un Agent Linguistique Soutenu par LLM pour le Changement Comportemental et le Soutien Thérapeutique dans la Récupération de la Dépendance

Informations Fondamentales

ID de l'article : 2508.20996
Titre : ChatThero: A Language Agent for Recovery Support
Auteurs : Junda Wang, Zonghai Yao, Lingxi Li, Junhui Qian, Zhichao Yang, Hong Yu
Classification : cs.AI
Date de publication/Conférence : Prépublication arXiv 2025
Lien de l'article : https://arxiv.org/abs/2508.20996v2

Résumé

Les troubles liés à l'utilisation de substances (TUS) affectent des millions de personnes avec des taux de rechute élevés, nécessitant des traitements multiples. Face aux ressources médicales limitées, le soutien à la récupération fait face à des défis considérables. Cet article propose ChatThero, un agent linguistique autonome innovant, à faible coût, multi-sessions, conscient du stress et doté d'une mémoire persistante, conçu pour promouvoir le changement comportemental à long terme et le soutien thérapeutique dans la récupération de la dépendance. Contrairement aux travaux existants qui affinent principalement les grands modèles de langage sur des données de dialogues patient-thérapeute, ChatThero est entraîné dans un environnement multi-agents simulant une thérapie réelle. L'équipe de recherche a créé des profils de patients anonymes à partir de communautés de récupération (comme Reddit), classant les patients en trois niveaux de difficulté (facile, moyen, difficile) représentant leur résistance à la récupération. En introduisant des facteurs de stress simulant des situations du monde réel et en injectant dynamiquement des stratégies thérapeutiques fondées cliniquement (entretien motivationnel et thérapie cognitivo-comportementale), les résultats d'évaluation montrent que ChatThero surpasse les systèmes existants en empathie et pertinence clinique, la simulation du stress améliorant la robustesse du système.

Contexte et Motivation de la Recherche

Importance du Problème

Problème social de grande envergure : Environ 2,5 millions de personnes aux États-Unis souffrent de troubles liés à l'utilisation d'opioïdes, plus de 66 millions rapportant une consommation récente de drogues illégales
Taux de rechute élevés : Sans soutien continu, les taux de rechute au cours de la première année peuvent atteindre 80-90%
Rareté des ressources thérapeutiques : Moins d'un quart des patients atteints de troubles liés à l'utilisation d'opioïdes reçoivent un traitement
Obstacles multiples : Incluant la stigmatisation, les coûts, les difficultés d'accès et l'engagement faible

Limitations des Approches Existantes

Efficacité limitée des interventions uniques : Les interventions en une seule session sont difficiles à maintenir, nécessitant des traitements multiples et des soins continus
Insuffisance des systèmes IA existants : La plupart des systèmes sont affinés sur des sessions uniques ou des contextes courts, incapables de représenter le processus de traitement réel de la récupération
Limitations des méthodes d'évaluation : La plupart des évaluations utilisent des notations de qualité à un seul tour, manquant les trajectoires et les revers de rechute

Motivation de la Recherche

Construire un système IA capable de fournir un soutien thérapeutique continu et personnalisé sur plusieurs sessions, simulant les stress et les défis d'un environnement thérapeutique réel.

Contributions Principales

Cadre d'agent linguistique multi-sessions conscient du stress : Propose un système de simulation reproductible avec persistance de la mémoire
Pipeline de construction données-environnement : Extraction de profils de patients à partir de forums de récupération, introduction de processus de stress explicites modifiant l'état
Schéma d'entraînement en deux étapes : Emploie l'apprentissage par curriculum de cas difficiles SFT→DPO pour les stratégies multi-sessions
Suite d'évaluation multi-sessions orientée résultats : Incluant l'évaluation des trajectoires de motivation/confiance, du temps de succès, de la robustesse au stress et de la cohérence homme-machine

Détails de la Méthode

Définition de la Tâche

Modéliser le soutien à la récupération comme un problème de décision et de génération multi-sessions, partiellement observable, contenant des perturbations inter-sessions et des envies. Le système doit :

Maintenir la continuité de l'état du patient
S'adapter aux facteurs de stress environnementaux
Sélectionner et ordonner les stratégies EM/TCC/réduction des risques
Maintenir la mémoire inter-sessions

Architecture du Modèle

Système Tri-Agents

Agent Patient (AP) :
- Maintient l'état persistant et le niveau de résistance (facile/moyen/difficile)
- Basé sur des profils de communautés de récupération, filtrés et anonymisés
- Contient des profils structurés et une mémoire dynamique
Agent Environnement (AE) :
- Injecte des facteurs de stress explicites entre les sessions
- Simule des situations du monde réel (pression des pairs, stress professionnel, conflits familiaux, etc.)
- Met à jour l'état de mémoire du patient
Agent Thérapeutique (AT) - ChatThero :
- Composant entraînable central
- Sélectionne et ordonne les stratégies EM/TCC
- Maintient la mémoire longitudinale

Génération de Profils de Patients

Profils structurés : Contiennent les traits de personnalité, l'historique d'utilisation de substances, les événements de vie majeurs, les motivations d'utilisation
Mémoire dynamique : Enregistre les interactions, les états émotionnels, les mécanismes d'adaptation, les influences environnementales
Protection de la vie privée : Pipeline multi-étapes assurant la suppression des informations personnelles identifiables et l'anonymisation

Points d'Innovation Technique

1. Phases de Traitement Multi-Sessions

Emploie un cadre TCC en 6 étapes :

S1 : Établir la confiance et l'évaluation
S2 : Identifier les cognitions négatives
S3 : Contester les croyances erronées
S4 : Restructurer les modèles cognitifs
S5 : Construire les compétences comportementales
S6 : Consolider et terminer

2. Simulation des Facteurs de Stress

Trois catégories de facteurs de stress :

Pairs/Disponibilité (invitations, proximité avec des pairs consommateurs)
Travail/Académique (délais, changements de quart)
Famille/Environnement (conflits familiaux, instabilité du logement)

3. Entraînement en Deux Étapes

Phase SFT : Apprendre les structures sûres EM/TCC
Phase DPO : Optimiser le timing de la sélection de stratégie, utilisant l'apprentissage par curriculum de cas difficiles

Configuration Expérimentale

Ensemble de Données

Données Reddit : 57 471 auteurs uniques, moyenne de 18,25 posts par personne
Dialogues synthétiques : 60 471 dialogues, moyenne de 45,72 tours
Trajectoires multi-sessions : 8 240 dialogues (arcs de 6 sessions)

Métriques d'Évaluation

Métriques de résultats :
- Motivation : Échelle 1-5
- Confiance : Échelle 1-5
Métriques de processus :
- Temps de succès : Pourcentage de tours pour atteindre le seuil de succès
Dimensions d'Évaluation Humaine :
- Réactivité (Responsiveness)
- Empathie (Empathy)
- Pertinence de la Stratégie Persuasive (Persuasive Strategy Appropriateness)
- Pertinence Clinique (Clinical Relevance)
- Réalisme Comportemental (Behavioral Realism)

Méthodes de Comparaison

GPT-4o
GPT-4o-mini
LLaMA3.1-8B-Instruct
Série Qwen2.5 (7B, 14B, 32B)

Détails d'Implémentation

Température de décodage : 0,7
Limite de tours par session : 60 tours (environ 45 minutes)
Multi-sessions : 3-6 visites
Modèle de base : Qwen-7B

Résultats Expérimentaux

Résultats Principaux

Performance en Session Unique

Amélioration de la Motivation : De 2,39 à 4,10 (+1,71 points)
Amélioration de la Confiance : De 1,52 à 3,19 (+1,67 points)
Temps de Succès : ChatThero nécessite seulement 26% des tours, tandis que GPT-4o en nécessite 54%

Résultats d'Évaluation Humaine

Modèle	Réactivité	Empathie	Pertinence Stratégique	Pertinence Clinique	Réalisme Comportemental	Temps de Succès
GPT-4o	4,68	4,87	4,39	4,47	4,50	54%
GPT-4o-mini	4,66	4,86	4,38	4,49	4,46	62%
ChatThero-DPO	4,85	4,93	4,75	4,61	4,69	26%

Études d'Ablation

SFT vs DPO : DPO surpasse significativement la seule SFT dans la sélection de stratégie et le contrôle du timing
Impact des Facteurs de Stress : Les facteurs de stress explicites augmentent les revers de rechute, conformément aux modèles du monde réel
Effet de la Classification de Difficulté : Les améliorations les plus significatives sur les patients de difficulté moyenne et élevée

Analyse Multi-Sessions

Patients Faciles : Tous les modèles approchent le plafond à la première visite
Patients Moyens : ChatThero montre une amélioration intra-session plus importante et des scores de départ plus élevés
Patients Difficiles : Tous les systèmes montrent des gains intra-session mais une persistance faible inter-sessions

Analyse de Cas

ChatThero peut :

Gérer plus naturellement la résistance du patient
Basculer les stratégies thérapeutiques au moment opportun
Fournir des plans d'adaptation concrets et exploitables
Maintenir la continuité thérapeutique inter-sessions

Travaux Connexes

Traitement des Troubles Liés à l'Utilisation de Substances

Les traitements fondés sur des preuves comme le TAM et la TCC sont efficaces mais peu acceptés
Les interventions uniques ont un effet limité, nécessitant un traitement multi-sessions

Applications des LLM en Santé Comportementale

Les chatbots existants comme Therabot améliorent l'engagement
Les LLM soutiennent le triage, le raisonnement diagnostique en pratique clinique

Simulation Multi-Agents

Les systèmes comme AgentClinic et AMIE sont utilisés pour l'éducation médicale
Les systèmes de patients virtuels capturent les dynamiques sociales et psychologiques

Conclusion et Discussion

Conclusions Principales

ChatThero surpasse les modèles de base solides dans les paramètres de sessions uniques et multiples, excellant dans les résultats de motivation/confiance et le temps de succès, avec les bénéfices les plus importants dans les cas de difficulté moyenne et élevée.

Limitations

Limitations de la Simulation : La simulation de patients basée sur les récits Reddit peut ne pas capturer pleinement la complexité d'un environnement clinique réel
Limitations Culturelles : Limitée aux scénarios anglophones et occidentaux
Portée d'Évaluation : Concentrée sur les résultats de dialogue à court terme, n'évaluant pas les effets à long terme comme la confiance du patient et l'alliance thérapeutique
Patients Difficiles : Même dans les paramètres multi-sessions, les gains inter-sessions des patients difficiles restent facilement éphémères
Considérations Éthiques : Nécessite des garanties de sécurité supplémentaires et des protocoles de gestion des risques

Directions Futures

Conception Environnementale : Environnements partiellement observables et pilotés par registres
Apprentissage de Récompense : Apprentissage de modèles de récompense à partir de préférences et de retours
Apprentissage par Renforcement Hiérarchique : Modèles combinant planification et sécurité
Validation en Monde Réel : Nécessite des participants patients standardisés et une supervision clinique réelle

Évaluation Approfondie

Points Forts

Innovation Forte : Premier agent linguistique multi-sessions conscient du stress pour la récupération de la dépendance
Méthodologie Complète : Pipeline complet de la construction des données à l'entraînement à l'évaluation
Expérimentation Suffisante : Incluant l'évaluation humaine et automatisée, validation multidimensionnelle
Pertinence Clinique Élevée : Basée sur des méthodes thérapeutiques fondées sur des preuves (EM/TCC)
Considérations Éthiques Complètes : Processus rigoureux de protection de la vie privée et d'anonymisation

Insuffisances

Écart Simulation-Réalité : Bien que s'efforçant de simuler l'environnement réel, il existe toujours un écart avec la situation clinique réelle
Effets à Long Terme Inconnus : Manque de suivi à long terme et de validation de déploiement en monde réel
Efficacité Limitée pour les Patients Difficiles : L'efficacité pour les patients atteints de dépendance grave reste limitée
Adaptabilité Culturelle : Nécessite une validation dans différents contextes culturels

Impact

Valeur Académique : Fournit un nouveau paradigme pour l'application de l'IA dans le domaine de la santé mentale
Potentiel Pratique : Prometteur pour atténuer la rareté des ressources thérapeutiques
Contributions Méthodologiques : Le cadre de simulation multi-agents peut être généralisé à d'autres scénarios médicaux
Signification Sociale : Peut fournir une solution à faible coût et évolutive pour la récupération de la dépendance

Scénarios d'Application

Outil de Soutien Thérapeutique : Complément aux traitements traditionnels
Régions Déficitaires en Ressources : Fournir un soutien de récupération de base
Intervention Préventive : Identification et intervention précoces des populations à haut risque
Outil de Recherche : Étudier les stratégies thérapeutiques et l'efficacité des interventions

Références

Cet article cite une riche littérature connexe, incluant :

Littérature classique dans le domaine du traitement de la dépendance (Miller & Rose, 2009 ; Beck, 2019)
Applications des LLM en santé et bien-être (Tu et al., 2025 ; Arora et al., 2025)
Recherche sur les systèmes multi-agents et les patients virtuels (Park et al., 2024 ; Schmidgall et al., 2024)
Théories de la psychothérapie et du changement comportemental (Marlatt & Donovan, 2005 ; Hayes & Hofmann, 2018)

Évaluation Globale : Ceci est un travail d'importance significative dans le domaine du traitement de la santé mentale assisté par IA, avec des méthodes novatrices, une expérimentation suffisante et une valeur pratique forte et une influence académique. Bien qu'il existe certaines limitations, il fournit une base technologique importante et des directions de recherche pour le développement du domaine.