2025-11-25T04:46:17.326463

ChatThero: An LLM-Supported Chatbot for Behavior Change and Therapeutic Support in Addiction Recovery

Wang, Yao, Li et al.
Substance use disorders (SUDs) affect millions of people, and relapses are common, requiring multi-session treatments. Access to care is limited, which contributes to the challenge of recovery support. We present \textbf{ChatThero}, an innovative low-cost, multi-session, stressor-aware, and memory-persistent autonomous \emph{language agent} designed to facilitate long-term behavior change and therapeutic support in addiction recovery. Unlike existing work that mostly finetuned large language models (LLMs) on patient-therapist conversation data, ChatThero was trained in a multi-agent simulated environment that mirrors real therapy. We created anonymized patient profiles from recovery communities (e.g., Reddit). We classify patients as \texttt{easy}, \texttt{medium}, and \texttt{difficult}, three scales representing their resistance to recovery. We created an external environment by introducing stressors (e.g., social determinants of health) to simulate real-world situations. We dynamically inject clinically-grounded therapeutic strategies (motivational interview and cognitive behavioral therapy). Our evaluation, conducted by both human (blinded clinicians) and LLM-as-Judge, shows that ChatThero is superior in empathy and clinical relevance. We show that stressor simulation improves robustness of ChatThero. Explicit stressors increase relapse-like setbacks, matching real-world patterns. We evaluate ChatThero with behavioral change metrics. On a 1--5 scale, ChatThero raises \texttt{motivation} by $+1.71$ points (from $2.39$ to $4.10$) and \texttt{confidence} by $+1.67$ points (from $1.52$ to $3.19$), substantially outperforming GPT-5. On \texttt{difficult} patients, ChatThero reaches the success milestone with $26\%$ fewer turns than GPT-5.
academic

ChatThero : Un Agent Linguistique Soutenu par LLM pour le Changement Comportemental et le Soutien Thérapeutique dans la Récupération de la Dépendance

Informations Fondamentales

  • ID de l'article : 2508.20996
  • Titre : ChatThero: A Language Agent for Recovery Support
  • Auteurs : Junda Wang, Zonghai Yao, Lingxi Li, Junhui Qian, Zhichao Yang, Hong Yu
  • Classification : cs.AI
  • Date de publication/Conférence : Prépublication arXiv 2025
  • Lien de l'article : https://arxiv.org/abs/2508.20996v2

Résumé

Les troubles liés à l'utilisation de substances (TUS) affectent des millions de personnes avec des taux de rechute élevés, nécessitant des traitements multiples. Face aux ressources médicales limitées, le soutien à la récupération fait face à des défis considérables. Cet article propose ChatThero, un agent linguistique autonome innovant, à faible coût, multi-sessions, conscient du stress et doté d'une mémoire persistante, conçu pour promouvoir le changement comportemental à long terme et le soutien thérapeutique dans la récupération de la dépendance. Contrairement aux travaux existants qui affinent principalement les grands modèles de langage sur des données de dialogues patient-thérapeute, ChatThero est entraîné dans un environnement multi-agents simulant une thérapie réelle. L'équipe de recherche a créé des profils de patients anonymes à partir de communautés de récupération (comme Reddit), classant les patients en trois niveaux de difficulté (facile, moyen, difficile) représentant leur résistance à la récupération. En introduisant des facteurs de stress simulant des situations du monde réel et en injectant dynamiquement des stratégies thérapeutiques fondées cliniquement (entretien motivationnel et thérapie cognitivo-comportementale), les résultats d'évaluation montrent que ChatThero surpasse les systèmes existants en empathie et pertinence clinique, la simulation du stress améliorant la robustesse du système.

Contexte et Motivation de la Recherche

Importance du Problème

  1. Problème social de grande envergure : Environ 2,5 millions de personnes aux États-Unis souffrent de troubles liés à l'utilisation d'opioïdes, plus de 66 millions rapportant une consommation récente de drogues illégales
  2. Taux de rechute élevés : Sans soutien continu, les taux de rechute au cours de la première année peuvent atteindre 80-90%
  3. Rareté des ressources thérapeutiques : Moins d'un quart des patients atteints de troubles liés à l'utilisation d'opioïdes reçoivent un traitement
  4. Obstacles multiples : Incluant la stigmatisation, les coûts, les difficultés d'accès et l'engagement faible

Limitations des Approches Existantes

  1. Efficacité limitée des interventions uniques : Les interventions en une seule session sont difficiles à maintenir, nécessitant des traitements multiples et des soins continus
  2. Insuffisance des systèmes IA existants : La plupart des systèmes sont affinés sur des sessions uniques ou des contextes courts, incapables de représenter le processus de traitement réel de la récupération
  3. Limitations des méthodes d'évaluation : La plupart des évaluations utilisent des notations de qualité à un seul tour, manquant les trajectoires et les revers de rechute

Motivation de la Recherche

Construire un système IA capable de fournir un soutien thérapeutique continu et personnalisé sur plusieurs sessions, simulant les stress et les défis d'un environnement thérapeutique réel.

Contributions Principales

  1. Cadre d'agent linguistique multi-sessions conscient du stress : Propose un système de simulation reproductible avec persistance de la mémoire
  2. Pipeline de construction données-environnement : Extraction de profils de patients à partir de forums de récupération, introduction de processus de stress explicites modifiant l'état
  3. Schéma d'entraînement en deux étapes : Emploie l'apprentissage par curriculum de cas difficiles SFT→DPO pour les stratégies multi-sessions
  4. Suite d'évaluation multi-sessions orientée résultats : Incluant l'évaluation des trajectoires de motivation/confiance, du temps de succès, de la robustesse au stress et de la cohérence homme-machine

Détails de la Méthode

Définition de la Tâche

Modéliser le soutien à la récupération comme un problème de décision et de génération multi-sessions, partiellement observable, contenant des perturbations inter-sessions et des envies. Le système doit :

  • Maintenir la continuité de l'état du patient
  • S'adapter aux facteurs de stress environnementaux
  • Sélectionner et ordonner les stratégies EM/TCC/réduction des risques
  • Maintenir la mémoire inter-sessions

Architecture du Modèle

Système Tri-Agents

  1. Agent Patient (AP) :
    • Maintient l'état persistant et le niveau de résistance (facile/moyen/difficile)
    • Basé sur des profils de communautés de récupération, filtrés et anonymisés
    • Contient des profils structurés et une mémoire dynamique
  2. Agent Environnement (AE) :
    • Injecte des facteurs de stress explicites entre les sessions
    • Simule des situations du monde réel (pression des pairs, stress professionnel, conflits familiaux, etc.)
    • Met à jour l'état de mémoire du patient
  3. Agent Thérapeutique (AT) - ChatThero :
    • Composant entraînable central
    • Sélectionne et ordonne les stratégies EM/TCC
    • Maintient la mémoire longitudinale

Génération de Profils de Patients

  • Profils structurés : Contiennent les traits de personnalité, l'historique d'utilisation de substances, les événements de vie majeurs, les motivations d'utilisation
  • Mémoire dynamique : Enregistre les interactions, les états émotionnels, les mécanismes d'adaptation, les influences environnementales
  • Protection de la vie privée : Pipeline multi-étapes assurant la suppression des informations personnelles identifiables et l'anonymisation

Points d'Innovation Technique

1. Phases de Traitement Multi-Sessions

Emploie un cadre TCC en 6 étapes :

  • S1 : Établir la confiance et l'évaluation
  • S2 : Identifier les cognitions négatives
  • S3 : Contester les croyances erronées
  • S4 : Restructurer les modèles cognitifs
  • S5 : Construire les compétences comportementales
  • S6 : Consolider et terminer

2. Simulation des Facteurs de Stress

Trois catégories de facteurs de stress :

  • Pairs/Disponibilité (invitations, proximité avec des pairs consommateurs)
  • Travail/Académique (délais, changements de quart)
  • Famille/Environnement (conflits familiaux, instabilité du logement)

3. Entraînement en Deux Étapes

  • Phase SFT : Apprendre les structures sûres EM/TCC
  • Phase DPO : Optimiser le timing de la sélection de stratégie, utilisant l'apprentissage par curriculum de cas difficiles

Configuration Expérimentale

Ensemble de Données

  • Données Reddit : 57 471 auteurs uniques, moyenne de 18,25 posts par personne
  • Dialogues synthétiques : 60 471 dialogues, moyenne de 45,72 tours
  • Trajectoires multi-sessions : 8 240 dialogues (arcs de 6 sessions)

Métriques d'Évaluation

  1. Métriques de résultats :
    • Motivation : Échelle 1-5
    • Confiance : Échelle 1-5
  2. Métriques de processus :
    • Temps de succès : Pourcentage de tours pour atteindre le seuil de succès
  3. Dimensions d'Évaluation Humaine :
    • Réactivité (Responsiveness)
    • Empathie (Empathy)
    • Pertinence de la Stratégie Persuasive (Persuasive Strategy Appropriateness)
    • Pertinence Clinique (Clinical Relevance)
    • Réalisme Comportemental (Behavioral Realism)

Méthodes de Comparaison

  • GPT-4o
  • GPT-4o-mini
  • LLaMA3.1-8B-Instruct
  • Série Qwen2.5 (7B, 14B, 32B)

Détails d'Implémentation

  • Température de décodage : 0,7
  • Limite de tours par session : 60 tours (environ 45 minutes)
  • Multi-sessions : 3-6 visites
  • Modèle de base : Qwen-7B

Résultats Expérimentaux

Résultats Principaux

Performance en Session Unique

  • Amélioration de la Motivation : De 2,39 à 4,10 (+1,71 points)
  • Amélioration de la Confiance : De 1,52 à 3,19 (+1,67 points)
  • Temps de Succès : ChatThero nécessite seulement 26% des tours, tandis que GPT-4o en nécessite 54%

Résultats d'Évaluation Humaine

ModèleRéactivitéEmpathiePertinence StratégiquePertinence CliniqueRéalisme ComportementalTemps de Succès
GPT-4o4,684,874,394,474,5054%
GPT-4o-mini4,664,864,384,494,4662%
ChatThero-DPO4,854,934,754,614,6926%

Études d'Ablation

  • SFT vs DPO : DPO surpasse significativement la seule SFT dans la sélection de stratégie et le contrôle du timing
  • Impact des Facteurs de Stress : Les facteurs de stress explicites augmentent les revers de rechute, conformément aux modèles du monde réel
  • Effet de la Classification de Difficulté : Les améliorations les plus significatives sur les patients de difficulté moyenne et élevée

Analyse Multi-Sessions

  • Patients Faciles : Tous les modèles approchent le plafond à la première visite
  • Patients Moyens : ChatThero montre une amélioration intra-session plus importante et des scores de départ plus élevés
  • Patients Difficiles : Tous les systèmes montrent des gains intra-session mais une persistance faible inter-sessions

Analyse de Cas

ChatThero peut :

  • Gérer plus naturellement la résistance du patient
  • Basculer les stratégies thérapeutiques au moment opportun
  • Fournir des plans d'adaptation concrets et exploitables
  • Maintenir la continuité thérapeutique inter-sessions

Travaux Connexes

Traitement des Troubles Liés à l'Utilisation de Substances

  • Les traitements fondés sur des preuves comme le TAM et la TCC sont efficaces mais peu acceptés
  • Les interventions uniques ont un effet limité, nécessitant un traitement multi-sessions

Applications des LLM en Santé Comportementale

  • Les chatbots existants comme Therabot améliorent l'engagement
  • Les LLM soutiennent le triage, le raisonnement diagnostique en pratique clinique

Simulation Multi-Agents

  • Les systèmes comme AgentClinic et AMIE sont utilisés pour l'éducation médicale
  • Les systèmes de patients virtuels capturent les dynamiques sociales et psychologiques

Conclusion et Discussion

Conclusions Principales

ChatThero surpasse les modèles de base solides dans les paramètres de sessions uniques et multiples, excellant dans les résultats de motivation/confiance et le temps de succès, avec les bénéfices les plus importants dans les cas de difficulté moyenne et élevée.

Limitations

  1. Limitations de la Simulation : La simulation de patients basée sur les récits Reddit peut ne pas capturer pleinement la complexité d'un environnement clinique réel
  2. Limitations Culturelles : Limitée aux scénarios anglophones et occidentaux
  3. Portée d'Évaluation : Concentrée sur les résultats de dialogue à court terme, n'évaluant pas les effets à long terme comme la confiance du patient et l'alliance thérapeutique
  4. Patients Difficiles : Même dans les paramètres multi-sessions, les gains inter-sessions des patients difficiles restent facilement éphémères
  5. Considérations Éthiques : Nécessite des garanties de sécurité supplémentaires et des protocoles de gestion des risques

Directions Futures

  1. Conception Environnementale : Environnements partiellement observables et pilotés par registres
  2. Apprentissage de Récompense : Apprentissage de modèles de récompense à partir de préférences et de retours
  3. Apprentissage par Renforcement Hiérarchique : Modèles combinant planification et sécurité
  4. Validation en Monde Réel : Nécessite des participants patients standardisés et une supervision clinique réelle

Évaluation Approfondie

Points Forts

  1. Innovation Forte : Premier agent linguistique multi-sessions conscient du stress pour la récupération de la dépendance
  2. Méthodologie Complète : Pipeline complet de la construction des données à l'entraînement à l'évaluation
  3. Expérimentation Suffisante : Incluant l'évaluation humaine et automatisée, validation multidimensionnelle
  4. Pertinence Clinique Élevée : Basée sur des méthodes thérapeutiques fondées sur des preuves (EM/TCC)
  5. Considérations Éthiques Complètes : Processus rigoureux de protection de la vie privée et d'anonymisation

Insuffisances

  1. Écart Simulation-Réalité : Bien que s'efforçant de simuler l'environnement réel, il existe toujours un écart avec la situation clinique réelle
  2. Effets à Long Terme Inconnus : Manque de suivi à long terme et de validation de déploiement en monde réel
  3. Efficacité Limitée pour les Patients Difficiles : L'efficacité pour les patients atteints de dépendance grave reste limitée
  4. Adaptabilité Culturelle : Nécessite une validation dans différents contextes culturels

Impact

  1. Valeur Académique : Fournit un nouveau paradigme pour l'application de l'IA dans le domaine de la santé mentale
  2. Potentiel Pratique : Prometteur pour atténuer la rareté des ressources thérapeutiques
  3. Contributions Méthodologiques : Le cadre de simulation multi-agents peut être généralisé à d'autres scénarios médicaux
  4. Signification Sociale : Peut fournir une solution à faible coût et évolutive pour la récupération de la dépendance

Scénarios d'Application

  1. Outil de Soutien Thérapeutique : Complément aux traitements traditionnels
  2. Régions Déficitaires en Ressources : Fournir un soutien de récupération de base
  3. Intervention Préventive : Identification et intervention précoces des populations à haut risque
  4. Outil de Recherche : Étudier les stratégies thérapeutiques et l'efficacité des interventions

Références

Cet article cite une riche littérature connexe, incluant :

  • Littérature classique dans le domaine du traitement de la dépendance (Miller & Rose, 2009 ; Beck, 2019)
  • Applications des LLM en santé et bien-être (Tu et al., 2025 ; Arora et al., 2025)
  • Recherche sur les systèmes multi-agents et les patients virtuels (Park et al., 2024 ; Schmidgall et al., 2024)
  • Théories de la psychothérapie et du changement comportemental (Marlatt & Donovan, 2005 ; Hayes & Hofmann, 2018)

Évaluation Globale : Ceci est un travail d'importance significative dans le domaine du traitement de la santé mentale assisté par IA, avec des méthodes novatrices, une expérimentation suffisante et une valeur pratique forte et une influence académique. Bien qu'il existe certaines limitations, il fournit une base technologique importante et des directions de recherche pour le développement du domaine.