2025-11-25T04:46:17.326463

ChatThero: An LLM-Supported Chatbot for Behavior Change and Therapeutic Support in Addiction Recovery

Wang, Yao, Li et al.
Substance use disorders (SUDs) affect millions of people, and relapses are common, requiring multi-session treatments. Access to care is limited, which contributes to the challenge of recovery support. We present \textbf{ChatThero}, an innovative low-cost, multi-session, stressor-aware, and memory-persistent autonomous \emph{language agent} designed to facilitate long-term behavior change and therapeutic support in addiction recovery. Unlike existing work that mostly finetuned large language models (LLMs) on patient-therapist conversation data, ChatThero was trained in a multi-agent simulated environment that mirrors real therapy. We created anonymized patient profiles from recovery communities (e.g., Reddit). We classify patients as \texttt{easy}, \texttt{medium}, and \texttt{difficult}, three scales representing their resistance to recovery. We created an external environment by introducing stressors (e.g., social determinants of health) to simulate real-world situations. We dynamically inject clinically-grounded therapeutic strategies (motivational interview and cognitive behavioral therapy). Our evaluation, conducted by both human (blinded clinicians) and LLM-as-Judge, shows that ChatThero is superior in empathy and clinical relevance. We show that stressor simulation improves robustness of ChatThero. Explicit stressors increase relapse-like setbacks, matching real-world patterns. We evaluate ChatThero with behavioral change metrics. On a 1--5 scale, ChatThero raises \texttt{motivation} by $+1.71$ points (from $2.39$ to $4.10$) and \texttt{confidence} by $+1.67$ points (from $1.52$ to $3.19$), substantially outperforming GPT-5. On \texttt{difficult} patients, ChatThero reaches the success milestone with $26\%$ fewer turns than GPT-5.
academic

ChatThero: Un Chatbot Asistido por LLM para el Cambio de Comportamiento y Apoyo Terapéutico en la Recuperación de Adicciones

Información Básica

  • ID del Artículo: 2508.20996
  • Título: ChatThero: A Language Agent for Recovery Support
  • Autores: Junda Wang, Zonghai Yao, Lingxi Li, Junhui Qian, Zhichao Yang, Hong Yu
  • Clasificación: cs.AI
  • Fecha de Publicación/Conferencia: Preimpresión de arXiv 2025
  • Enlace del Artículo: https://arxiv.org/abs/2508.20996v2

Resumen

Los trastornos por uso de sustancias (TUS) afectan a millones de personas, con altas tasas de recaída que requieren múltiples tratamientos. Debido a los recursos médicos limitados, el apoyo en la recuperación enfrenta desafíos significativos. Este artículo propone ChatThero, un agente de lenguaje autónomo innovador, de bajo costo, multiconversacional, consciente del estrés y con memoria persistente, diseñado para promover cambios de comportamiento a largo plazo y apoyo terapéutico en la recuperación de adicciones. A diferencia de trabajos existentes que principalmente ajustan modelos de lenguaje grande en datos de diálogos paciente-terapeuta, ChatThero se entrena en un entorno multiagente que simula terapia real. El equipo de investigación creó perfiles de pacientes anónimos a partir de comunidades de recuperación (como Reddit), clasificando pacientes en tres niveles de dificultad (fácil, medio, difícil) que representan su resistencia a la recuperación. Mediante la introducción de simulación de factores estresantes para situaciones del mundo real, se inyectan dinámicamente estrategias terapéuticas basadas en evidencia clínica (entrevista motivacional y terapia cognitivo-conductual). Los resultados de evaluación muestran que ChatThero tiene un desempeño superior en empatía y relevancia clínica, y la simulación de estrés mejora la robustez del sistema.

Antecedentes y Motivación de la Investigación

Importancia del Problema

  1. Problema social de gran escala: Aproximadamente 2.5 millones de personas en Estados Unidos tienen trastorno por uso de opioides, y más de 66 millones reportan uso reciente de drogas ilícitas
  2. Altas tasas de recaída: Sin apoyo continuo, las tasas de recaída en el primer año pueden alcanzar 80-90%
  3. Escasez de recursos terapéuticos: Menos de una cuarta parte de los pacientes con trastorno por uso de opioides reciben tratamiento
  4. Múltiples barreras: Incluyen estigma, costo, dificultad de acceso y baja participación

Limitaciones de Métodos Existentes

  1. Efecto limitado de intervenciones únicas: Las intervenciones de sesión única son difíciles de mantener, requiriendo múltiples tratamientos y cuidado continuo
  2. Insuficiencia de sistemas de IA existentes: La mayoría de sistemas se ajustan en sesiones únicas o contextos cortos, sin poder representar el proceso real de tratamiento de recuperación
  3. Limitaciones en métodos de evaluación: La mayoría de evaluaciones utilizan puntuaciones de calidad de una sola ronda, perdiendo trayectorias y fracasos de recaída

Motivación de la Investigación

Construir un sistema de IA capaz de proporcionar apoyo terapéutico continuo y personalizado a través de múltiples sesiones, simulando el estrés y los desafíos en entornos terapéuticos reales.

Contribuciones Principales

  1. Marco de agente de lenguaje multiconversacional y consciente del estrés: Se propone un sistema de simulación reproducible con persistencia de memoria
  2. Proceso de construcción de datos-entorno: Obtención de perfiles de pacientes de foros de recuperación, introducción de procesos de estrés explícitos que cambian el estado
  3. Esquema de entrenamiento de dos etapas: Adopción de aprendizaje curricular de casos difíciles SFT→DPO para estrategias multiconversacionales
  4. Suite de evaluación multiconversacional orientada a resultados: Incluye evaluación de trayectorias de motivación/confianza, tiempo de éxito, robustez ante estrés y consistencia humano-máquina

Explicación Detallada del Método

Definición de la Tarea

Se modela el apoyo en recuperación como un problema de decisión y generación multiconversacional, parcialmente observable, que incluye perturbaciones entre sesiones y antojos. El sistema debe:

  • Mantener continuidad del estado del paciente
  • Adaptarse a factores estresantes ambientales
  • Seleccionar y ordenar estrategias de IM/TCC/reducción de daños
  • Mantener memoria entre sesiones

Arquitectura del Modelo

Sistema de Tres Agentes

  1. Agente Paciente (AP):
    • Mantiene estado persistente y nivel de resistencia (fácil/medio/difícil)
    • Basado en perfiles de comunidades de recuperación, filtrados y anonimizados
    • Incluye perfil estructurado y memoria dinámica
  2. Agente Ambiental (AA):
    • Inyecta factores estresantes explícitos entre sesiones
    • Simula situaciones del mundo real (presión de pares, estrés laboral, conflictos familiares, etc.)
    • Actualiza el estado de memoria del paciente
  3. Agente Terapéutico (AT) - ChatThero:
    • Componente entrenable principal
    • Selecciona y ordena estrategias de IM/TCC
    • Mantiene memoria longitudinal

Generación de Perfiles de Pacientes

  • Perfil estructurado: Incluye rasgos de personalidad, historial de uso de sustancias, eventos de vida significativos, motivaciones de uso
  • Memoria dinámica: Registra interacciones, estados emocionales, mecanismos de afrontamiento, influencias ambientales
  • Protección de privacidad: Proceso de múltiples etapas que asegura la eliminación de información de identificación personal (IIP) y anonimización

Puntos de Innovación Técnica

1. Fases de Terapia Multiconversacional

Adopción de marco de TCC de 6 etapas:

  • S1: Establecimiento de confianza y evaluación
  • S2: Identificación de cogniciones negativas
  • S3: Desafío de creencias erróneas
  • S4: Reestructuración de patrones cognitivos
  • S5: Construcción de habilidades conductuales
  • S6: Consolidación y terminación

2. Simulación de Factores Estresantes

Tres categorías de factores estresantes:

  • Pares/disponibilidad (invitaciones, proximidad a pares que usan)
  • Laboral/académico (plazos, cambios de turno)
  • Familiar/ambiental (conflictos familiares, inestabilidad de vivienda)

3. Entrenamiento de Dos Etapas

  • Etapa SFT: Aprendizaje de estructura segura de IM/TCC
  • Etapa DPO: Optimización de tiempo de selección de estrategias, utilizando aprendizaje curricular de casos difíciles

Configuración Experimental

Conjunto de Datos

  • Datos de Reddit: 57,471 autores únicos, promedio de 18.25 publicaciones por persona
  • Diálogos sintéticos: 60,471 diálogos, promedio de 45.72 turnos
  • Trayectorias multiconversacionales: 8,240 diálogos (arcos de 6 sesiones)

Métricas de Evaluación

  1. Métricas de resultado:
    • Motivación: Escala 1-5
    • Confianza: Escala 1-5
  2. Métricas de proceso:
    • Tiempo de éxito: Porcentaje de turnos para alcanzar umbral de éxito
  3. Dimensiones de Evaluación Humana:
    • Capacidad de respuesta
    • Empatía
    • Idoneidad de estrategia persuasiva
    • Relevancia clínica
    • Realismo conductual

Métodos de Comparación

  • GPT-4o
  • GPT-4o-mini
  • LLaMA3.1-8B-Instruct
  • Serie Qwen2.5 (7B, 14B, 32B)

Detalles de Implementación

  • Temperatura de decodificación: 0.7
  • Límite de turnos por sesión: 60 turnos (aproximadamente 45 minutos)
  • Sesiones múltiples: 3-6 visitas
  • Modelo base: Qwen-7B

Resultados Experimentales

Resultados Principales

Desempeño en Sesión Única

  • Aumento de motivación: De 2.39 a 4.10 (+1.71 puntos)
  • Aumento de confianza: De 1.52 a 3.19 (+1.67 puntos)
  • Tiempo de éxito: ChatThero requiere solo 26% de turnos, mientras que GPT-4o requiere 54%

Resultados de Evaluación Humana

ModeloCapacidad de RespuestaEmpatíaIdoneidad de EstrategiaRelevancia ClínicaRealismo ConductualTiempo de Éxito
GPT-4o4.684.874.394.474.5054%
GPT-4o-mini4.664.864.384.494.4662%
ChatThero-DPO4.854.934.754.614.6926%

Experimentos de Ablación

  • SFT vs DPO: DPO supera significativamente a SFT únicamente en selección de estrategias y control de tiempo
  • Impacto de factores estresantes: Los factores estresantes explícitos aumentan fracasos de recaída simulados, consistente con patrones del mundo real
  • Efecto de clasificación de dificultad: Mejoras más significativas en pacientes de dificultad media y alta

Análisis Multiconversacional

  • Pacientes fáciles: Todos los modelos se acercan al techo en la primera visita
  • Pacientes de dificultad media: ChatThero muestra mayores mejoras dentro de sesión y puntuaciones iniciales más altas
  • Pacientes difíciles: Todos los sistemas muestran ganancias dentro de sesión pero mantención débil entre sesiones

Análisis de Casos

ChatThero puede:

  • Manejar más naturalmente la resistencia del paciente
  • Cambiar estrategias terapéuticas en el momento oportuno
  • Proporcionar planes de afrontamiento concretos y accionables
  • Mantener continuidad terapéutica entre sesiones

Trabajo Relacionado

Tratamiento de Trastornos por Uso de Sustancias

  • MAT, TCC y otros tratamientos basados en evidencia son efectivos pero con baja aceptación
  • Intervenciones únicas tienen efecto limitado, requiriendo tratamiento multiconversacional

Aplicaciones de LLM en Salud Conductual

  • Chatbots existentes como Therabot mejoran la participación
  • LLM apoyan triaje, razonamiento diagnóstico en práctica clínica

Simulación Multiagente

  • Sistemas como AgentClinic, AMIE utilizados en educación médica
  • Sistemas de pacientes virtuales capturan dinámicas sociales/psicológicas

Conclusiones y Discusión

Conclusiones Principales

ChatThero supera modelos de referencia sólidos tanto en configuraciones de sesión única como múltiple, con desempeño destacado en resultados de motivación/confianza y tiempo de éxito, con beneficios más evidentes en casos de dificultad media y alta.

Limitaciones

  1. Limitaciones de simulación: La simulación de pacientes basada en narrativas de Reddit puede no capturar completamente la complejidad del entorno clínico real
  2. Limitaciones culturales: Restringido a contextos de idioma inglés y occidentales
  3. Alcance de evaluación: Se enfoca en resultados de diálogo a corto plazo, sin evaluar efectos a largo plazo como confianza del paciente, alianza terapéutica
  4. Pacientes difíciles: Incluso en configuraciones multiconversacionales, las ganancias entre sesiones en pacientes difíciles tienden a desvanecerse
  5. Consideraciones éticas: Requiere salvaguardas de seguridad adicionales y protocolos de riesgo

Direcciones Futuras

  1. Diseño ambiental: Entorno parcialmente observable, impulsado por libro mayor
  2. Aprendizaje de recompensas: Aprendizaje de modelos de recompensa a partir de preferencias y retroalimentación
  3. Aprendizaje por refuerzo jerárquico: Modelos que combinen planificación y seguridad
  4. Validación en mundo real: Requiere participantes de pacientes estandarizados y supervisión clínica real

Evaluación Profunda

Fortalezas

  1. Alta innovación: Primer agente de lenguaje multiconversacional y consciente del estrés para recuperación de adicciones
  2. Metodología completa: Proceso completo desde construcción de datos hasta entrenamiento y evaluación
  3. Experimentación suficiente: Incluye evaluación humana y automática, validación multidimensional
  4. Alta relevancia clínica: Basado en métodos terapéuticos basados en evidencia (IM/TCC)
  5. Consideraciones éticas exhaustivas: Proceso riguroso de protección de privacidad y anonimización

Insuficiencias

  1. Brecha entre simulación y realidad: Aunque se esfuerza por simular entornos reales, aún existe distancia con situaciones clínicas reales
  2. Efectos a largo plazo desconocidos: Falta seguimiento a largo plazo y validación de despliegue en mundo real
  3. Efecto limitado en pacientes difíciles: El efecto en pacientes con adicción severa sigue siendo limitado
  4. Adaptabilidad cultural: Requiere validación en diferentes contextos culturales

Impacto

  1. Valor académico: Proporciona nuevo paradigma para aplicación de IA en salud mental
  2. Potencial práctico: Promete aliviar la escasez de recursos terapéuticos
  3. Contribución metodológica: Marco de simulación multiagente generalizable a otros escenarios médicos
  4. Significado social: Potencial para proporcionar solución escalable y de bajo costo para recuperación de adicciones

Escenarios Aplicables

  1. Herramienta terapéutica complementaria: Como complemento a tratamiento tradicional
  2. Áreas con recursos escasos: Proporcionar apoyo básico en recuperación
  3. Intervención preventiva: Identificación e intervención temprana de poblaciones de alto riesgo
  4. Herramienta de investigación: Para investigación de estrategias terapéuticas y efectos de intervenciones

Referencias

Este artículo cita literatura abundante y relevante, incluyendo:

  • Literatura clásica en campo de tratamiento de adicciones (Miller & Rose, 2009; Beck, 2019)
  • Aplicaciones de LLM en salud y bienestar (Tu et al., 2025; Arora et al., 2025)
  • Investigación en sistemas multiagente y pacientes virtuales (Park et al., 2024; Schmidgall et al., 2024)
  • Teoría de psicoterapia y cambio de comportamiento (Marlatt & Donovan, 2005; Hayes & Hofmann, 2018)

Evaluación General: Este es un trabajo de importancia significativa en el campo de tratamiento de salud mental asistido por IA, con metodología novedosa, experimentación suficiente y fuerte valor práctico. Aunque presenta algunas limitaciones, proporciona base técnica importante y dirección de investigación para el desarrollo del campo.