2025-11-25T04:46:17.326463

ChatThero: An LLM-Supported Chatbot for Behavior Change and Therapeutic Support in Addiction Recovery

Wang, Yao, Li et al.

Substance use disorders (SUDs) affect millions of people, and relapses are common, requiring multi-session treatments. Access to care is limited, which contributes to the challenge of recovery support. We present \textbf{ChatThero}, an innovative low-cost, multi-session, stressor-aware, and memory-persistent autonomous \emph{language agent} designed to facilitate long-term behavior change and therapeutic support in addiction recovery. Unlike existing work that mostly finetuned large language models (LLMs) on patient-therapist conversation data, ChatThero was trained in a multi-agent simulated environment that mirrors real therapy. We created anonymized patient profiles from recovery communities (e.g., Reddit). We classify patients as \texttt{easy}, \texttt{medium}, and \texttt{difficult}, three scales representing their resistance to recovery. We created an external environment by introducing stressors (e.g., social determinants of health) to simulate real-world situations. We dynamically inject clinically-grounded therapeutic strategies (motivational interview and cognitive behavioral therapy). Our evaluation, conducted by both human (blinded clinicians) and LLM-as-Judge, shows that ChatThero is superior in empathy and clinical relevance. We show that stressor simulation improves robustness of ChatThero. Explicit stressors increase relapse-like setbacks, matching real-world patterns. We evaluate ChatThero with behavioral change metrics. On a 1--5 scale, ChatThero raises \texttt{motivation} by $+1.71$ points (from $2.39$ to $4.10$) and \texttt{confidence} by $+1.67$ points (from $1.52$ to $3.19$), substantially outperforming GPT-5. On \texttt{difficult} patients, ChatThero reaches the success milestone with $26\%$ fewer turns than GPT-5.

academic

ChatThero: Un Chatbot Asistido por LLM para el Cambio de Comportamiento y Apoyo Terapéutico en la Recuperación de Adicciones

Información Básica

ID del Artículo: 2508.20996
Título: ChatThero: A Language Agent for Recovery Support
Autores: Junda Wang, Zonghai Yao, Lingxi Li, Junhui Qian, Zhichao Yang, Hong Yu
Clasificación: cs.AI
Fecha de Publicación/Conferencia: Preimpresión de arXiv 2025
Enlace del Artículo: https://arxiv.org/abs/2508.20996v2

Resumen

Los trastornos por uso de sustancias (TUS) afectan a millones de personas, con altas tasas de recaída que requieren múltiples tratamientos. Debido a los recursos médicos limitados, el apoyo en la recuperación enfrenta desafíos significativos. Este artículo propone ChatThero, un agente de lenguaje autónomo innovador, de bajo costo, multiconversacional, consciente del estrés y con memoria persistente, diseñado para promover cambios de comportamiento a largo plazo y apoyo terapéutico en la recuperación de adicciones. A diferencia de trabajos existentes que principalmente ajustan modelos de lenguaje grande en datos de diálogos paciente-terapeuta, ChatThero se entrena en un entorno multiagente que simula terapia real. El equipo de investigación creó perfiles de pacientes anónimos a partir de comunidades de recuperación (como Reddit), clasificando pacientes en tres niveles de dificultad (fácil, medio, difícil) que representan su resistencia a la recuperación. Mediante la introducción de simulación de factores estresantes para situaciones del mundo real, se inyectan dinámicamente estrategias terapéuticas basadas en evidencia clínica (entrevista motivacional y terapia cognitivo-conductual). Los resultados de evaluación muestran que ChatThero tiene un desempeño superior en empatía y relevancia clínica, y la simulación de estrés mejora la robustez del sistema.

Antecedentes y Motivación de la Investigación

Importancia del Problema

Problema social de gran escala: Aproximadamente 2.5 millones de personas en Estados Unidos tienen trastorno por uso de opioides, y más de 66 millones reportan uso reciente de drogas ilícitas
Altas tasas de recaída: Sin apoyo continuo, las tasas de recaída en el primer año pueden alcanzar 80-90%
Escasez de recursos terapéuticos: Menos de una cuarta parte de los pacientes con trastorno por uso de opioides reciben tratamiento
Múltiples barreras: Incluyen estigma, costo, dificultad de acceso y baja participación

Limitaciones de Métodos Existentes

Efecto limitado de intervenciones únicas: Las intervenciones de sesión única son difíciles de mantener, requiriendo múltiples tratamientos y cuidado continuo
Insuficiencia de sistemas de IA existentes: La mayoría de sistemas se ajustan en sesiones únicas o contextos cortos, sin poder representar el proceso real de tratamiento de recuperación
Limitaciones en métodos de evaluación: La mayoría de evaluaciones utilizan puntuaciones de calidad de una sola ronda, perdiendo trayectorias y fracasos de recaída

Motivación de la Investigación

Construir un sistema de IA capaz de proporcionar apoyo terapéutico continuo y personalizado a través de múltiples sesiones, simulando el estrés y los desafíos en entornos terapéuticos reales.

Contribuciones Principales

Marco de agente de lenguaje multiconversacional y consciente del estrés: Se propone un sistema de simulación reproducible con persistencia de memoria
Proceso de construcción de datos-entorno: Obtención de perfiles de pacientes de foros de recuperación, introducción de procesos de estrés explícitos que cambian el estado
Esquema de entrenamiento de dos etapas: Adopción de aprendizaje curricular de casos difíciles SFT→DPO para estrategias multiconversacionales
Suite de evaluación multiconversacional orientada a resultados: Incluye evaluación de trayectorias de motivación/confianza, tiempo de éxito, robustez ante estrés y consistencia humano-máquina

Explicación Detallada del Método

Definición de la Tarea

Se modela el apoyo en recuperación como un problema de decisión y generación multiconversacional, parcialmente observable, que incluye perturbaciones entre sesiones y antojos. El sistema debe:

Mantener continuidad del estado del paciente
Adaptarse a factores estresantes ambientales
Seleccionar y ordenar estrategias de IM/TCC/reducción de daños
Mantener memoria entre sesiones

Arquitectura del Modelo

Sistema de Tres Agentes

Agente Paciente (AP):
- Mantiene estado persistente y nivel de resistencia (fácil/medio/difícil)
- Basado en perfiles de comunidades de recuperación, filtrados y anonimizados
- Incluye perfil estructurado y memoria dinámica
Agente Ambiental (AA):
- Inyecta factores estresantes explícitos entre sesiones
- Simula situaciones del mundo real (presión de pares, estrés laboral, conflictos familiares, etc.)
- Actualiza el estado de memoria del paciente
Agente Terapéutico (AT) - ChatThero:
- Componente entrenable principal
- Selecciona y ordena estrategias de IM/TCC
- Mantiene memoria longitudinal

Generación de Perfiles de Pacientes

Perfil estructurado: Incluye rasgos de personalidad, historial de uso de sustancias, eventos de vida significativos, motivaciones de uso
Memoria dinámica: Registra interacciones, estados emocionales, mecanismos de afrontamiento, influencias ambientales
Protección de privacidad: Proceso de múltiples etapas que asegura la eliminación de información de identificación personal (IIP) y anonimización

Puntos de Innovación Técnica

1. Fases de Terapia Multiconversacional

Adopción de marco de TCC de 6 etapas:

S1: Establecimiento de confianza y evaluación
S2: Identificación de cogniciones negativas
S3: Desafío de creencias erróneas
S4: Reestructuración de patrones cognitivos
S5: Construcción de habilidades conductuales
S6: Consolidación y terminación

2. Simulación de Factores Estresantes

Tres categorías de factores estresantes:

Pares/disponibilidad (invitaciones, proximidad a pares que usan)
Laboral/académico (plazos, cambios de turno)
Familiar/ambiental (conflictos familiares, inestabilidad de vivienda)

3. Entrenamiento de Dos Etapas

Etapa SFT: Aprendizaje de estructura segura de IM/TCC
Etapa DPO: Optimización de tiempo de selección de estrategias, utilizando aprendizaje curricular de casos difíciles

Configuración Experimental

Conjunto de Datos

Datos de Reddit: 57,471 autores únicos, promedio de 18.25 publicaciones por persona
Diálogos sintéticos: 60,471 diálogos, promedio de 45.72 turnos
Trayectorias multiconversacionales: 8,240 diálogos (arcos de 6 sesiones)

Métricas de Evaluación

Métricas de resultado:
- Motivación: Escala 1-5
- Confianza: Escala 1-5
Métricas de proceso:
- Tiempo de éxito: Porcentaje de turnos para alcanzar umbral de éxito
Dimensiones de Evaluación Humana:
- Capacidad de respuesta
- Empatía
- Idoneidad de estrategia persuasiva
- Relevancia clínica
- Realismo conductual

Métodos de Comparación

GPT-4o
GPT-4o-mini
LLaMA3.1-8B-Instruct
Serie Qwen2.5 (7B, 14B, 32B)

Detalles de Implementación

Temperatura de decodificación: 0.7
Límite de turnos por sesión: 60 turnos (aproximadamente 45 minutos)
Sesiones múltiples: 3-6 visitas
Modelo base: Qwen-7B

Resultados Experimentales

Resultados Principales

Desempeño en Sesión Única

Aumento de motivación: De 2.39 a 4.10 (+1.71 puntos)
Aumento de confianza: De 1.52 a 3.19 (+1.67 puntos)
Tiempo de éxito: ChatThero requiere solo 26% de turnos, mientras que GPT-4o requiere 54%

Resultados de Evaluación Humana

Modelo	Capacidad de Respuesta	Empatía	Idoneidad de Estrategia	Relevancia Clínica	Realismo Conductual	Tiempo de Éxito
GPT-4o	4.68	4.87	4.39	4.47	4.50	54%
GPT-4o-mini	4.66	4.86	4.38	4.49	4.46	62%
ChatThero-DPO	4.85	4.93	4.75	4.61	4.69	26%

Experimentos de Ablación

SFT vs DPO: DPO supera significativamente a SFT únicamente en selección de estrategias y control de tiempo
Impacto de factores estresantes: Los factores estresantes explícitos aumentan fracasos de recaída simulados, consistente con patrones del mundo real
Efecto de clasificación de dificultad: Mejoras más significativas en pacientes de dificultad media y alta

Análisis Multiconversacional

Pacientes fáciles: Todos los modelos se acercan al techo en la primera visita
Pacientes de dificultad media: ChatThero muestra mayores mejoras dentro de sesión y puntuaciones iniciales más altas
Pacientes difíciles: Todos los sistemas muestran ganancias dentro de sesión pero mantención débil entre sesiones

Análisis de Casos

ChatThero puede:

Manejar más naturalmente la resistencia del paciente
Cambiar estrategias terapéuticas en el momento oportuno
Proporcionar planes de afrontamiento concretos y accionables
Mantener continuidad terapéutica entre sesiones

Trabajo Relacionado

Tratamiento de Trastornos por Uso de Sustancias

MAT, TCC y otros tratamientos basados en evidencia son efectivos pero con baja aceptación
Intervenciones únicas tienen efecto limitado, requiriendo tratamiento multiconversacional

Aplicaciones de LLM en Salud Conductual

Chatbots existentes como Therabot mejoran la participación
LLM apoyan triaje, razonamiento diagnóstico en práctica clínica

Simulación Multiagente

Sistemas como AgentClinic, AMIE utilizados en educación médica
Sistemas de pacientes virtuales capturan dinámicas sociales/psicológicas

Conclusiones y Discusión

Conclusiones Principales

ChatThero supera modelos de referencia sólidos tanto en configuraciones de sesión única como múltiple, con desempeño destacado en resultados de motivación/confianza y tiempo de éxito, con beneficios más evidentes en casos de dificultad media y alta.

Limitaciones

Limitaciones de simulación: La simulación de pacientes basada en narrativas de Reddit puede no capturar completamente la complejidad del entorno clínico real
Limitaciones culturales: Restringido a contextos de idioma inglés y occidentales
Alcance de evaluación: Se enfoca en resultados de diálogo a corto plazo, sin evaluar efectos a largo plazo como confianza del paciente, alianza terapéutica
Pacientes difíciles: Incluso en configuraciones multiconversacionales, las ganancias entre sesiones en pacientes difíciles tienden a desvanecerse
Consideraciones éticas: Requiere salvaguardas de seguridad adicionales y protocolos de riesgo

Direcciones Futuras

Diseño ambiental: Entorno parcialmente observable, impulsado por libro mayor
Aprendizaje de recompensas: Aprendizaje de modelos de recompensa a partir de preferencias y retroalimentación
Aprendizaje por refuerzo jerárquico: Modelos que combinen planificación y seguridad
Validación en mundo real: Requiere participantes de pacientes estandarizados y supervisión clínica real

Evaluación Profunda

Fortalezas

Alta innovación: Primer agente de lenguaje multiconversacional y consciente del estrés para recuperación de adicciones
Metodología completa: Proceso completo desde construcción de datos hasta entrenamiento y evaluación
Experimentación suficiente: Incluye evaluación humana y automática, validación multidimensional
Alta relevancia clínica: Basado en métodos terapéuticos basados en evidencia (IM/TCC)
Consideraciones éticas exhaustivas: Proceso riguroso de protección de privacidad y anonimización

Insuficiencias

Brecha entre simulación y realidad: Aunque se esfuerza por simular entornos reales, aún existe distancia con situaciones clínicas reales
Efectos a largo plazo desconocidos: Falta seguimiento a largo plazo y validación de despliegue en mundo real
Efecto limitado en pacientes difíciles: El efecto en pacientes con adicción severa sigue siendo limitado
Adaptabilidad cultural: Requiere validación en diferentes contextos culturales

Impacto

Valor académico: Proporciona nuevo paradigma para aplicación de IA en salud mental
Potencial práctico: Promete aliviar la escasez de recursos terapéuticos
Contribución metodológica: Marco de simulación multiagente generalizable a otros escenarios médicos
Significado social: Potencial para proporcionar solución escalable y de bajo costo para recuperación de adicciones

Escenarios Aplicables

Herramienta terapéutica complementaria: Como complemento a tratamiento tradicional
Áreas con recursos escasos: Proporcionar apoyo básico en recuperación
Intervención preventiva: Identificación e intervención temprana de poblaciones de alto riesgo
Herramienta de investigación: Para investigación de estrategias terapéuticas y efectos de intervenciones

Referencias

Este artículo cita literatura abundante y relevante, incluyendo:

Literatura clásica en campo de tratamiento de adicciones (Miller & Rose, 2009; Beck, 2019)
Aplicaciones de LLM en salud y bienestar (Tu et al., 2025; Arora et al., 2025)
Investigación en sistemas multiagente y pacientes virtuales (Park et al., 2024; Schmidgall et al., 2024)
Teoría de psicoterapia y cambio de comportamiento (Marlatt & Donovan, 2005; Hayes & Hofmann, 2018)

Evaluación General: Este es un trabajo de importancia significativa en el campo de tratamiento de salud mental asistido por IA, con metodología novedosa, experimentación suficiente y fuerte valor práctico. Aunque presenta algunas limitaciones, proporciona base técnica importante y dirección de investigación para el desarrollo del campo.