Substance use disorders (SUDs) affect millions of people, and relapses are common, requiring multi-session treatments. Access to care is limited, which contributes to the challenge of recovery support. We present \textbf{ChatThero}, an innovative low-cost, multi-session, stressor-aware, and memory-persistent autonomous \emph{language agent} designed to facilitate long-term behavior change and therapeutic support in addiction recovery. Unlike existing work that mostly finetuned large language models (LLMs) on patient-therapist conversation data, ChatThero was trained in a multi-agent simulated environment that mirrors real therapy. We created anonymized patient profiles from recovery communities (e.g., Reddit). We classify patients as \texttt{easy}, \texttt{medium}, and \texttt{difficult}, three scales representing their resistance to recovery. We created an external environment by introducing stressors (e.g., social determinants of health) to simulate real-world situations. We dynamically inject clinically-grounded therapeutic strategies (motivational interview and cognitive behavioral therapy). Our evaluation, conducted by both human (blinded clinicians) and LLM-as-Judge, shows that ChatThero is superior in empathy and clinical relevance. We show that stressor simulation improves robustness of ChatThero. Explicit stressors increase relapse-like setbacks, matching real-world patterns. We evaluate ChatThero with behavioral change metrics. On a 1--5 scale, ChatThero raises \texttt{motivation} by $+1.71$ points (from $2.39$ to $4.10$) and \texttt{confidence} by $+1.67$ points (from $1.52$ to $3.19$), substantially outperforming GPT-5. On \texttt{difficult} patients, ChatThero reaches the success milestone with $26\%$ fewer turns than GPT-5.
- ID del Artículo: 2508.20996
- Título: ChatThero: A Language Agent for Recovery Support
- Autores: Junda Wang, Zonghai Yao, Lingxi Li, Junhui Qian, Zhichao Yang, Hong Yu
- Clasificación: cs.AI
- Fecha de Publicación/Conferencia: Preimpresión de arXiv 2025
- Enlace del Artículo: https://arxiv.org/abs/2508.20996v2
Los trastornos por uso de sustancias (TUS) afectan a millones de personas, con altas tasas de recaída que requieren múltiples tratamientos. Debido a los recursos médicos limitados, el apoyo en la recuperación enfrenta desafíos significativos. Este artículo propone ChatThero, un agente de lenguaje autónomo innovador, de bajo costo, multiconversacional, consciente del estrés y con memoria persistente, diseñado para promover cambios de comportamiento a largo plazo y apoyo terapéutico en la recuperación de adicciones. A diferencia de trabajos existentes que principalmente ajustan modelos de lenguaje grande en datos de diálogos paciente-terapeuta, ChatThero se entrena en un entorno multiagente que simula terapia real. El equipo de investigación creó perfiles de pacientes anónimos a partir de comunidades de recuperación (como Reddit), clasificando pacientes en tres niveles de dificultad (fácil, medio, difícil) que representan su resistencia a la recuperación. Mediante la introducción de simulación de factores estresantes para situaciones del mundo real, se inyectan dinámicamente estrategias terapéuticas basadas en evidencia clínica (entrevista motivacional y terapia cognitivo-conductual). Los resultados de evaluación muestran que ChatThero tiene un desempeño superior en empatía y relevancia clínica, y la simulación de estrés mejora la robustez del sistema.
- Problema social de gran escala: Aproximadamente 2.5 millones de personas en Estados Unidos tienen trastorno por uso de opioides, y más de 66 millones reportan uso reciente de drogas ilícitas
- Altas tasas de recaída: Sin apoyo continuo, las tasas de recaída en el primer año pueden alcanzar 80-90%
- Escasez de recursos terapéuticos: Menos de una cuarta parte de los pacientes con trastorno por uso de opioides reciben tratamiento
- Múltiples barreras: Incluyen estigma, costo, dificultad de acceso y baja participación
- Efecto limitado de intervenciones únicas: Las intervenciones de sesión única son difíciles de mantener, requiriendo múltiples tratamientos y cuidado continuo
- Insuficiencia de sistemas de IA existentes: La mayoría de sistemas se ajustan en sesiones únicas o contextos cortos, sin poder representar el proceso real de tratamiento de recuperación
- Limitaciones en métodos de evaluación: La mayoría de evaluaciones utilizan puntuaciones de calidad de una sola ronda, perdiendo trayectorias y fracasos de recaída
Construir un sistema de IA capaz de proporcionar apoyo terapéutico continuo y personalizado a través de múltiples sesiones, simulando el estrés y los desafíos en entornos terapéuticos reales.
- Marco de agente de lenguaje multiconversacional y consciente del estrés: Se propone un sistema de simulación reproducible con persistencia de memoria
- Proceso de construcción de datos-entorno: Obtención de perfiles de pacientes de foros de recuperación, introducción de procesos de estrés explícitos que cambian el estado
- Esquema de entrenamiento de dos etapas: Adopción de aprendizaje curricular de casos difíciles SFT→DPO para estrategias multiconversacionales
- Suite de evaluación multiconversacional orientada a resultados: Incluye evaluación de trayectorias de motivación/confianza, tiempo de éxito, robustez ante estrés y consistencia humano-máquina
Se modela el apoyo en recuperación como un problema de decisión y generación multiconversacional, parcialmente observable, que incluye perturbaciones entre sesiones y antojos. El sistema debe:
- Mantener continuidad del estado del paciente
- Adaptarse a factores estresantes ambientales
- Seleccionar y ordenar estrategias de IM/TCC/reducción de daños
- Mantener memoria entre sesiones
- Agente Paciente (AP):
- Mantiene estado persistente y nivel de resistencia (fácil/medio/difícil)
- Basado en perfiles de comunidades de recuperación, filtrados y anonimizados
- Incluye perfil estructurado y memoria dinámica
- Agente Ambiental (AA):
- Inyecta factores estresantes explícitos entre sesiones
- Simula situaciones del mundo real (presión de pares, estrés laboral, conflictos familiares, etc.)
- Actualiza el estado de memoria del paciente
- Agente Terapéutico (AT) - ChatThero:
- Componente entrenable principal
- Selecciona y ordena estrategias de IM/TCC
- Mantiene memoria longitudinal
- Perfil estructurado: Incluye rasgos de personalidad, historial de uso de sustancias, eventos de vida significativos, motivaciones de uso
- Memoria dinámica: Registra interacciones, estados emocionales, mecanismos de afrontamiento, influencias ambientales
- Protección de privacidad: Proceso de múltiples etapas que asegura la eliminación de información de identificación personal (IIP) y anonimización
Adopción de marco de TCC de 6 etapas:
- S1: Establecimiento de confianza y evaluación
- S2: Identificación de cogniciones negativas
- S3: Desafío de creencias erróneas
- S4: Reestructuración de patrones cognitivos
- S5: Construcción de habilidades conductuales
- S6: Consolidación y terminación
Tres categorías de factores estresantes:
- Pares/disponibilidad (invitaciones, proximidad a pares que usan)
- Laboral/académico (plazos, cambios de turno)
- Familiar/ambiental (conflictos familiares, inestabilidad de vivienda)
- Etapa SFT: Aprendizaje de estructura segura de IM/TCC
- Etapa DPO: Optimización de tiempo de selección de estrategias, utilizando aprendizaje curricular de casos difíciles
- Datos de Reddit: 57,471 autores únicos, promedio de 18.25 publicaciones por persona
- Diálogos sintéticos: 60,471 diálogos, promedio de 45.72 turnos
- Trayectorias multiconversacionales: 8,240 diálogos (arcos de 6 sesiones)
- Métricas de resultado:
- Motivación: Escala 1-5
- Confianza: Escala 1-5
- Métricas de proceso:
- Tiempo de éxito: Porcentaje de turnos para alcanzar umbral de éxito
- Dimensiones de Evaluación Humana:
- Capacidad de respuesta
- Empatía
- Idoneidad de estrategia persuasiva
- Relevancia clínica
- Realismo conductual
- GPT-4o
- GPT-4o-mini
- LLaMA3.1-8B-Instruct
- Serie Qwen2.5 (7B, 14B, 32B)
- Temperatura de decodificación: 0.7
- Límite de turnos por sesión: 60 turnos (aproximadamente 45 minutos)
- Sesiones múltiples: 3-6 visitas
- Modelo base: Qwen-7B
- Aumento de motivación: De 2.39 a 4.10 (+1.71 puntos)
- Aumento de confianza: De 1.52 a 3.19 (+1.67 puntos)
- Tiempo de éxito: ChatThero requiere solo 26% de turnos, mientras que GPT-4o requiere 54%
| Modelo | Capacidad de Respuesta | Empatía | Idoneidad de Estrategia | Relevancia Clínica | Realismo Conductual | Tiempo de Éxito |
|---|
| GPT-4o | 4.68 | 4.87 | 4.39 | 4.47 | 4.50 | 54% |
| GPT-4o-mini | 4.66 | 4.86 | 4.38 | 4.49 | 4.46 | 62% |
| ChatThero-DPO | 4.85 | 4.93 | 4.75 | 4.61 | 4.69 | 26% |
- SFT vs DPO: DPO supera significativamente a SFT únicamente en selección de estrategias y control de tiempo
- Impacto de factores estresantes: Los factores estresantes explícitos aumentan fracasos de recaída simulados, consistente con patrones del mundo real
- Efecto de clasificación de dificultad: Mejoras más significativas en pacientes de dificultad media y alta
- Pacientes fáciles: Todos los modelos se acercan al techo en la primera visita
- Pacientes de dificultad media: ChatThero muestra mayores mejoras dentro de sesión y puntuaciones iniciales más altas
- Pacientes difíciles: Todos los sistemas muestran ganancias dentro de sesión pero mantención débil entre sesiones
ChatThero puede:
- Manejar más naturalmente la resistencia del paciente
- Cambiar estrategias terapéuticas en el momento oportuno
- Proporcionar planes de afrontamiento concretos y accionables
- Mantener continuidad terapéutica entre sesiones
- MAT, TCC y otros tratamientos basados en evidencia son efectivos pero con baja aceptación
- Intervenciones únicas tienen efecto limitado, requiriendo tratamiento multiconversacional
- Chatbots existentes como Therabot mejoran la participación
- LLM apoyan triaje, razonamiento diagnóstico en práctica clínica
- Sistemas como AgentClinic, AMIE utilizados en educación médica
- Sistemas de pacientes virtuales capturan dinámicas sociales/psicológicas
ChatThero supera modelos de referencia sólidos tanto en configuraciones de sesión única como múltiple, con desempeño destacado en resultados de motivación/confianza y tiempo de éxito, con beneficios más evidentes en casos de dificultad media y alta.
- Limitaciones de simulación: La simulación de pacientes basada en narrativas de Reddit puede no capturar completamente la complejidad del entorno clínico real
- Limitaciones culturales: Restringido a contextos de idioma inglés y occidentales
- Alcance de evaluación: Se enfoca en resultados de diálogo a corto plazo, sin evaluar efectos a largo plazo como confianza del paciente, alianza terapéutica
- Pacientes difíciles: Incluso en configuraciones multiconversacionales, las ganancias entre sesiones en pacientes difíciles tienden a desvanecerse
- Consideraciones éticas: Requiere salvaguardas de seguridad adicionales y protocolos de riesgo
- Diseño ambiental: Entorno parcialmente observable, impulsado por libro mayor
- Aprendizaje de recompensas: Aprendizaje de modelos de recompensa a partir de preferencias y retroalimentación
- Aprendizaje por refuerzo jerárquico: Modelos que combinen planificación y seguridad
- Validación en mundo real: Requiere participantes de pacientes estandarizados y supervisión clínica real
- Alta innovación: Primer agente de lenguaje multiconversacional y consciente del estrés para recuperación de adicciones
- Metodología completa: Proceso completo desde construcción de datos hasta entrenamiento y evaluación
- Experimentación suficiente: Incluye evaluación humana y automática, validación multidimensional
- Alta relevancia clínica: Basado en métodos terapéuticos basados en evidencia (IM/TCC)
- Consideraciones éticas exhaustivas: Proceso riguroso de protección de privacidad y anonimización
- Brecha entre simulación y realidad: Aunque se esfuerza por simular entornos reales, aún existe distancia con situaciones clínicas reales
- Efectos a largo plazo desconocidos: Falta seguimiento a largo plazo y validación de despliegue en mundo real
- Efecto limitado en pacientes difíciles: El efecto en pacientes con adicción severa sigue siendo limitado
- Adaptabilidad cultural: Requiere validación en diferentes contextos culturales
- Valor académico: Proporciona nuevo paradigma para aplicación de IA en salud mental
- Potencial práctico: Promete aliviar la escasez de recursos terapéuticos
- Contribución metodológica: Marco de simulación multiagente generalizable a otros escenarios médicos
- Significado social: Potencial para proporcionar solución escalable y de bajo costo para recuperación de adicciones
- Herramienta terapéutica complementaria: Como complemento a tratamiento tradicional
- Áreas con recursos escasos: Proporcionar apoyo básico en recuperación
- Intervención preventiva: Identificación e intervención temprana de poblaciones de alto riesgo
- Herramienta de investigación: Para investigación de estrategias terapéuticas y efectos de intervenciones
Este artículo cita literatura abundante y relevante, incluyendo:
- Literatura clásica en campo de tratamiento de adicciones (Miller & Rose, 2009; Beck, 2019)
- Aplicaciones de LLM en salud y bienestar (Tu et al., 2025; Arora et al., 2025)
- Investigación en sistemas multiagente y pacientes virtuales (Park et al., 2024; Schmidgall et al., 2024)
- Teoría de psicoterapia y cambio de comportamiento (Marlatt & Donovan, 2005; Hayes & Hofmann, 2018)
Evaluación General: Este es un trabajo de importancia significativa en el campo de tratamiento de salud mental asistido por IA, con metodología novedosa, experimentación suficiente y fuerte valor práctico. Aunque presenta algunas limitaciones, proporciona base técnica importante y dirección de investigación para el desarrollo del campo.