2025-11-25T04:46:17.326463

ChatThero: An LLM-Supported Chatbot for Behavior Change and Therapeutic Support in Addiction Recovery

Wang, Yao, Li et al.
Substance use disorders (SUDs) affect millions of people, and relapses are common, requiring multi-session treatments. Access to care is limited, which contributes to the challenge of recovery support. We present \textbf{ChatThero}, an innovative low-cost, multi-session, stressor-aware, and memory-persistent autonomous \emph{language agent} designed to facilitate long-term behavior change and therapeutic support in addiction recovery. Unlike existing work that mostly finetuned large language models (LLMs) on patient-therapist conversation data, ChatThero was trained in a multi-agent simulated environment that mirrors real therapy. We created anonymized patient profiles from recovery communities (e.g., Reddit). We classify patients as \texttt{easy}, \texttt{medium}, and \texttt{difficult}, three scales representing their resistance to recovery. We created an external environment by introducing stressors (e.g., social determinants of health) to simulate real-world situations. We dynamically inject clinically-grounded therapeutic strategies (motivational interview and cognitive behavioral therapy). Our evaluation, conducted by both human (blinded clinicians) and LLM-as-Judge, shows that ChatThero is superior in empathy and clinical relevance. We show that stressor simulation improves robustness of ChatThero. Explicit stressors increase relapse-like setbacks, matching real-world patterns. We evaluate ChatThero with behavioral change metrics. On a 1--5 scale, ChatThero raises \texttt{motivation} by $+1.71$ points (from $2.39$ to $4.10$) and \texttt{confidence} by $+1.67$ points (from $1.52$ to $3.19$), substantially outperforming GPT-5. On \texttt{difficult} patients, ChatThero reaches the success milestone with $26\%$ fewer turns than GPT-5.
academic

ChatThero: Чатбот на основе LLM для изменения поведения и терапевтической поддержки при восстановлении после зависимости

Основная информация

  • ID статьи: 2508.20996
  • Название: ChatThero: A Language Agent for Recovery Support
  • Авторы: Junda Wang, Zonghai Yao, Lingxi Li, Junhui Qian, Zhichao Yang, Hong Yu
  • Категория: cs.AI
  • Дата публикации/конференция: препринт arXiv 2025
  • Ссылка на статью: https://arxiv.org/abs/2508.20996v2

Аннотация

Расстройства, связанные с употреблением психоактивных веществ (SUDs), поражают миллионы людей с высокими показателями рецидива, требующими многократного лечения. Из-за ограниченности медицинских ресурсов поддержка восстановления сталкивается с серьёзными проблемами. В данной работе предлагается ChatThero — инновационный низкозатратный многосеансовый, чувствительный к стрессу, с долгосрочной памятью автономный языковой агент, предназначенный для содействия долгосрочному изменению поведения и терапевтической поддержке при восстановлении после зависимости. В отличие от существующих работ, которые в основном используют тонкую настройку больших языковых моделей на данных диалогов пациент-терапевт, ChatThero обучается в многоагентной среде, имитирующей реальную терапию. Исследовательская группа создала анонимные профили пациентов из сообществ восстановления (например, Reddit), разделив пациентов на три уровня сложности (лёгкий, средний, сложный), представляющие сопротивление восстановлению. Путём введения моделирования стрессоров для отражения реальных ситуаций динамически внедряются клинически обоснованные терапевтические стратегии (мотивационное интервьюирование и когнитивно-поведенческая терапия). Результаты оценки показывают превосходную производительность ChatThero в отношении эмпатии и клинической релевантности, при этом моделирование стресса повышает робастность системы.

Исследовательский контекст и мотивация

Значимость проблемы

  1. Масштабная социальная проблема: Примерно 2,5 млн человек в США страдают расстройством, связанным с употреблением опиоидов, более 66 млн человек сообщают о недавнем употреблении нелегальных наркотиков
  2. Высокие показатели рецидива: Без постоянной поддержки показатель рецидива в первый год может достигать 80-90%
  3. Дефицит лечебных ресурсов: Менее четверти пациентов с расстройством, связанным с употреблением опиоидов, получают лечение
  4. Множественные барьеры: Включая стигматизацию, стоимость, проблемы доступа, низкую приверженность

Ограничения существующих подходов

  1. Ограниченная эффективность одиночного вмешательства: Однократные сеансовые вмешательства сложно поддерживать, требуется многократное лечение и постоянный уход
  2. Недостаточность существующих систем ИИ: Большинство систем используют тонкую настройку на однократных сеансах или коротком контексте, не отражая реальный процесс восстановления
  3. Ограничения методов оценки: Большинство оценок используют однораундовые оценки качества, упуская траектории и образцы рецидива

Исследовательская мотивация

Разработка системы ИИ, способной обеспечивать непрерывную, персонализированную терапевтическую поддержку в течение нескольких сеансов, имитирующей стресс и вызовы реальной терапевтической среды.

Основные вклады

  1. Многосеансовая, чувствительная к стрессу структура языкового агента: Предложена воспроизводимая система моделирования с долгосрочной памятью
  2. Процесс построения данных-среды: Получение профилей пациентов из форумов восстановления, введение явного процесса стрессоров для изменения состояния
  3. Двухэтапная схема обучения: Применение обучения на сложных примерах SFT→DPO для многосеансовых стратегий
  4. Набор многосеансовой оценки, ориентированной на результаты: Включает оценку траекторий мотивации/уверенности, времени до успеха, робастности к стрессу и согласованности человека и машины

Подробное описание методологии

Определение задачи

Моделирование поддержки восстановления как многосеансовой, частично наблюдаемой задачи принятия решений и генерации, включающей межсеансовые возмущения и тягу. Система должна:

  • Поддерживать непрерывность состояния пациента
  • Адаптироваться к стрессорам окружающей среды
  • Выбирать и упорядочивать стратегии МИ/КПТ/снижения вреда
  • Сохранять память между сеансами

Архитектура модели

Трёхагентная система

  1. Агент пациента (PA):
    • Поддерживает постоянное состояние и уровень сопротивления (лёгкий/средний/сложный)
    • На основе профилей из сообществ восстановления, отобранные и анонимизированные
    • Содержит структурированный профиль и динамическую память
  2. Агент окружающей среды (EA):
    • Внедряет явные стрессоры между сеансами
    • Имитирует реальные ситуации (давление сверстников, рабочий стресс, семейные конфликты и т.д.)
    • Обновляет состояние памяти пациента
  3. Терапевтический агент (TA) - ChatThero:
    • Обучаемый основной компонент
    • Выбирает и упорядочивает стратегии МИ/КПТ
    • Поддерживает продольную память

Генерация профилей пациентов

  • Структурированный профиль: Содержит черты личности, историю употребления веществ, значительные жизненные события, мотивы использования
  • Динамическая память: Записывает взаимодействия, эмоциональное состояние, механизмы преодоления, влияние окружающей среды
  • Защита конфиденциальности: Многоэтапный конвейер обеспечивает удаление и анонимизацию лично идентифицируемой информации

Технические инновации

1. Многосеансовое терапевтическое разделение на этапы

Применение шестиэтапной структуры КПТ:

  • S1: Установление доверия и оценка
  • S2: Выявление негативных мыслей
  • S3: Оспаривание ошибочных убеждений
  • S4: Переструктурирование когнитивных паттернов
  • S5: Построение поведенческих навыков
  • S6: Консолидация и завершение

2. Моделирование стрессоров

Три категории стрессоров:

  • Сверстники/доступность (приглашения, близость к употребляющим наркотики)
  • Работа/учёба (сроки, изменения смен)
  • Семья/окружающая среда (семейные конфликты, нестабильность жилья)

3. Двухэтапное обучение

  • Этап SFT: Изучение безопасных структур МИ/КПТ
  • Этап DPO: Оптимизация выбора и времени стратегии с использованием обучения на сложных примерах

Экспериментальная установка

Набор данных

  • Данные Reddit: 57 471 уникальный автор, в среднем 18,25 постов на человека
  • Синтетические диалоги: 60 471 диалог, в среднем 45,72 раунда
  • Многосеансовые траектории: 8 240 диалогов (6-сеансовые дуги)

Метрики оценки

  1. Метрики результатов:
    • Мотивация (Motivation): 1-5 баллов
    • Уверенность (Confidence): 1-5 баллов
  2. Метрики процесса:
    • Время до успеха (Time-to-Success): Процент раундов для достижения порога успеха
  3. Измерения человеческой оценки:
    • Отзывчивость (Responsiveness)
    • Эмпатия (Empathy)
    • Уместность убедительной стратегии (Persuasive Strategy Appropriateness)
    • Клиническая релевантность (Clinical Relevance)
    • Поведенческий реализм (Behavioral Realism)

Методы сравнения

  • GPT-4o
  • GPT-4o-mini
  • LLaMA3.1-8B-Instruct
  • Серия Qwen2.5 (7B, 14B, 32B)

Детали реализации

  • Температура декодирования: 0,7
  • Максимальное количество раундов сеанса: 60 (примерно 45 минут)
  • Многосеансовость: 3-6 посещений
  • Базовая модель: Qwen-7B

Результаты экспериментов

Основные результаты

Производительность однократного сеанса

  • Повышение мотивации: С 2,39 до 4,10 (+1,71 балла)
  • Повышение уверенности: С 1,52 до 3,19 (+1,67 балла)
  • Время до успеха: ChatThero требует только 26% раундов, в то время как GPT-4o требует 54%

Результаты человеческой оценки

МодельОтзывчивостьЭмпатияУместность стратегииКлиническая релевантностьПоведенческий реализмВремя до успеха
GPT-4o4,684,874,394,474,5054%
GPT-4o-mini4,664,864,384,494,4662%
ChatThero-DPO4,854,934,754,614,6926%

Абляционные эксперименты

  • SFT vs DPO: DPO значительно превосходит только SFT в выборе стратегии и контроле времени
  • Влияние стрессоров: Явные стрессоры увеличивают образцы рецидива, соответствуя реальным моделям
  • Эффект разделения по сложности: Наиболее значительные улучшения на пациентах средней и высокой сложности

Многосеансовый анализ

  • Лёгкие пациенты: Все модели приближаются к потолку производительности на 1-м посещении
  • Пациенты средней сложности: ChatThero показывает большее улучшение внутри сеанса и более высокие начальные баллы
  • Сложные пациенты: Все системы показывают выигрыш внутри сеанса, но слабое сохранение между сеансами

Анализ случаев

ChatThero способен:

  • Более естественно справляться с сопротивлением пациента
  • Своевременно переключать терапевтические стратегии
  • Предоставлять конкретные, практические планы преодоления
  • Поддерживать терапевтическую непрерывность между сеансами

Связанные работы

Лечение расстройств, связанных с употреблением веществ

  • МАТ, КПТ и другие основанные на доказательствах методы лечения эффективны, но имеют низкий уровень принятия
  • Однократные вмешательства имеют ограниченный эффект, требуется многосеансовое лечение

Применение LLM в поведенческом здравоохранении

  • Существующие чатботы, такие как Therabot, повышают вовлечённость
  • LLM поддерживают сортировку, диагностическое рассуждение в клинической практике

Многоагентное моделирование

  • Системы AgentClinic, AMIE используются для медицинского образования
  • Системы виртуальных пациентов отражают социальную и психологическую динамику

Выводы и обсуждение

Основные выводы

ChatThero превосходит сильные базовые модели как в однократных, так и в многосеансовых условиях, демонстрируя выдающуюся производительность в результатах мотивации/уверенности и времени до успеха, с наибольшей пользой для случаев средней и высокой сложности.

Ограничения

  1. Ограничения моделирования: Моделирование пациентов на основе повествований Reddit может не полностью отражать сложность реальной клинической среды
  2. Культурные ограничения: Ограничено англоязычными, западными сценариями
  3. Объём оценки: Сосредоточено на краткосрочных результатах диалога, не оценивает долгосрочные эффекты, такие как доверие пациента и терапевтический альянс
  4. Сложные пациенты: Даже в многосеансовых условиях выигрыш между сеансами для сложных пациентов легко исчезает
  5. Этические соображения: Требуются дополнительные гарантии безопасности и протоколы управления рисками

Будущие направления

  1. Проектирование окружающей среды: Частично наблюдаемая, управляемая реестром среда
  2. Обучение функции вознаграждения: Изучение моделей вознаграждения из предпочтений и обратной связи
  3. Иерархическое обучение с подкреплением: Модели, сочетающие планирование и безопасность
  4. Валидация в реальном мире: Требуется участие стандартизированных пациентов и реальное клиническое наблюдение

Глубокая оценка

Сильные стороны

  1. Высокая инновационность: Первый предложенный многосеансовый, чувствительный к стрессу языковой агент для восстановления после зависимости
  2. Полная методология: Полный процесс от построения данных до обучения и оценки
  3. Достаточные эксперименты: Включает человеческую и автоматическую оценку, многомерная валидация
  4. Высокая клиническая релевантность: Основана на основанных на доказательствах методах лечения (МИ/КПТ)
  5. Тщательные этические соображения: Строгие процессы защиты конфиденциальности и анонимизации

Недостатки

  1. Разрыв между моделированием и реальностью: Хотя предпринимаются попытки имитации реальной среды, остаётся разрыв с фактической клинической практикой
  2. Неизвестные долгосрочные эффекты: Отсутствует долгосрочное отслеживание и валидация развёртывания в реальном мире
  3. Ограниченная эффективность для сложных пациентов: Эффективность для пациентов с тяжёлой зависимостью остаётся ограниченной
  4. Культурная адаптивность: Требуется валидация в различных культурных контекстах

Влияние

  1. Академическая ценность: Предоставляет новую парадигму для применения ИИ в области психического здоровья
  2. Практический потенциал: Может помочь облегчить дефицит лечебных ресурсов
  3. Методологический вклад: Структура многоагентного моделирования может быть распространена на другие медицинские сценарии
  4. Социальное значение: Может предоставить низкозатратное, масштабируемое решение для восстановления после зависимости

Применимые сценарии

  1. Вспомогательный инструмент лечения: Как дополнение к традиционному лечению
  2. Регионы с дефицитом ресурсов: Предоставление базовой поддержки восстановления
  3. Профилактические вмешательства: Раннее выявление и вмешательство в группы высокого риска
  4. Исследовательский инструмент: Для исследования терапевтических стратегий и эффективности вмешательств

Библиография

Статья цитирует богатый объём соответствующих исследований, включая:

  • Классическую литературу в области лечения зависимостей (Miller & Rose, 2009; Beck, 2019)
  • Применение LLM в здравоохранении и психическом здоровье (Tu et al., 2025; Arora et al., 2025)
  • Исследования многоагентных систем и виртуальных пациентов (Park et al., 2024; Schmidgall et al., 2024)
  • Теорию психотерапии и изменения поведения (Marlatt & Donovan, 2005; Hayes & Hofmann, 2018)

Общая оценка: Это важная работа в области применения ИИ в психическом здравоохранении с инновационной методологией, достаточными экспериментами и сильной практической ценностью. Хотя существуют определённые ограничения, она предоставляет важную техническую базу и направления исследований для развития этой области.