2025-11-25T04:46:17.326463

ChatThero: An LLM-Supported Chatbot for Behavior Change and Therapeutic Support in Addiction Recovery

Wang, Yao, Li et al.
Substance use disorders (SUDs) affect millions of people, and relapses are common, requiring multi-session treatments. Access to care is limited, which contributes to the challenge of recovery support. We present \textbf{ChatThero}, an innovative low-cost, multi-session, stressor-aware, and memory-persistent autonomous \emph{language agent} designed to facilitate long-term behavior change and therapeutic support in addiction recovery. Unlike existing work that mostly finetuned large language models (LLMs) on patient-therapist conversation data, ChatThero was trained in a multi-agent simulated environment that mirrors real therapy. We created anonymized patient profiles from recovery communities (e.g., Reddit). We classify patients as \texttt{easy}, \texttt{medium}, and \texttt{difficult}, three scales representing their resistance to recovery. We created an external environment by introducing stressors (e.g., social determinants of health) to simulate real-world situations. We dynamically inject clinically-grounded therapeutic strategies (motivational interview and cognitive behavioral therapy). Our evaluation, conducted by both human (blinded clinicians) and LLM-as-Judge, shows that ChatThero is superior in empathy and clinical relevance. We show that stressor simulation improves robustness of ChatThero. Explicit stressors increase relapse-like setbacks, matching real-world patterns. We evaluate ChatThero with behavioral change metrics. On a 1--5 scale, ChatThero raises \texttt{motivation} by $+1.71$ points (from $2.39$ to $4.10$) and \texttt{confidence} by $+1.67$ points (from $1.52$ to $3.19$), substantially outperforming GPT-5. On \texttt{difficult} patients, ChatThero reaches the success milestone with $26\%$ fewer turns than GPT-5.
academic

ChatThero: An LLM-Supported Chatbot for Behavior Change and Therapeutic Support in Addiction Recovery

基本信息

  • 论文ID: 2508.20996
  • 标题: ChatThero: A Language Agent for Recovery Support
  • 作者: Junda Wang, Zonghai Yao, Lingxi Li, Junhui Qian, Zhichao Yang, Hong Yu
  • 分类: cs.AI
  • 发表时间/会议: arXiv preprint 2025
  • 论文链接: https://arxiv.org/abs/2508.20996v2

摘要

物质使用障碍(SUDs)影响数百万人,复发率高,需要多次治疗。由于医疗资源有限,康复支持面临巨大挑战。本文提出ChatThero,一个创新的低成本、多会话、压力感知、记忆持久的自主语言代理,旨在促进成瘾康复中的长期行为改变和治疗支持。与现有主要在患者-治疗师对话数据上微调大语言模型的工作不同,ChatThero在模拟真实治疗的多智能体环境中训练。研究团队从康复社区(如Reddit)创建匿名患者档案,将患者分为易、中、难三个等级,代表其康复阻力。通过引入压力源模拟真实世界情况,动态注入临床基础的治疗策略(动机访谈和认知行为疗法)。评估结果显示ChatThero在共情和临床相关性方面表现优越,压力模拟提高了系统的鲁棒性。

研究背景与动机

问题的重要性

  1. 规模庞大的社会问题:美国约250万人患有阿片类药物使用障碍,超过6600万人报告近期非法药物使用
  2. 高复发率:在没有持续支持的情况下,第一年复发率可达80-90%
  3. 治疗资源稀缺:仅有不到四分之一的阿片类药物使用障碍患者接受治疗
  4. 多重障碍:包括污名化、成本、获取困难、参与度低等

现有方法的局限性

  1. 单次干预效果有限:单次会话干预很难维持效果,需要多次治疗和持续护理
  2. 现有AI系统不足:大多数系统在单次会话或短上下文上微调,无法代表真实的康复治疗过程
  3. 评估方法局限:多数评估使用单轮质量评分,错过了轨迹和复发样挫折

研究动机

构建一个能够跨多个会话提供连续、个性化治疗支持的AI系统,模拟真实治疗环境中的压力和挑战。

核心贡献

  1. 多会话、压力感知的语言代理框架:提出了具有记忆持久性的可重现模拟系统
  2. 数据-环境构建流程:从康复论坛获取患者档案,引入显式压力过程改变状态
  3. 两阶段训练方案:采用SFT→DPO的硬案例课程学习多会话策略
  4. 结果导向的多会话评估套件:包括动机/信心轨迹、成功时间、压力鲁棒性和人机一致性评估

方法详解

任务定义

将康复支持建模为多会话、部分可观察的决策和生成问题,包含会话间扰动和渴望。系统需要:

  • 维持患者状态的连续性
  • 适应环境压力源
  • 选择和排序MI/CBT/减害策略
  • 保持跨会话记忆

模型架构

三智能体系统

  1. 患者智能体(PA)
    • 维持持久状态和阻力水平(易/中/难)
    • 基于康复社区档案,经过筛选和匿名化处理
    • 包含结构化档案和动态记忆
  2. 环境智能体(EA)
    • 在会话间注入显式压力源
    • 模拟真实世界情况(同伴压力、工作压力、家庭冲突等)
    • 更新患者记忆状态
  3. 治疗智能体(TA)- ChatThero
    • 可训练的核心组件
    • 选择和排序MI/CBT策略
    • 维持纵向记忆

患者档案生成

  • 结构化档案:包含人格特质、物质使用历史、重大生活事件、使用动机
  • 动态记忆:记录交互、情绪状态、应对机制、环境影响
  • 隐私保护:多阶段管道确保PII移除和匿名化

技术创新点

1. 多会话治疗分期

采用6阶段CBT框架:

  • S1:建立信任和评估
  • S2:识别负性认知
  • S3:挑战错误信念
  • S4:重构认知模式
  • S5:行为技能构建
  • S6:巩固和终止

2. 压力源模拟

三类压力源:

  • 同伴/可获得性(邀请、接近使用同伴)
  • 工作/学术(截止日期、轮班变化)
  • 家庭/环境(家庭冲突、住房不稳定)

3. 两阶段训练

  • SFT阶段:学习安全的MI/CBT结构
  • DPO阶段:优化策略选择时机,使用硬案例课程

实验设置

数据集

  • Reddit数据:57,471名独特作者,平均每人18.25篇帖子
  • 合成对话:60,471个对话,平均45.72轮
  • 多会话轨迹:8,240个对话(6次会话弧)

评价指标

  1. 结果指标
    • 动机(Motivation):1-5分
    • 信心(Confidence):1-5分
  2. 过程指标
    • 成功时间(Time-to-Success):达到成功阈值的轮数百分比
  3. 人类评估维度
    • 响应性(Responsiveness)
    • 共情(Empathy)
    • 策略适当性(Persuasive Strategy Appropriateness)
    • 临床相关性(Clinical Relevance)
    • 行为真实性(Behavioral Realism)

对比方法

  • GPT-4o
  • GPT-4o-mini
  • LLaMA3.1-8B-Instruct
  • Qwen2.5系列(7B, 14B, 32B)

实现细节

  • 解码温度:0.7
  • 会话轮数上限:60轮(约45分钟)
  • 多会话:3-6次访问
  • 基础模型:Qwen-7B

实验结果

主要结果

单会话表现

  • 动机提升:从2.39提升到4.10(+1.71分)
  • 信心提升:从1.52提升到3.19(+1.67分)
  • 成功时间:ChatThero仅需26%轮数,而GPT-4o需54%

人类评估结果

模型响应性共情策略适当性临床相关性行为真实性成功时间
GPT-4o4.684.874.394.474.5054%
GPT-4o-mini4.664.864.384.494.4662%
ChatThero-DPO4.854.934.754.614.6926%

消融实验

  • SFT vs DPO:DPO在策略选择和时机控制方面显著优于仅SFT
  • 压力源影响:显式压力源增加复发样挫折,符合真实世界模式
  • 难度分级效果:在中等和困难患者上改进最为显著

多会话分析

  • 易患者:所有模型在第1次访问时接近天花板
  • 中等患者:ChatThero显示更大的会话内提升和更高的起始分数
  • 困难患者:所有系统显示会话内收益但会话间保持较弱

案例分析

ChatThero能够:

  • 更自然地处理患者阻抗
  • 适时切换治疗策略
  • 提供具体、可操作的应对计划
  • 维持跨会话的治疗连续性

相关工作

物质使用障碍治疗

  • MAT、CBT等循证治疗有效但接受率低
  • 单次干预效果有限,需要多会话治疗

LLM在行为健康中的应用

  • 现有聊天机器人如Therabot增强参与度
  • LLM在临床实践中支持分诊、诊断推理

多智能体模拟

  • AgentClinic、AMIE等系统用于医学教育
  • 虚拟患者系统捕获社会/心理动态

结论与讨论

主要结论

ChatThero在单次和多次会话设置中均优于强基准模型,在动机/信心结果和成功时间方面表现突出,在中等和困难案例中收益最为明显。

局限性

  1. 模拟限制:基于Reddit叙述的患者模拟可能无法完全捕获真实临床环境的复杂性
  2. 文化局限性:仅限于英语、西方语境场景
  3. 评估范围:专注于短期对话结果,未评估长期效果如患者信任、治疗联盟
  4. 困难患者:即使在多会话设置中,困难患者的会话间收益仍容易消退
  5. 伦理考虑:需要额外的安全保障和风险协议

未来方向

  1. 环境设计:部分可观察、账本驱动的环境
  2. 奖励学习:从偏好和反馈中学习奖励模型
  3. 分层强化学习:规划和安全性结合的模型
  4. 真实世界验证:需要标准化患者参与者和真实临床监督

深度评价

优点

  1. 创新性强:首次提出多会话、压力感知的成瘾康复语言代理
  2. 方法论完整:从数据构建到训练到评估的完整流程
  3. 实验充分:包含人类评估和自动评估,多维度验证
  4. 临床相关性高:基于循证治疗方法(MI/CBT)
  5. 伦理考虑周全:严格的隐私保护和匿名化流程

不足

  1. 模拟与现实差距:虽然努力模拟真实环境,但仍与实际临床情况存在差距
  2. 长期效果未知:缺乏长期跟踪和真实世界部署验证
  3. 困难患者效果有限:对于重度成瘾患者的效果仍然有限
  4. 文化适应性:需要在不同文化背景下验证有效性

影响力

  1. 学术价值:为AI在心理健康领域的应用提供了新范式
  2. 实用潜力:有望缓解治疗资源稀缺问题
  3. 方法论贡献:多智能体模拟框架可推广到其他医疗场景
  4. 社会意义:可能为成瘾康复提供低成本、可扩展的解决方案

适用场景

  1. 辅助治疗工具:作为传统治疗的补充
  2. 资源稀缺地区:提供基础的康复支持
  3. 预防性干预:早期识别和干预高危人群
  4. 研究工具:用于治疗策略和干预效果研究

参考文献

本文引用了丰富的相关研究,包括:

  • 成瘾治疗领域的经典文献(Miller & Rose, 2009; Beck, 2019)
  • LLM在医疗健康中的应用(Tu et al., 2025; Arora et al., 2025)
  • 多智能体系统和虚拟患者研究(Park et al., 2024; Schmidgall et al., 2024)
  • 心理治疗和行为改变理论(Marlatt & Donovan, 2005; Hayes & Hofmann, 2018)

总体评价:这是一篇在AI辅助心理健康治疗领域具有重要意义的工作,方法新颖,实验充分,具有很强的实用价值和学术影响力。虽然存在一些局限性,但为该领域的发展提供了重要的技术基础和研究方向。