Substance use disorders (SUDs) affect millions of people, and relapses are common, requiring multi-session treatments. Access to care is limited, which contributes to the challenge of recovery support. We present \textbf{ChatThero}, an innovative low-cost, multi-session, stressor-aware, and memory-persistent autonomous \emph{language agent} designed to facilitate long-term behavior change and therapeutic support in addiction recovery. Unlike existing work that mostly finetuned large language models (LLMs) on patient-therapist conversation data, ChatThero was trained in a multi-agent simulated environment that mirrors real therapy. We created anonymized patient profiles from recovery communities (e.g., Reddit). We classify patients as \texttt{easy}, \texttt{medium}, and \texttt{difficult}, three scales representing their resistance to recovery. We created an external environment by introducing stressors (e.g., social determinants of health) to simulate real-world situations. We dynamically inject clinically-grounded therapeutic strategies (motivational interview and cognitive behavioral therapy). Our evaluation, conducted by both human (blinded clinicians) and LLM-as-Judge, shows that ChatThero is superior in empathy and clinical relevance. We show that stressor simulation improves robustness of ChatThero. Explicit stressors increase relapse-like setbacks, matching real-world patterns. We evaluate ChatThero with behavioral change metrics. On a 1--5 scale, ChatThero raises \texttt{motivation} by $+1.71$ points (from $2.39$ to $4.10$) and \texttt{confidence} by $+1.67$ points (from $1.52$ to $3.19$), substantially outperforming GPT-5. On \texttt{difficult} patients, ChatThero reaches the success milestone with $26\%$ fewer turns than GPT-5.
academicChatThero: An LLM-Supported Chatbot for Behavior Change and Therapeutic Support in Addiction Recovery
- 论文ID: 2508.20996
- 标题: ChatThero: A Language Agent for Recovery Support
- 作者: Junda Wang, Zonghai Yao, Lingxi Li, Junhui Qian, Zhichao Yang, Hong Yu
- 分类: cs.AI
- 发表时间/会议: arXiv preprint 2025
- 论文链接: https://arxiv.org/abs/2508.20996v2
物质使用障碍(SUDs)影响数百万人,复发率高,需要多次治疗。由于医疗资源有限,康复支持面临巨大挑战。本文提出ChatThero,一个创新的低成本、多会话、压力感知、记忆持久的自主语言代理,旨在促进成瘾康复中的长期行为改变和治疗支持。与现有主要在患者-治疗师对话数据上微调大语言模型的工作不同,ChatThero在模拟真实治疗的多智能体环境中训练。研究团队从康复社区(如Reddit)创建匿名患者档案,将患者分为易、中、难三个等级,代表其康复阻力。通过引入压力源模拟真实世界情况,动态注入临床基础的治疗策略(动机访谈和认知行为疗法)。评估结果显示ChatThero在共情和临床相关性方面表现优越,压力模拟提高了系统的鲁棒性。
- 规模庞大的社会问题:美国约250万人患有阿片类药物使用障碍,超过6600万人报告近期非法药物使用
- 高复发率:在没有持续支持的情况下,第一年复发率可达80-90%
- 治疗资源稀缺:仅有不到四分之一的阿片类药物使用障碍患者接受治疗
- 多重障碍:包括污名化、成本、获取困难、参与度低等
- 单次干预效果有限:单次会话干预很难维持效果,需要多次治疗和持续护理
- 现有AI系统不足:大多数系统在单次会话或短上下文上微调,无法代表真实的康复治疗过程
- 评估方法局限:多数评估使用单轮质量评分,错过了轨迹和复发样挫折
构建一个能够跨多个会话提供连续、个性化治疗支持的AI系统,模拟真实治疗环境中的压力和挑战。
- 多会话、压力感知的语言代理框架:提出了具有记忆持久性的可重现模拟系统
- 数据-环境构建流程:从康复论坛获取患者档案,引入显式压力过程改变状态
- 两阶段训练方案:采用SFT→DPO的硬案例课程学习多会话策略
- 结果导向的多会话评估套件:包括动机/信心轨迹、成功时间、压力鲁棒性和人机一致性评估
将康复支持建模为多会话、部分可观察的决策和生成问题,包含会话间扰动和渴望。系统需要:
- 维持患者状态的连续性
- 适应环境压力源
- 选择和排序MI/CBT/减害策略
- 保持跨会话记忆
- 患者智能体(PA):
- 维持持久状态和阻力水平(易/中/难)
- 基于康复社区档案,经过筛选和匿名化处理
- 包含结构化档案和动态记忆
- 环境智能体(EA):
- 在会话间注入显式压力源
- 模拟真实世界情况(同伴压力、工作压力、家庭冲突等)
- 更新患者记忆状态
- 治疗智能体(TA)- ChatThero:
- 可训练的核心组件
- 选择和排序MI/CBT策略
- 维持纵向记忆
- 结构化档案:包含人格特质、物质使用历史、重大生活事件、使用动机
- 动态记忆:记录交互、情绪状态、应对机制、环境影响
- 隐私保护:多阶段管道确保PII移除和匿名化
采用6阶段CBT框架:
- S1:建立信任和评估
- S2:识别负性认知
- S3:挑战错误信念
- S4:重构认知模式
- S5:行为技能构建
- S6:巩固和终止
三类压力源:
- 同伴/可获得性(邀请、接近使用同伴)
- 工作/学术(截止日期、轮班变化)
- 家庭/环境(家庭冲突、住房不稳定)
- SFT阶段:学习安全的MI/CBT结构
- DPO阶段:优化策略选择时机,使用硬案例课程
- Reddit数据:57,471名独特作者,平均每人18.25篇帖子
- 合成对话:60,471个对话,平均45.72轮
- 多会话轨迹:8,240个对话(6次会话弧)
- 结果指标:
- 动机(Motivation):1-5分
- 信心(Confidence):1-5分
- 过程指标:
- 成功时间(Time-to-Success):达到成功阈值的轮数百分比
- 人类评估维度:
- 响应性(Responsiveness)
- 共情(Empathy)
- 策略适当性(Persuasive Strategy Appropriateness)
- 临床相关性(Clinical Relevance)
- 行为真实性(Behavioral Realism)
- GPT-4o
- GPT-4o-mini
- LLaMA3.1-8B-Instruct
- Qwen2.5系列(7B, 14B, 32B)
- 解码温度:0.7
- 会话轮数上限:60轮(约45分钟)
- 多会话:3-6次访问
- 基础模型:Qwen-7B
- 动机提升:从2.39提升到4.10(+1.71分)
- 信心提升:从1.52提升到3.19(+1.67分)
- 成功时间:ChatThero仅需26%轮数,而GPT-4o需54%
| 模型 | 响应性 | 共情 | 策略适当性 | 临床相关性 | 行为真实性 | 成功时间 |
|---|
| GPT-4o | 4.68 | 4.87 | 4.39 | 4.47 | 4.50 | 54% |
| GPT-4o-mini | 4.66 | 4.86 | 4.38 | 4.49 | 4.46 | 62% |
| ChatThero-DPO | 4.85 | 4.93 | 4.75 | 4.61 | 4.69 | 26% |
- SFT vs DPO:DPO在策略选择和时机控制方面显著优于仅SFT
- 压力源影响:显式压力源增加复发样挫折,符合真实世界模式
- 难度分级效果:在中等和困难患者上改进最为显著
- 易患者:所有模型在第1次访问时接近天花板
- 中等患者:ChatThero显示更大的会话内提升和更高的起始分数
- 困难患者:所有系统显示会话内收益但会话间保持较弱
ChatThero能够:
- 更自然地处理患者阻抗
- 适时切换治疗策略
- 提供具体、可操作的应对计划
- 维持跨会话的治疗连续性
- MAT、CBT等循证治疗有效但接受率低
- 单次干预效果有限,需要多会话治疗
- 现有聊天机器人如Therabot增强参与度
- LLM在临床实践中支持分诊、诊断推理
- AgentClinic、AMIE等系统用于医学教育
- 虚拟患者系统捕获社会/心理动态
ChatThero在单次和多次会话设置中均优于强基准模型,在动机/信心结果和成功时间方面表现突出,在中等和困难案例中收益最为明显。
- 模拟限制:基于Reddit叙述的患者模拟可能无法完全捕获真实临床环境的复杂性
- 文化局限性:仅限于英语、西方语境场景
- 评估范围:专注于短期对话结果,未评估长期效果如患者信任、治疗联盟
- 困难患者:即使在多会话设置中,困难患者的会话间收益仍容易消退
- 伦理考虑:需要额外的安全保障和风险协议
- 环境设计:部分可观察、账本驱动的环境
- 奖励学习:从偏好和反馈中学习奖励模型
- 分层强化学习:规划和安全性结合的模型
- 真实世界验证:需要标准化患者参与者和真实临床监督
- 创新性强:首次提出多会话、压力感知的成瘾康复语言代理
- 方法论完整:从数据构建到训练到评估的完整流程
- 实验充分:包含人类评估和自动评估,多维度验证
- 临床相关性高:基于循证治疗方法(MI/CBT)
- 伦理考虑周全:严格的隐私保护和匿名化流程
- 模拟与现实差距:虽然努力模拟真实环境,但仍与实际临床情况存在差距
- 长期效果未知:缺乏长期跟踪和真实世界部署验证
- 困难患者效果有限:对于重度成瘾患者的效果仍然有限
- 文化适应性:需要在不同文化背景下验证有效性
- 学术价值:为AI在心理健康领域的应用提供了新范式
- 实用潜力:有望缓解治疗资源稀缺问题
- 方法论贡献:多智能体模拟框架可推广到其他医疗场景
- 社会意义:可能为成瘾康复提供低成本、可扩展的解决方案
- 辅助治疗工具:作为传统治疗的补充
- 资源稀缺地区:提供基础的康复支持
- 预防性干预:早期识别和干预高危人群
- 研究工具:用于治疗策略和干预效果研究
本文引用了丰富的相关研究,包括:
- 成瘾治疗领域的经典文献(Miller & Rose, 2009; Beck, 2019)
- LLM在医疗健康中的应用(Tu et al., 2025; Arora et al., 2025)
- 多智能体系统和虚拟患者研究(Park et al., 2024; Schmidgall et al., 2024)
- 心理治疗和行为改变理论(Marlatt & Donovan, 2005; Hayes & Hofmann, 2018)
总体评价:这是一篇在AI辅助心理健康治疗领域具有重要意义的工作,方法新颖,实验充分,具有很强的实用价值和学术影响力。虽然存在一些局限性,但为该领域的发展提供了重要的技术基础和研究方向。