2025-11-25T04:46:17.326463

ChatThero: An LLM-Supported Chatbot for Behavior Change and Therapeutic Support in Addiction Recovery

Wang, Yao, Li et al.

Substance use disorders (SUDs) affect millions of people, and relapses are common, requiring multi-session treatments. Access to care is limited, which contributes to the challenge of recovery support. We present \textbf{ChatThero}, an innovative low-cost, multi-session, stressor-aware, and memory-persistent autonomous \emph{language agent} designed to facilitate long-term behavior change and therapeutic support in addiction recovery. Unlike existing work that mostly finetuned large language models (LLMs) on patient-therapist conversation data, ChatThero was trained in a multi-agent simulated environment that mirrors real therapy. We created anonymized patient profiles from recovery communities (e.g., Reddit). We classify patients as \texttt{easy}, \texttt{medium}, and \texttt{difficult}, three scales representing their resistance to recovery. We created an external environment by introducing stressors (e.g., social determinants of health) to simulate real-world situations. We dynamically inject clinically-grounded therapeutic strategies (motivational interview and cognitive behavioral therapy). Our evaluation, conducted by both human (blinded clinicians) and LLM-as-Judge, shows that ChatThero is superior in empathy and clinical relevance. We show that stressor simulation improves robustness of ChatThero. Explicit stressors increase relapse-like setbacks, matching real-world patterns. We evaluate ChatThero with behavioral change metrics. On a 1--5 scale, ChatThero raises \texttt{motivation} by $+1.71$ points (from $2.39$ to $4.10$) and \texttt{confidence} by $+1.67$ points (from $1.52$ to $3.19$), substantially outperforming GPT-5. On \texttt{difficult} patients, ChatThero reaches the success milestone with $26\%$ fewer turns than GPT-5.

academic

ChatThero: 成瘾回復における行動変容と治療支援のためのLLM支援チャットボット

基本情報

論文ID: 2508.20996
タイトル: ChatThero: A Language Agent for Recovery Support
著者: Junda Wang, Zonghai Yao, Lingxi Li, Junhui Qian, Zhichao Yang, Hong Yu
分類: cs.AI
発表時期/会議: arXiv preprint 2025
論文リンク: https://arxiv.org/abs/2508.20996v2

要約

物質使用障害（SUDs）は数百万人に影響を与え、高い再発率と複数回の治療の必要性が特徴である。医療資源の限定により、回復支援は大きな課題に直面している。本論文では、ChatTheroを提案する。これは、成瘾回復における長期的な行動変容と治療支援を促進することを目的とした、革新的で低コスト、マルチセッション、ストレス認識、記憶永続的な自律言語エージェントである。患者-治療者対話データに基づいて大規模言語モデル（LLM）をファインチューニングする既存の研究とは異なり、ChatTheroは実際の治療をシミュレートするマルチエージェント環境で訓練される。研究チームは回復コミュニティ（Redditなど）から匿名患者プロファイルを作成し、患者を回復抵抗性を表す易・中・難の3段階に分類した。ストレッサーの導入により現実世界の状況をシミュレートし、臨床基盤に基づいた治療戦略（動機付け面接と認知行動療法）を動的に注入する。評価結果は、ChatTheroが共感性と臨床関連性において優れた性能を示し、ストレスシミュレーションがシステムのロバスト性を向上させることを示している。

研究背景と動機

問題の重要性

大規模な社会問題：米国では約250万人がオピオイド使用障害を患い、660万人以上が最近の違法薬物使用を報告している
高い再発率：継続的支援がない場合、第1年の再発率は80～90%に達する可能性がある
治療資源の不足：オピオイド使用障害患者の4分の1未満しか治療を受けていない
複数の障壁：スティグマ、費用、アクセスの困難さ、参加度の低さなどを含む

既存方法の限界

単一介入の効果限定：単一セッション介入は効果の維持が困難であり、複数回の治療と継続的ケアが必要である
既存AIシステムの不十分さ：ほとんどのシステムは単一セッションまたは短いコンテキストでファインチューニングされており、実際の回復治療プロセスを代表できない
評価方法の限界：多くの評価は単一ラウンドの品質スコアリングを使用し、軌跡と再発様の挫折を見落としている

研究動機

複数セッション間で継続的でパーソナライズされた治療支援を提供でき、実際の治療環境におけるストレスと課題をシミュレートできるAIシステムの構築。

核心的貢献

マルチセッション、ストレス認識言語エージェントフレームワーク：記憶永続性を備えた再現可能なシミュレーションシステムを提案
データ-環境構築プロセス：回復フォーラムから患者プロファイルを取得し、状態を変更する明示的なストレスプロセスを導入
2段階訓練スキーム：SFT→DPOの困難事例カリキュラム学習によるマルチセッション戦略の採用
結果指向のマルチセッション評価スイート：動機/信頼度軌跡、成功時間、ストレスロバスト性、人間-機械一致性評価を含む

方法の詳細

タスク定義

回復支援をマルチセッション、部分観測可能な決定と生成問題としてモデル化する。これにはセッション間の摂動と渇望が含まれる。システムは以下を必要とする：

患者状態の継続性の維持
環境ストレッサーへの適応
MI/CBT/ハームリダクション戦略の選択と順序付け
セッション間記憶の維持

モデルアーキテクチャ

3エージェントシステム

患者エージェント（PA）：
- 永続的状態と抵抗レベル（易・中・難）の維持
- 回復コミュニティプロファイルに基づき、スクリーニングと匿名化処理済み
- 構造化プロファイルと動的記憶を含む
環境エージェント（EA）：
- セッション間に明示的なストレッサーを注入
- 現実世界の状況をシミュレート（ピアプレッシャー、仕事のストレス、家族紛争など）
- 患者記憶状態を更新
治療エージェント（TA）- ChatThero：
- 訓練可能なコアコンポーネント
- MI/CBT戦略の選択と順序付け
- 縦断的記憶の維持

患者プロファイル生成

構造化プロファイル：人格特性、物質使用履歴、重大な人生出来事、使用動機を含む
動的記憶：相互作用、感情状態、対処メカニズム、環境影響を記録
プライバシー保護：PII削除と匿名化を確保する多段階パイプライン

技術的革新点

1. マルチセッション治療段階化

6段階のCBTフレームワークを採用：

S1：信頼構築と評価
S2：否定的認知の識別
S3：誤った信念への異議
S4：認知パターンの再構成
S5：行動スキル構築
S6：統合と終了

2. ストレッサーシミュレーション

3種類のストレッサー：

ピア/入手可能性（招待、使用仲間への接近）
仕事/学業（締め切り、シフト変更）
家族/環境（家族紛争、住居不安定）

3. 2段階訓練

SFT段階：安全なMI/CBT構造の学習
DPO段階：戦略選択タイミングの最適化、困難事例カリキュラムを使用

実験設定

データセット

Redditデータ：57,471人のユニークな著者、平均1人あたり18.25投稿
合成対話：60,471対話、平均45.72ラウンド
マルチセッション軌跡：8,240対話（6セッションアーク）

評価指標

結果指標：
- 動機（Motivation）：1-5点
- 信頼度（Confidence）：1-5点
プロセス指標：
- 成功時間（Time-to-Success）：成功閾値に達するまでのラウンド数の割合
人間評価次元：
- 応答性（Responsiveness）
- 共感性（Empathy）
- 説得戦略の適切性（Persuasive Strategy Appropriateness）
- 臨床関連性（Clinical Relevance）
- 行動現実性（Behavioral Realism）