2025-11-25T04:46:17.326463

ChatThero: An LLM-Supported Chatbot for Behavior Change and Therapeutic Support in Addiction Recovery

Wang, Yao, Li et al.
Substance use disorders (SUDs) affect millions of people, and relapses are common, requiring multi-session treatments. Access to care is limited, which contributes to the challenge of recovery support. We present \textbf{ChatThero}, an innovative low-cost, multi-session, stressor-aware, and memory-persistent autonomous \emph{language agent} designed to facilitate long-term behavior change and therapeutic support in addiction recovery. Unlike existing work that mostly finetuned large language models (LLMs) on patient-therapist conversation data, ChatThero was trained in a multi-agent simulated environment that mirrors real therapy. We created anonymized patient profiles from recovery communities (e.g., Reddit). We classify patients as \texttt{easy}, \texttt{medium}, and \texttt{difficult}, three scales representing their resistance to recovery. We created an external environment by introducing stressors (e.g., social determinants of health) to simulate real-world situations. We dynamically inject clinically-grounded therapeutic strategies (motivational interview and cognitive behavioral therapy). Our evaluation, conducted by both human (blinded clinicians) and LLM-as-Judge, shows that ChatThero is superior in empathy and clinical relevance. We show that stressor simulation improves robustness of ChatThero. Explicit stressors increase relapse-like setbacks, matching real-world patterns. We evaluate ChatThero with behavioral change metrics. On a 1--5 scale, ChatThero raises \texttt{motivation} by $+1.71$ points (from $2.39$ to $4.10$) and \texttt{confidence} by $+1.67$ points (from $1.52$ to $3.19$), substantially outperforming GPT-5. On \texttt{difficult} patients, ChatThero reaches the success milestone with $26\%$ fewer turns than GPT-5.
academic

ChatThero: 成瘾回復における行動変容と治療支援のためのLLM支援チャットボット

基本情報

  • 論文ID: 2508.20996
  • タイトル: ChatThero: A Language Agent for Recovery Support
  • 著者: Junda Wang, Zonghai Yao, Lingxi Li, Junhui Qian, Zhichao Yang, Hong Yu
  • 分類: cs.AI
  • 発表時期/会議: arXiv preprint 2025
  • 論文リンク: https://arxiv.org/abs/2508.20996v2

要約

物質使用障害(SUDs)は数百万人に影響を与え、高い再発率と複数回の治療の必要性が特徴である。医療資源の限定により、回復支援は大きな課題に直面している。本論文では、ChatTheroを提案する。これは、成瘾回復における長期的な行動変容と治療支援を促進することを目的とした、革新的で低コスト、マルチセッション、ストレス認識、記憶永続的な自律言語エージェントである。患者-治療者対話データに基づいて大規模言語モデル(LLM)をファインチューニングする既存の研究とは異なり、ChatTheroは実際の治療をシミュレートするマルチエージェント環境で訓練される。研究チームは回復コミュニティ(Redditなど)から匿名患者プロファイルを作成し、患者を回復抵抗性を表す易・中・難の3段階に分類した。ストレッサーの導入により現実世界の状況をシミュレートし、臨床基盤に基づいた治療戦略(動機付け面接と認知行動療法)を動的に注入する。評価結果は、ChatTheroが共感性と臨床関連性において優れた性能を示し、ストレスシミュレーションがシステムのロバスト性を向上させることを示している。

研究背景と動機

問題の重要性

  1. 大規模な社会問題:米国では約250万人がオピオイド使用障害を患い、660万人以上が最近の違法薬物使用を報告している
  2. 高い再発率:継続的支援がない場合、第1年の再発率は80~90%に達する可能性がある
  3. 治療資源の不足:オピオイド使用障害患者の4分の1未満しか治療を受けていない
  4. 複数の障壁:スティグマ、費用、アクセスの困難さ、参加度の低さなどを含む

既存方法の限界

  1. 単一介入の効果限定:単一セッション介入は効果の維持が困難であり、複数回の治療と継続的ケアが必要である
  2. 既存AIシステムの不十分さ:ほとんどのシステムは単一セッションまたは短いコンテキストでファインチューニングされており、実際の回復治療プロセスを代表できない
  3. 評価方法の限界:多くの評価は単一ラウンドの品質スコアリングを使用し、軌跡と再発様の挫折を見落としている

研究動機

複数セッション間で継続的でパーソナライズされた治療支援を提供でき、実際の治療環境におけるストレスと課題をシミュレートできるAIシステムの構築。

核心的貢献

  1. マルチセッション、ストレス認識言語エージェントフレームワーク:記憶永続性を備えた再現可能なシミュレーションシステムを提案
  2. データ-環境構築プロセス:回復フォーラムから患者プロファイルを取得し、状態を変更する明示的なストレスプロセスを導入
  3. 2段階訓練スキーム:SFT→DPOの困難事例カリキュラム学習によるマルチセッション戦略の採用
  4. 結果指向のマルチセッション評価スイート:動機/信頼度軌跡、成功時間、ストレスロバスト性、人間-機械一致性評価を含む

方法の詳細

タスク定義

回復支援をマルチセッション、部分観測可能な決定と生成問題としてモデル化する。これにはセッション間の摂動と渇望が含まれる。システムは以下を必要とする:

  • 患者状態の継続性の維持
  • 環境ストレッサーへの適応
  • MI/CBT/ハームリダクション戦略の選択と順序付け
  • セッション間記憶の維持

モデルアーキテクチャ

3エージェントシステム

  1. 患者エージェント(PA)
    • 永続的状態と抵抗レベル(易・中・難)の維持
    • 回復コミュニティプロファイルに基づき、スクリーニングと匿名化処理済み
    • 構造化プロファイルと動的記憶を含む
  2. 環境エージェント(EA)
    • セッション間に明示的なストレッサーを注入
    • 現実世界の状況をシミュレート(ピアプレッシャー、仕事のストレス、家族紛争など)
    • 患者記憶状態を更新
  3. 治療エージェント(TA)- ChatThero
    • 訓練可能なコアコンポーネント
    • MI/CBT戦略の選択と順序付け
    • 縦断的記憶の維持

患者プロファイル生成

  • 構造化プロファイル:人格特性、物質使用履歴、重大な人生出来事、使用動機を含む
  • 動的記憶:相互作用、感情状態、対処メカニズム、環境影響を記録
  • プライバシー保護:PII削除と匿名化を確保する多段階パイプライン

技術的革新点

1. マルチセッション治療段階化

6段階のCBTフレームワークを採用:

  • S1:信頼構築と評価
  • S2:否定的認知の識別
  • S3:誤った信念への異議
  • S4:認知パターンの再構成
  • S5:行動スキル構築
  • S6:統合と終了

2. ストレッサーシミュレーション

3種類のストレッサー:

  • ピア/入手可能性(招待、使用仲間への接近)
  • 仕事/学業(締め切り、シフト変更)
  • 家族/環境(家族紛争、住居不安定)

3. 2段階訓練

  • SFT段階:安全なMI/CBT構造の学習
  • DPO段階:戦略選択タイミングの最適化、困難事例カリキュラムを使用

実験設定

データセット

  • Redditデータ:57,471人のユニークな著者、平均1人あたり18.25投稿
  • 合成対話:60,471対話、平均45.72ラウンド
  • マルチセッション軌跡:8,240対話(6セッションアーク)

評価指標

  1. 結果指標
    • 動機(Motivation):1-5点
    • 信頼度(Confidence):1-5点
  2. プロセス指標
    • 成功時間(Time-to-Success):成功閾値に達するまでのラウンド数の割合
  3. 人間評価次元
    • 応答性(Responsiveness)
    • 共感性(Empathy)
    • 説得戦略の適切性(Persuasive Strategy Appropriateness)
    • 臨床関連性(Clinical Relevance)
    • 行動現実性(Behavioral Realism)

比較方法

  • GPT-4o
  • GPT-4o-mini
  • LLaMA3.1-8B-Instruct
  • Qwen2.5シリーズ(7B、14B、32B)

実装詳細

  • デコード温度:0.7
  • セッションラウンド上限:60ラウンド(約45分)
  • マルチセッション:3-6回の訪問
  • ベースモデル:Qwen-7B

実験結果

主要結果

単一セッション性能

  • 動機向上:2.39から4.10へ(+1.71点)
  • 信頼度向上:1.52から3.19へ(+1.67点)
  • 成功時間:ChatTheroは26%のラウンドのみ必要、GPT-4oは54%

人間評価結果

モデル応答性共感性戦略適切性臨床関連性行動現実性成功時間
GPT-4o4.684.874.394.474.5054%
GPT-4o-mini4.664.864.384.494.4662%
ChatThero-DPO4.854.934.754.614.6926%

アブレーション実験

  • SFT vs DPO:DPOは戦略選択とタイミング制御においてSFT単独を大幅に上回る
  • ストレッサー影響:明示的ストレッサーは再発様挫折を増加させ、現実世界パターンと一致
  • 難度段階化効果:中等度および困難患者での改善が最も顕著

マルチセッション分析

  • 易患者:すべてのモデルが第1回訪問時にほぼ天井効果に達する
  • 中等度患者:ChatTheroはより大きなセッション内向上とより高い初期スコアを示す
  • 困難患者:すべてのシステムはセッション内利益を示すがセッション間保持は弱い

ケース分析

ChatTheroは以下が可能:

  • 患者抵抗をより自然に処理
  • 適切なタイミングで治療戦略を切り替え
  • 具体的で実行可能な対処計画を提供
  • セッション間の治療継続性を維持

関連研究

物質使用障害治療

  • MAT、CBTなどの根拠に基づいた治療は有効だが受け入れ率が低い
  • 単一介入の効果は限定的で、マルチセッション治療が必要

行動健康におけるLLMの応用

  • Therabotなどの既存チャットボットは参加度を向上させる
  • LLMは臨床実践でのトリアージ、診断推論を支援

マルチエージェントシミュレーション

  • AgentClinic、AMIEなどのシステムは医学教育に使用
  • 仮想患者システムは社会的/心理的ダイナミクスを捉える

結論と考察

主要結論

ChatTheroは単一および複数セッション設定の両方で強力なベースラインを上回り、動機/信頼度結果と成功時間において優れた性能を示し、中等度および困難なケースで最大の利益を示す。

限界

  1. シミュレーション限界:Reddit叙述に基づいた患者シミュレーションは、実際の臨床環境の複雑性を完全に捉えられない可能性がある
  2. 文化的限界:英語、西洋的文脈シナリオに限定
  3. 評価範囲:短期対話結果に焦点を当て、患者信頼、治療同盟などの長期効果を評価していない
  4. 困難患者:複数セッション設定でも、困難患者のセッション間利益は容易に減衰する
  5. 倫理的考慮:追加の安全保障とリスク管理プロトコルが必要

今後の方向性

  1. 環境設計:部分観測可能、台帳駆動の環境
  2. 報酬学習:嗜好とフィードバックから報酬モデルを学習
  3. 階層的強化学習:計画と安全性を組み合わせたモデル
  4. 実世界検証:標準化患者参加者と実際の臨床監督が必要

深層評価

強み

  1. 革新性が高い:成瘾回復のためのマルチセッション、ストレス認識言語エージェントを初めて提案
  2. 方法論が完全:データ構築から訓練から評価までの完全なプロセス
  3. 実験が充分:人間評価と自動評価を含む多次元検証
  4. 臨床関連性が高い:根拠に基づいた治療方法(MI/CBT)に基づく
  5. 倫理的考慮が周到:厳格なプライバシー保護と匿名化プロセス

不足

  1. シミュレーションと現実のギャップ:実際の臨床状況との差異が存在
  2. 長期効果が未知:長期追跡と実世界展開検証の欠如
  3. 困難患者への効果限定:重度成瘾患者への効果は依然限定的
  4. 文化適応性:異なる文化背景での有効性検証が必要

影響力

  1. 学術的価値:心理健康分野におけるAI応用の新しいパラダイムを提供
  2. 実用的可能性:治療資源不足問題の緩和に期待
  3. 方法論的貢献:マルチエージェントシミュレーションフレームワークは他の医療シナリオに応用可能
  4. 社会的意義:成瘾回復に低コスト、スケーラブルなソリューションを提供する可能性

適用シナリオ

  1. 補助治療ツール:従来治療の補完として
  2. 資源不足地域:基本的な回復支援を提供
  3. 予防的介入:高リスク集団の早期識別と介入
  4. 研究ツール:治療戦略と介入効果研究に使用

参考文献

本論文は豊富な関連研究を引用している:

  • 成瘾治療分野の古典文献(Miller & Rose, 2009; Beck, 2019)
  • 医療健康におけるLLMの応用(Tu et al., 2025; Arora et al., 2025)
  • マルチエージェントシステムと仮想患者研究(Park et al., 2024; Schmidgall et al., 2024)
  • 心理療法と行動変容理論(Marlatt & Donovan, 2005; Hayes & Hofmann, 2018)

総合評価:これはAI支援心理健康治療分野における重要な意義を持つ研究であり、方法が革新的で実験が充分であり、強い実用価値と学術的影響力を持つ。いくつかの限界が存在するが、この分野の発展に重要な技術基盤と研究方向を提供している。