2025-11-25T04:46:17.326463

ChatThero: An LLM-Supported Chatbot for Behavior Change and Therapeutic Support in Addiction Recovery

Wang, Yao, Li et al.
Substance use disorders (SUDs) affect millions of people, and relapses are common, requiring multi-session treatments. Access to care is limited, which contributes to the challenge of recovery support. We present \textbf{ChatThero}, an innovative low-cost, multi-session, stressor-aware, and memory-persistent autonomous \emph{language agent} designed to facilitate long-term behavior change and therapeutic support in addiction recovery. Unlike existing work that mostly finetuned large language models (LLMs) on patient-therapist conversation data, ChatThero was trained in a multi-agent simulated environment that mirrors real therapy. We created anonymized patient profiles from recovery communities (e.g., Reddit). We classify patients as \texttt{easy}, \texttt{medium}, and \texttt{difficult}, three scales representing their resistance to recovery. We created an external environment by introducing stressors (e.g., social determinants of health) to simulate real-world situations. We dynamically inject clinically-grounded therapeutic strategies (motivational interview and cognitive behavioral therapy). Our evaluation, conducted by both human (blinded clinicians) and LLM-as-Judge, shows that ChatThero is superior in empathy and clinical relevance. We show that stressor simulation improves robustness of ChatThero. Explicit stressors increase relapse-like setbacks, matching real-world patterns. We evaluate ChatThero with behavioral change metrics. On a 1--5 scale, ChatThero raises \texttt{motivation} by $+1.71$ points (from $2.39$ to $4.10$) and \texttt{confidence} by $+1.67$ points (from $1.52$ to $3.19$), substantially outperforming GPT-5. On \texttt{difficult} patients, ChatThero reaches the success milestone with $26\%$ fewer turns than GPT-5.
academic

ChatThero: روبوت محادثة مدعوم بنموذج لغة كبير لتغيير السلوك والدعم العلاجي في التعافي من الإدمان

المعلومات الأساسية

  • معرّف الورقة: 2508.20996
  • العنوان: ChatThero: وكيل لغة للدعم في التعافي
  • المؤلفون: Junda Wang, Zonghai Yao, Lingxi Li, Junhui Qian, Zhichao Yang, Hong Yu
  • التصنيف: cs.AI
  • وقت النشر/المؤتمر: ورقة arXiv 2025
  • رابط الورقة: https://arxiv.org/abs/2508.20996v2

الملخص

تؤثر اضطرابات استخدام المواد (SUDs) على ملايين الأشخاص، مع معدلات انتكاس عالية تتطلب علاجات متعددة. نظراً للموارد الطبية المحدودة، يواجه دعم التعافي تحديات هائلة. تقترح هذه الورقة ChatThero، وكيل لغة مستقل مبتكر منخفض التكلفة، متعدد الجلسات، يدرك الضغوط، ويتمتع بذاكرة دائمة، مصمم لتعزيز التغيير السلوكي طويل الأمد والدعم العلاجي في التعافي من الإدمان. بخلاف الأعمال الموجودة التي تركز على ضبط نماذج اللغة الكبيرة على بيانات الحوار بين المريض والمعالج، يتم تدريب ChatThero في بيئة متعددة الوكلاء تحاكي العلاج الحقيقي. أنشأ فريق البحث ملفات مريض مجهولة من مجتمعات التعافي (مثل Reddit)، وصنف المرضى إلى ثلاث درجات: سهلة وعادية وصعبة، تمثل مقاومة التعافي لديهم. من خلال إدخال محفزات الضغط لمحاكاة الحالات الواقعية، يتم حقن الاستراتيجيات العلاجية المستندة إلى الأدلة السريرية بشكل ديناميكي (المقابلة التحفيزية والعلاج السلوكي المعرفي). تظهر نتائج التقييم أن ChatThero يتفوق في التعاطف والصلة السريرية، وتحسن محاكاة الضغوط من قوة النظام.

خلفية البحث والدافع

أهمية المشكلة

  1. مشكلة اجتماعية واسعة النطاق: يعاني حوالي 2.5 مليون شخص في الولايات المتحدة من اضطراب استخدام الأفيونيات، مع أكثر من 66 مليون شخص يبلغون عن استخدام عقاقير غير قانونية حديثة
  2. معدلات انتكاس عالية: بدون دعم مستمر، قد تصل معدلات الانتكاس في السنة الأولى إلى 80-90%
  3. ندرة موارد العلاج: يتلقى أقل من ربع مرضى اضطراب استخدام الأفيونيات العلاج
  4. عوائق متعددة: تشمل الوصم والتكلفة وصعوبة الوصول والمشاركة المنخفضة

قيود الطرق الموجودة

  1. فعالية التدخل الفردي محدودة: يصعب على التدخلات ذات الجلسة الواحدة الحفاظ على الآثار، مما يتطلب علاجات متعددة ورعاية مستمرة
  2. أنظمة الذكاء الاصطناعي الموجودة غير كافية: تركز معظم الأنظمة على جلسات فردية أو سياق قصير، ولا تستطيع تمثيل عملية العلاج الحقيقية للتعافي
  3. قيود طرق التقييم: تستخدم معظم التقييمات تقييم جودة أحادي الجولة، مما يفقد المسارات والانتكاسات

دافع البحث

بناء نظام ذكاء اصطناعي قادر على توفير دعم علاجي مستمر وشخصي عبر جلسات متعددة، محاكياً الضغوط والتحديات في بيئة العلاج الحقيقية.

المساهمات الأساسية

  1. إطار عمل وكيل لغة متعدد الجلسات ويدرك الضغوط: يقترح نظام محاكاة قابل للتكرار مع ذاكرة دائمة
  2. عملية بناء البيانات والبيئة: الحصول على ملفات المريض من منتديات التعافي، مع إدخال عملية ضغط صريحة لتغيير الحالة
  3. خطة تدريب ثنائية المرحلة: استخدام تعليم المناهج الدراسية للحالات الصعبة SFT→DPO لاستراتيجيات متعددة الجلسات
  4. مجموعة تقييم متعددة الجلسات موجهة للنتائج: تشمل تقييمات مسار الدافع/الثقة، وقت النجاح، قوة الضغط، والاتفاق بين الإنسان والآلة

شرح الطريقة

تعريف المهمة

نمذجة دعم التعافي كمشكلة قرار وتوليد متعددة الجلسات وقابلة للملاحظة جزئياً، تتضمن اضطرابات بين الجلسات والرغبة الشديدة. يجب أن يكون النظام قادراً على:

  • الحفاظ على استمرارية حالة المريض
  • التكيف مع محفزات الضغط البيئية
  • اختيار وترتيب استراتيجيات MI/CBT/تقليل الضرر
  • الحفاظ على الذاكرة عبر الجلسات

معمارية النموذج

نظام ثلاثي الوكلاء

  1. وكيل المريض (PA):
    • الحفاظ على الحالة الدائمة ومستوى المقاومة (سهل/عادي/صعب)
    • بناءً على ملفات مجتمع التعافي، مع الفحص والتجهيل
    • يتضمن ملفات منظمة وذاكرة ديناميكية
  2. وكيل البيئة (EA):
    • حقن محفزات ضغط صريحة بين الجلسات
    • محاكاة الحالات الواقعية (ضغط الأقران، ضغط العمل، نزاعات الأسرة، إلخ)
    • تحديث حالة ذاكرة المريض
  3. وكيل العلاج (TA) - ChatThero:
    • المكون الأساسي القابل للتدريب
    • اختيار وترتيب استراتيجيات MI/CBT
    • الحفاظ على الذاكرة الطولية

توليد ملفات المريض

  • الملفات المنظمة: تتضمن السمات الشخصية، تاريخ استخدام المواد، الأحداث الحياتية الكبرى، دوافع الاستخدام
  • الذاكرة الديناميكية: تسجيل التفاعلات، الحالات العاطفية، آليات التكيف، التأثيرات البيئية
  • حماية الخصوصية: خط أنابيب متعدد المراحل يضمن إزالة المعلومات الشخصية والتجهيل

نقاط الابتكار التقني

1. تقسيم العلاج متعدد الجلسات

استخدام إطار عمل CBT بـ 6 مراحل:

  • S1: بناء الثقة والتقييم
  • S2: تحديد الأفكار السلبية
  • S3: الطعن في المعتقدات الخاطئة
  • S4: إعادة هيكلة أنماط الأفكار
  • S5: بناء مهارات السلوك
  • S6: التعزيز والإنهاء

2. محاكاة محفزات الضغط

ثلاث فئات من محفزات الضغط:

  • الأقران/التوفر (الدعوات، القرب من رفاق الاستخدام)
  • العمل/الأكاديمي (المواعيد النهائية، تغييرات المناوبات)
  • الأسرة/البيئة (نزاعات الأسرة، عدم استقرار السكن)

3. التدريب ثنائي المرحلة

  • مرحلة SFT: تعلم هيكل MI/CBT الآمن
  • مرحلة DPO: تحسين توقيت اختيار الاستراتيجية، باستخدام تعليم المناهج الدراسية للحالات الصعبة

الإعداد التجريبي

مجموعة البيانات

  • بيانات Reddit: 57,471 مؤلف فريد، بمتوسط 18.25 منشور لكل شخص
  • الحوارات الاصطناعية: 60,471 حوار، بمتوسط 45.72 جولة
  • المسارات متعددة الجلسات: 8,240 حوار (6 أقواس جلسات)

مؤشرات التقييم

  1. مؤشرات النتائج:
    • الدافع (Motivation): 1-5 نقاط
    • الثقة (Confidence): 1-5 نقاط
  2. مؤشرات العملية:
    • وقت النجاح (Time-to-Success): نسبة الجولات للوصول إلى عتبة النجاح
  3. أبعاد التقييم البشري:
    • الاستجابة (Responsiveness)
    • التعاطف (Empathy)
    • ملاءمة الاستراتيجية الإقناعية (Persuasive Strategy Appropriateness)
    • الصلة السريرية (Clinical Relevance)
    • واقعية السلوك (Behavioral Realism)

الطرق المقارنة

  • GPT-4o
  • GPT-4o-mini
  • LLaMA3.1-8B-Instruct
  • سلسلة Qwen2.5 (7B, 14B, 32B)

تفاصيل التنفيذ

  • درجة حرارة فك التشفير: 0.7
  • حد أقصى لجولات الجلسة: 60 جولة (حوالي 45 دقيقة)
  • جلسات متعددة: 3-6 زيارات
  • النموذج الأساسي: Qwen-7B

نتائج التجارب

النتائج الرئيسية

الأداء في جلسة واحدة

  • تحسن الدافع: من 2.39 إلى 4.10 (+1.71 نقطة)
  • تحسن الثقة: من 1.52 إلى 3.19 (+1.67 نقطة)
  • وقت النجاح: يحتاج ChatThero فقط إلى 26% من الجولات، بينما يحتاج GPT-4o إلى 54%

نتائج التقييم البشري

النموذجالاستجابةالتعاطفملاءمة الاستراتيجيةالصلة السريريةواقعية السلوكوقت النجاح
GPT-4o4.684.874.394.474.5054%
GPT-4o-mini4.664.864.384.494.4662%
ChatThero-DPO4.854.934.754.614.6926%

تجارب الاستئصال

  • SFT مقابل DPO: يتفوق DPO بشكل كبير على SFT فقط في اختيار الاستراتيجية والتحكم في التوقيت
  • تأثير محفزات الضغط: تزيد محفزات الضغط الصريحة من انتكاسات تشبه الانتكاسة، متوافقة مع الأنماط الواقعية
  • تأثير تصنيف الصعوبة: التحسن الأكثر وضوحاً على المرضى متوسطي والصعوبة

تحليل متعدد الجلسات

  • المرضى السهلون: جميع النماذج قريبة من السقف في الزيارة الأولى
  • المرضى متوسطو الصعوبة: يظهر ChatThero تحسناً أكبر داخل الجلسة ودرجات بدء أعلى
  • المرضى الصعبون: تظهر جميع الأنظمة مكاسب داخل الجلسة لكن الحفاظ الضعيف بين الجلسات

تحليل الحالات

يمكن لـ ChatThero:

  • التعامل مع مقاومة المريض بشكل أكثر طبيعية
  • التبديل بين الاستراتيجيات العلاجية في الوقت المناسب
  • توفير خطط تكيف محددة وقابلة للتنفيذ
  • الحفاظ على استمرارية العلاج عبر الجلسات

الأعمال ذات الصلة

علاج اضطرابات استخدام المواد

  • العلاجات القائمة على الأدلة مثل MAT و CBT فعالة لكن معدلات القبول منخفضة
  • تأثير التدخل الفردي محدود، يتطلب علاج متعدد الجلسات

تطبيقات نماذج اللغة الكبيرة في الصحة السلوكية

  • روبوتات محادثة موجودة مثل Therabot تعزز المشاركة
  • نماذج اللغة الكبيرة تدعم الفرز والاستدلال التشخيصي في الممارسة السريرية

المحاكاة متعددة الوكلاء

  • أنظمة مثل AgentClinic و AMIE للتعليم الطبي
  • أنظمة المرضى الافتراضيين تلتقط الديناميكيات الاجتماعية والنفسية

الخلاصة والمناقشة

الاستنتاجات الرئيسية

يتفوق ChatThero على نماذج الأساس القوية في إعدادات جلسة واحدة وجلسات متعددة، مع أداء متميزة في نتائج الدافع/الثقة ووقت النجاح، مع أكبر الفوائد في الحالات المتوسطة والصعبة.

القيود

  1. قيود المحاكاة: قد لا تلتقط محاكاة المريض المستندة إلى روايات Reddit بالكامل تعقيد البيئة السريرية الحقيقية
  2. القيود الثقافية: مقتصرة على السياق الإنجليزي والغربي
  3. نطاق التقييم: يركز على نتائج الحوار قصيرة الأمد، لم يقيم التأثيرات طويلة الأمد مثل ثقة المريض والتحالف العلاجي
  4. المرضى الصعبون: حتى في الإعدادات متعددة الجلسات، تميل مكاسب المرضى الصعبين بين الجلسات إلى الانحدار
  5. الاعتبارات الأخلاقية: تتطلب ضمانات أمان إضافية وبروتوكولات المخاطر

الاتجاهات المستقبلية

  1. تصميم البيئة: بيئات قابلة للملاحظة جزئياً وموجهة بالدفاتر
  2. تعلم المكافآت: تعلم نماذج المكافآت من التفضيلات والتعليقات
  3. التعلم المعزز الهرمي: نماذج تجمع بين التخطيط والأمان
  4. التحقق من العالم الحقيقي: يتطلب مشاركين مريض موحدين والإشراف السريري الحقيقي

التقييم المتعمق

المزايا

  1. ابتكار قوي: أول وكيل لغة متعدد الجلسات يدرك الضغوط للتعافي من الإدمان
  2. منهجية شاملة: عملية كاملة من بناء البيانات إلى التدريب إلى التقييم
  3. تجارب كافية: تشمل التقييم البشري والتقييم التلقائي، التحقق متعدد الأبعاد
  4. صلة سريرية عالية: بناءً على طرق العلاج القائمة على الأدلة (MI/CBT)
  5. اعتبارات أخلاقية شاملة: عملية صارمة لحماية الخصوصية والتجهيل

أوجه القصور

  1. الفجوة بين المحاكاة والواقع: على الرغم من محاولة محاكاة البيئة الحقيقية، لا تزال هناك فجوة مع الحالات السريرية الفعلية
  2. التأثيرات طويلة الأمد غير معروفة: تفتقر إلى المتابعة طويلة الأمد والتحقق من النشر في العالم الحقيقي
  3. تأثير محدود على المرضى الصعبين: لا تزال فعالية المرضى الذين يعانون من الإدمان الشديد محدودة
  4. التكيف الثقافي: يتطلب التحقق من الفعالية في خلفيات ثقافية مختلفة

التأثير

  1. القيمة الأكاديمية: توفير نموذج جديد لتطبيق الذكاء الاصطناعي في الصحة النفسية
  2. الإمكانات العملية: قد تخفف من مشكلة ندرة موارد العلاج
  3. المساهمات المنهجية: يمكن توسيع إطار عمل المحاكاة متعددة الوكلاء إلى سيناريوهات طبية أخرى
  4. الأهمية الاجتماعية: قد توفر حلاً منخفض التكلفة وقابل للتوسع للتعافي من الإدمان

السيناريوهات المعمول بها

  1. أداة علاج مساعدة: كملحق للعلاج التقليدي
  2. المناطق ذات الموارد المحدودة: توفير دعم التعافي الأساسي
  3. التدخل الوقائي: التعرف المبكر والتدخل في المجموعات عالية الخطورة
  4. أداة البحث: لدراسة استراتيجيات العلاج وفعالية التدخل

المراجع

تستشهد هذه الورقة بأدبيات غنية ذات صلة، بما في ذلك:

  • الأدبيات الكلاسيكية في مجال علاج الإدمان (Miller & Rose, 2009; Beck, 2019)
  • تطبيقات نماذج اللغة الكبيرة في الصحة الطبية (Tu et al., 2025; Arora et al., 2025)
  • أبحاث الأنظمة متعددة الوكلاء والمرضى الافتراضيين (Park et al., 2024; Schmidgall et al., 2024)
  • نظرية العلاج النفسي وتغيير السلوك (Marlatt & Donovan, 2005; Hayes & Hofmann, 2018)

التقييم الشامل: هذا عمل ذو أهمية كبيرة في مجال العلاج النفسي بمساعدة الذكاء الاصطناعي، مع طرق مبتكرة وتجارب شاملة وقيمة عملية قوية. على الرغم من وجود بعض القيود، فإنه يوفر أساساً تقنياً واتجاهات بحثية مهمة لتطور المجال.