Substance use disorders (SUDs) affect millions of people, and relapses are common, requiring multi-session treatments. Access to care is limited, which contributes to the challenge of recovery support. We present \textbf{ChatThero}, an innovative low-cost, multi-session, stressor-aware, and memory-persistent autonomous \emph{language agent} designed to facilitate long-term behavior change and therapeutic support in addiction recovery. Unlike existing work that mostly finetuned large language models (LLMs) on patient-therapist conversation data, ChatThero was trained in a multi-agent simulated environment that mirrors real therapy. We created anonymized patient profiles from recovery communities (e.g., Reddit). We classify patients as \texttt{easy}, \texttt{medium}, and \texttt{difficult}, three scales representing their resistance to recovery. We created an external environment by introducing stressors (e.g., social determinants of health) to simulate real-world situations. We dynamically inject clinically-grounded therapeutic strategies (motivational interview and cognitive behavioral therapy). Our evaluation, conducted by both human (blinded clinicians) and LLM-as-Judge, shows that ChatThero is superior in empathy and clinical relevance. We show that stressor simulation improves robustness of ChatThero. Explicit stressors increase relapse-like setbacks, matching real-world patterns. We evaluate ChatThero with behavioral change metrics. On a 1--5 scale, ChatThero raises \texttt{motivation} by $+1.71$ points (from $2.39$ to $4.10$) and \texttt{confidence} by $+1.67$ points (from $1.52$ to $3.19$), substantially outperforming GPT-5. On \texttt{difficult} patients, ChatThero reaches the success milestone with $26\%$ fewer turns than GPT-5.
academic- معرّف الورقة: 2508.20996
- العنوان: ChatThero: وكيل لغة للدعم في التعافي
- المؤلفون: Junda Wang, Zonghai Yao, Lingxi Li, Junhui Qian, Zhichao Yang, Hong Yu
- التصنيف: cs.AI
- وقت النشر/المؤتمر: ورقة arXiv 2025
- رابط الورقة: https://arxiv.org/abs/2508.20996v2
تؤثر اضطرابات استخدام المواد (SUDs) على ملايين الأشخاص، مع معدلات انتكاس عالية تتطلب علاجات متعددة. نظراً للموارد الطبية المحدودة، يواجه دعم التعافي تحديات هائلة. تقترح هذه الورقة ChatThero، وكيل لغة مستقل مبتكر منخفض التكلفة، متعدد الجلسات، يدرك الضغوط، ويتمتع بذاكرة دائمة، مصمم لتعزيز التغيير السلوكي طويل الأمد والدعم العلاجي في التعافي من الإدمان. بخلاف الأعمال الموجودة التي تركز على ضبط نماذج اللغة الكبيرة على بيانات الحوار بين المريض والمعالج، يتم تدريب ChatThero في بيئة متعددة الوكلاء تحاكي العلاج الحقيقي. أنشأ فريق البحث ملفات مريض مجهولة من مجتمعات التعافي (مثل Reddit)، وصنف المرضى إلى ثلاث درجات: سهلة وعادية وصعبة، تمثل مقاومة التعافي لديهم. من خلال إدخال محفزات الضغط لمحاكاة الحالات الواقعية، يتم حقن الاستراتيجيات العلاجية المستندة إلى الأدلة السريرية بشكل ديناميكي (المقابلة التحفيزية والعلاج السلوكي المعرفي). تظهر نتائج التقييم أن ChatThero يتفوق في التعاطف والصلة السريرية، وتحسن محاكاة الضغوط من قوة النظام.
- مشكلة اجتماعية واسعة النطاق: يعاني حوالي 2.5 مليون شخص في الولايات المتحدة من اضطراب استخدام الأفيونيات، مع أكثر من 66 مليون شخص يبلغون عن استخدام عقاقير غير قانونية حديثة
- معدلات انتكاس عالية: بدون دعم مستمر، قد تصل معدلات الانتكاس في السنة الأولى إلى 80-90%
- ندرة موارد العلاج: يتلقى أقل من ربع مرضى اضطراب استخدام الأفيونيات العلاج
- عوائق متعددة: تشمل الوصم والتكلفة وصعوبة الوصول والمشاركة المنخفضة
- فعالية التدخل الفردي محدودة: يصعب على التدخلات ذات الجلسة الواحدة الحفاظ على الآثار، مما يتطلب علاجات متعددة ورعاية مستمرة
- أنظمة الذكاء الاصطناعي الموجودة غير كافية: تركز معظم الأنظمة على جلسات فردية أو سياق قصير، ولا تستطيع تمثيل عملية العلاج الحقيقية للتعافي
- قيود طرق التقييم: تستخدم معظم التقييمات تقييم جودة أحادي الجولة، مما يفقد المسارات والانتكاسات
بناء نظام ذكاء اصطناعي قادر على توفير دعم علاجي مستمر وشخصي عبر جلسات متعددة، محاكياً الضغوط والتحديات في بيئة العلاج الحقيقية.
- إطار عمل وكيل لغة متعدد الجلسات ويدرك الضغوط: يقترح نظام محاكاة قابل للتكرار مع ذاكرة دائمة
- عملية بناء البيانات والبيئة: الحصول على ملفات المريض من منتديات التعافي، مع إدخال عملية ضغط صريحة لتغيير الحالة
- خطة تدريب ثنائية المرحلة: استخدام تعليم المناهج الدراسية للحالات الصعبة SFT→DPO لاستراتيجيات متعددة الجلسات
- مجموعة تقييم متعددة الجلسات موجهة للنتائج: تشمل تقييمات مسار الدافع/الثقة، وقت النجاح، قوة الضغط، والاتفاق بين الإنسان والآلة
نمذجة دعم التعافي كمشكلة قرار وتوليد متعددة الجلسات وقابلة للملاحظة جزئياً، تتضمن اضطرابات بين الجلسات والرغبة الشديدة. يجب أن يكون النظام قادراً على:
- الحفاظ على استمرارية حالة المريض
- التكيف مع محفزات الضغط البيئية
- اختيار وترتيب استراتيجيات MI/CBT/تقليل الضرر
- الحفاظ على الذاكرة عبر الجلسات
- وكيل المريض (PA):
- الحفاظ على الحالة الدائمة ومستوى المقاومة (سهل/عادي/صعب)
- بناءً على ملفات مجتمع التعافي، مع الفحص والتجهيل
- يتضمن ملفات منظمة وذاكرة ديناميكية
- وكيل البيئة (EA):
- حقن محفزات ضغط صريحة بين الجلسات
- محاكاة الحالات الواقعية (ضغط الأقران، ضغط العمل، نزاعات الأسرة، إلخ)
- تحديث حالة ذاكرة المريض
- وكيل العلاج (TA) - ChatThero:
- المكون الأساسي القابل للتدريب
- اختيار وترتيب استراتيجيات MI/CBT
- الحفاظ على الذاكرة الطولية
- الملفات المنظمة: تتضمن السمات الشخصية، تاريخ استخدام المواد، الأحداث الحياتية الكبرى، دوافع الاستخدام
- الذاكرة الديناميكية: تسجيل التفاعلات، الحالات العاطفية، آليات التكيف، التأثيرات البيئية
- حماية الخصوصية: خط أنابيب متعدد المراحل يضمن إزالة المعلومات الشخصية والتجهيل
استخدام إطار عمل CBT بـ 6 مراحل:
- S1: بناء الثقة والتقييم
- S2: تحديد الأفكار السلبية
- S3: الطعن في المعتقدات الخاطئة
- S4: إعادة هيكلة أنماط الأفكار
- S5: بناء مهارات السلوك
- S6: التعزيز والإنهاء
ثلاث فئات من محفزات الضغط:
- الأقران/التوفر (الدعوات، القرب من رفاق الاستخدام)
- العمل/الأكاديمي (المواعيد النهائية، تغييرات المناوبات)
- الأسرة/البيئة (نزاعات الأسرة، عدم استقرار السكن)
- مرحلة SFT: تعلم هيكل MI/CBT الآمن
- مرحلة DPO: تحسين توقيت اختيار الاستراتيجية، باستخدام تعليم المناهج الدراسية للحالات الصعبة
- بيانات Reddit: 57,471 مؤلف فريد، بمتوسط 18.25 منشور لكل شخص
- الحوارات الاصطناعية: 60,471 حوار، بمتوسط 45.72 جولة
- المسارات متعددة الجلسات: 8,240 حوار (6 أقواس جلسات)
- مؤشرات النتائج:
- الدافع (Motivation): 1-5 نقاط
- الثقة (Confidence): 1-5 نقاط
- مؤشرات العملية:
- وقت النجاح (Time-to-Success): نسبة الجولات للوصول إلى عتبة النجاح
- أبعاد التقييم البشري:
- الاستجابة (Responsiveness)
- التعاطف (Empathy)
- ملاءمة الاستراتيجية الإقناعية (Persuasive Strategy Appropriateness)
- الصلة السريرية (Clinical Relevance)
- واقعية السلوك (Behavioral Realism)
- GPT-4o
- GPT-4o-mini
- LLaMA3.1-8B-Instruct
- سلسلة Qwen2.5 (7B, 14B, 32B)
- درجة حرارة فك التشفير: 0.7
- حد أقصى لجولات الجلسة: 60 جولة (حوالي 45 دقيقة)
- جلسات متعددة: 3-6 زيارات
- النموذج الأساسي: Qwen-7B
- تحسن الدافع: من 2.39 إلى 4.10 (+1.71 نقطة)
- تحسن الثقة: من 1.52 إلى 3.19 (+1.67 نقطة)
- وقت النجاح: يحتاج ChatThero فقط إلى 26% من الجولات، بينما يحتاج GPT-4o إلى 54%
| النموذج | الاستجابة | التعاطف | ملاءمة الاستراتيجية | الصلة السريرية | واقعية السلوك | وقت النجاح |
|---|
| GPT-4o | 4.68 | 4.87 | 4.39 | 4.47 | 4.50 | 54% |
| GPT-4o-mini | 4.66 | 4.86 | 4.38 | 4.49 | 4.46 | 62% |
| ChatThero-DPO | 4.85 | 4.93 | 4.75 | 4.61 | 4.69 | 26% |
- SFT مقابل DPO: يتفوق DPO بشكل كبير على SFT فقط في اختيار الاستراتيجية والتحكم في التوقيت
- تأثير محفزات الضغط: تزيد محفزات الضغط الصريحة من انتكاسات تشبه الانتكاسة، متوافقة مع الأنماط الواقعية
- تأثير تصنيف الصعوبة: التحسن الأكثر وضوحاً على المرضى متوسطي والصعوبة
- المرضى السهلون: جميع النماذج قريبة من السقف في الزيارة الأولى
- المرضى متوسطو الصعوبة: يظهر ChatThero تحسناً أكبر داخل الجلسة ودرجات بدء أعلى
- المرضى الصعبون: تظهر جميع الأنظمة مكاسب داخل الجلسة لكن الحفاظ الضعيف بين الجلسات
يمكن لـ ChatThero:
- التعامل مع مقاومة المريض بشكل أكثر طبيعية
- التبديل بين الاستراتيجيات العلاجية في الوقت المناسب
- توفير خطط تكيف محددة وقابلة للتنفيذ
- الحفاظ على استمرارية العلاج عبر الجلسات
- العلاجات القائمة على الأدلة مثل MAT و CBT فعالة لكن معدلات القبول منخفضة
- تأثير التدخل الفردي محدود، يتطلب علاج متعدد الجلسات
- روبوتات محادثة موجودة مثل Therabot تعزز المشاركة
- نماذج اللغة الكبيرة تدعم الفرز والاستدلال التشخيصي في الممارسة السريرية
- أنظمة مثل AgentClinic و AMIE للتعليم الطبي
- أنظمة المرضى الافتراضيين تلتقط الديناميكيات الاجتماعية والنفسية
يتفوق ChatThero على نماذج الأساس القوية في إعدادات جلسة واحدة وجلسات متعددة، مع أداء متميزة في نتائج الدافع/الثقة ووقت النجاح، مع أكبر الفوائد في الحالات المتوسطة والصعبة.
- قيود المحاكاة: قد لا تلتقط محاكاة المريض المستندة إلى روايات Reddit بالكامل تعقيد البيئة السريرية الحقيقية
- القيود الثقافية: مقتصرة على السياق الإنجليزي والغربي
- نطاق التقييم: يركز على نتائج الحوار قصيرة الأمد، لم يقيم التأثيرات طويلة الأمد مثل ثقة المريض والتحالف العلاجي
- المرضى الصعبون: حتى في الإعدادات متعددة الجلسات، تميل مكاسب المرضى الصعبين بين الجلسات إلى الانحدار
- الاعتبارات الأخلاقية: تتطلب ضمانات أمان إضافية وبروتوكولات المخاطر
- تصميم البيئة: بيئات قابلة للملاحظة جزئياً وموجهة بالدفاتر
- تعلم المكافآت: تعلم نماذج المكافآت من التفضيلات والتعليقات
- التعلم المعزز الهرمي: نماذج تجمع بين التخطيط والأمان
- التحقق من العالم الحقيقي: يتطلب مشاركين مريض موحدين والإشراف السريري الحقيقي
- ابتكار قوي: أول وكيل لغة متعدد الجلسات يدرك الضغوط للتعافي من الإدمان
- منهجية شاملة: عملية كاملة من بناء البيانات إلى التدريب إلى التقييم
- تجارب كافية: تشمل التقييم البشري والتقييم التلقائي، التحقق متعدد الأبعاد
- صلة سريرية عالية: بناءً على طرق العلاج القائمة على الأدلة (MI/CBT)
- اعتبارات أخلاقية شاملة: عملية صارمة لحماية الخصوصية والتجهيل
- الفجوة بين المحاكاة والواقع: على الرغم من محاولة محاكاة البيئة الحقيقية، لا تزال هناك فجوة مع الحالات السريرية الفعلية
- التأثيرات طويلة الأمد غير معروفة: تفتقر إلى المتابعة طويلة الأمد والتحقق من النشر في العالم الحقيقي
- تأثير محدود على المرضى الصعبين: لا تزال فعالية المرضى الذين يعانون من الإدمان الشديد محدودة
- التكيف الثقافي: يتطلب التحقق من الفعالية في خلفيات ثقافية مختلفة
- القيمة الأكاديمية: توفير نموذج جديد لتطبيق الذكاء الاصطناعي في الصحة النفسية
- الإمكانات العملية: قد تخفف من مشكلة ندرة موارد العلاج
- المساهمات المنهجية: يمكن توسيع إطار عمل المحاكاة متعددة الوكلاء إلى سيناريوهات طبية أخرى
- الأهمية الاجتماعية: قد توفر حلاً منخفض التكلفة وقابل للتوسع للتعافي من الإدمان
- أداة علاج مساعدة: كملحق للعلاج التقليدي
- المناطق ذات الموارد المحدودة: توفير دعم التعافي الأساسي
- التدخل الوقائي: التعرف المبكر والتدخل في المجموعات عالية الخطورة
- أداة البحث: لدراسة استراتيجيات العلاج وفعالية التدخل
تستشهد هذه الورقة بأدبيات غنية ذات صلة، بما في ذلك:
- الأدبيات الكلاسيكية في مجال علاج الإدمان (Miller & Rose, 2009; Beck, 2019)
- تطبيقات نماذج اللغة الكبيرة في الصحة الطبية (Tu et al., 2025; Arora et al., 2025)
- أبحاث الأنظمة متعددة الوكلاء والمرضى الافتراضيين (Park et al., 2024; Schmidgall et al., 2024)
- نظرية العلاج النفسي وتغيير السلوك (Marlatt & Donovan, 2005; Hayes & Hofmann, 2018)
التقييم الشامل: هذا عمل ذو أهمية كبيرة في مجال العلاج النفسي بمساعدة الذكاء الاصطناعي، مع طرق مبتكرة وتجارب شاملة وقيمة عملية قوية. على الرغم من وجود بعض القيود، فإنه يوفر أساساً تقنياً واتجاهات بحثية مهمة لتطور المجال.