2025-11-13T17:28:10.587795

TextBandit: Evaluating Probabilistic Reasoning in LLMs Through Language-Only Decision Tasks

Lim, Damerla, Jiang et al.

Large language models (LLMs) have shown to be increasingly capable of performing reasoning tasks, but their ability to make sequential decisions under uncertainty only using natural language remains underexplored. We introduce a novel benchmark in which LLMs interact with multi-armed bandit environments using purely textual feedback, "you earned a token", without access to numerical cues or explicit probabilities, resulting in the model to infer latent reward structures purely off linguistic cues and to adapt accordingly. We evaluated the performance of four open-source LLMs and compare their performance to standard decision-making algorithms such as Thompson Sampling, Epsilon Greedy, Upper Confidence Bound (UCB), and random choice. While most of the LLMs underperformed compared to the baselines, Qwen3-4B, achieved the best-arm selection rate of 89.2% , which significantly outperformed both the larger LLMs and traditional methods. Our findings suggest that probabilistic reasoning is able to emerge from language alone, and we present this benchmark as a step towards evaluating decision-making capabilities in naturalistic, non-numeric contexts.

academic

TextBandit: تقييم التفكير الاحتمالي في نماذج اللغة الكبيرة من خلال مهام القرار القائمة على اللغة فقط

المعلومات الأساسية

معرّف الورقة: 2510.13878
العنوان: TextBandit: تقييم التفكير الاحتمالي في نماذج اللغة الكبيرة من خلال مهام القرار القائمة على اللغة فقط
المؤلفون: جيمين ليم (جامعة UC Merced)، أرجون دامرلا (جامعة UC Berkeley)، آرثر جيانج (Algoverse)، نام لي (Algoverse)
التصنيف: cs.CL (اللسانيات الحاسوبية)
تاريخ النشر: 13 أكتوبر 2025 (نسخة arXiv التمهيدية)
رابط الورقة: https://arxiv.org/abs/2510.13878

الملخص

تُظهر نماذج اللغة الكبيرة (LLMs) قدرات متزايدة في مهام التفكير، لكن قدرتها على اتخاذ قرارات متسلسلة تحت عدم اليقين باستخدام اللغة الطبيعية فقط لم تُستكشف بشكل كافٍ. تقدم هذه الورقة معيارًا جديدًا حيث تتفاعل نماذج اللغة الكبيرة مع بيئة آلات القمار متعددة الأذرع باستخدام ردود فعل نصية بحتة ("لقد حصلت على رمز")، دون الوصول إلى مؤشرات رقمية أو احتمالات صريحة، مما يتطلب من النموذج استنتاج هياكل المكافآت الكامنة بناءً على مؤشرات لغوية بحتة والتكيف وفقًا لذلك. تقيّم الدراسة أداء أربعة نماذج لغة مفتوحة المصدر وتقارنها مع خوارزميات قرار معيارية مثل أخذ العينات من Thompson والجشع الإبسيلون والحد الأعلى للثقة (UCB) والاختيار العشوائي. على الرغم من أن معظم نماذج اللغة الكبيرة تؤدي أداءً أقل من الطرق الأساسية، إلا أن Qwen3-4B حقق أفضل معدل اختيار ذراع بنسبة 89.2%، متفوقًا بشكل كبير على نماذج أكبر والطرق التقليدية.

خلفية البحث والدافع

تعريف المشكلة

المسألة الأساسية التي يعالجها هذا البحث هي: هل يمكن لنماذج اللغة الكبيرة إجراء تفكير احتمالي فعال واتخاذ قرارات في بيئات غير مؤكدة من خلال ردود فعل اللغة الطبيعية فقط؟

الأهمية

الأهمية النظرية: استكشاف ما إذا كانت نماذج اللغة الكبيرة تمتلك قدرات استدلال بايزي جوهرية، وهو ما له قيمة مهمة لفهم الآليات المعرفية لأنظمة الذكاء الاصطناعي
القيمة العملية: في العالم الحقيقي، تفتقر العديد من سيناريوهات القرار إلى بيانات رقمية دقيقة ويمكن الاعتماد فقط على الأوصاف اللغوية للحكم
التحديات التقنية: تعتمد الطرق التقليدية لاتخاذ القرارات في ظل عدم اليقين على حسابات رياضية معقدة، بينما قد توفر الطرق القائمة على اللغة حلولاً أكثر مرونة وأسهل في الوصول إليها

قيود الطرق الموجودة

الاعتماد على الأرقام: تتطلب طرق الاستدلال البايزي التقليدية والتعلم المعزز مدخلات رقمية واضحة ومعلومات احتمالية
نقص التقييم: يوجد نقص في معايير التقييم المتخصصة لتقييم قدرات التفكير الاحتمالي في نماذج اللغة الكبيرة في بيئات لغوية بحتة
قيود التعقيد: يركز البحث الموجود بشكل أساسي على المهام المقيدة البسيطة، ولم يستكشف بشكل كافٍ سيناريوهات القرار متعددة الخطوات

دافع البحث

يعتقد المؤلفون أنه إذا كانت نماذج اللغة الكبيرة قادرة على إجراء تفكير احتمالي فعال من خلال ردود فعل لغوية فقط، فسيفتح ذلك إمكانيات جديدة لاتخاذ قرارات طبيعية وغير رقمية، خاصة في سيناريوهات التطبيقات الواقعية التي تفتقر إلى البيانات المنظمة.

المساهمات الأساسية

اقتراح معيار TextBandit: أول معيار متخصص لتقييم قدرات التفكير الاحتمالي في نماذج اللغة الكبيرة في بيئات لغوية بحتة، باستخدام إطار عمل آلات القمار متعددة الأذرع
اكتشاف تأثيرات الحجم المعاكسة للحدس: إثبات وجود علاقة سلبية بين حجم النموذج وأداء القرار، حيث يتفوق Qwen3-4B الأصغر بشكل كبير على النماذج الأكبر
عرض التفكير الاحتمالي الناشئ من اللغة: إثبات أن قدرات التفكير الاحتمالي يمكن أن تنشأ من التفاعل اللغوي البحت، دون الحاجة إلى مؤشرات رقمية
توفير تحليل مقارن شامل: مقارنة منهجية بين نماذج اللغة الكبيرة والخوارزميات الكلاسيكية لاتخاذ القرارات، مما يوفر رؤى مهمة لفهم مزايا وعيوب الطرق المختلفة

شرح الطريقة

تعريف المهمة

المدخلات: وصف اللغة الطبيعية للاختيارات السابقة والنتائج (مثل "فازت آلة القمار 1"، "خسرت آلة القمار 2") المخرجات: اختيار الذراع للجولة التالية (معرّف رقمي، مثل "1" أو "2") القيود: لا توجد مؤشرات رقمية، لا احتمالات صريحة، لا عملية استدلال وسيطة

بنية التجربة

بيئة آلات القمار متعددة الأذرع

عدد الأذرع: 2-5 أذرع، لكل منها احتمالية نجاح ثابتة لكن غير معروفة
هيكل المكافآت: في التكوين ثنائي الذراع، ذراع واحدة بمعدل نجاح 65%، والأخرى 30%
آلية الردود:
- النجاح: "لقد حصلت على رمز" (المكافأة = 1)
- الفشل: "لم تحصل على رمز" (المكافأة = 0)

بروتوكول الطلب

يستخدم كل نموذج لغة هيكل طلب متسق:

وصف المهمة: تعليمات اللغة الطبيعية التي تضع المهمة في سياق قرار
السجل التاريخي: وصف لغوي بحت لجميع الاختيارات والنتائج السابقة
طلب الإجراء: طلب من النموذج إخراج الرقم المقابل للذراع

نماذج التقييم

اختارت الدراسة أربعة نماذج لغة مفتوحة المصدر بعمائر وأحجام معاملات مختلفة:

النموذج	عدد المعاملات	العمارة	الخصائص
Qwen3-4B	4B	محول فك التشفير فقط	يدعم لغات متعددة، قدرات استدلال قوية
Qwen3-8B	8B	محول فك التشفير فقط	نسخة أكبر من Qwen3-4B، قدرات استخدام الأدوات محسّنة
Llama-3.1-8B	8B	محول فك التشفير فقط	متابعة التعليمات والقدرات متعددة اللغات محسّنة
Phi-2	2.7B	محول	نموذج صغير وفعال

الطرق الأساسية

تمت مقارنة أربع خوارزميات كلاسيكية لآلات القمار متعددة الأذرع:

أخذ عينات Thompson: استخدام الاستدلال البايزي لأخذ عينات من توزيع احتمالي
الحد الأعلى للثقة (UCB): استراتيجية حتمية توازن بين الاستغلال والاستكشاف
الجشع الإبسيلون: اختر أفضل إجراء باحتمالية 1-ε، وإلا اختر عشوائيًا
الاختيار العشوائي: طريقة أساسية عشوائية بالكامل

إعداد التجربة

تكوين التجربة

عدد المحاولات: 500 عملية تشغيل مستقلة لكل نموذج
جولات القرار: 25 جولة قرار لكل عملية تشغيل
تكوينات الأذرع: اختبار تكوينات مختلفة بـ 2-5 أذرع
بيئة التقييم: استخدام مثيلات GPU المستضافة على RunPod، بناءً على مكتبة Hugging Face Transformers

مؤشرات التقييم

المكافآت المتراكمة: إجمالي الرموز المكتسبة على مدار 25 جولة قرار
معدل اختيار أفضل ذراع: نسبة مئوية لتكرار اختيار الذراع المثلى (معدل نجاح 65%)
الندم المتراكم: تكلفة الفرصة البديلة لعدم اختيار الذراع المثلى

التحكم في التجربة

إزالة استدلال Chain-of-Thought للحصول على مخرجات واضحة
استخدام نفس تنسيق وهيكل الطلب
كل خطوة قرار باستخدام إكمال واحد، بدون استدلال وسيط

نتائج التجربة

النتائج الرئيسية

مقارنة معدل اختيار أفضل ذراع

النموذج/الخوارزمية	معدل اختيار أفضل ذراع	المكافآت المتراكمة
Qwen3-4B	89.2%	11,150
أخذ عينات Thompson	51.1%	8,297
UCB	47.6%	4,696
الجشع الإبسيلون	38.1%	6,029
Qwen3-8B	37.5%	4,686
الاختيار العشوائي	31.8%	5,783
Llama-3.1-8B	31.6%	3,946
Phi-2	25.4%	3,181

الاكتشافات الرئيسية

1. تأثيرات الحجم المعاكسة للحدس

Qwen3-4B (4B معامل) يتفوق بشكل كبير على Qwen3-8B (8B معامل)
تميل النماذج الأكبر إلى "الإفراط في التفكير"، مما يؤدي إلى انخفاض أداء القرار
يُظهر أصغر نموذج Phi-2 (2.7B) أسوأ أداء، مما يشير إلى وجود نطاق حجم أمثل

2. تأثير عدد الأذرع على الأداء

تنخفض أداء جميع النماذج بشكل كبير مع زيادة عدد الأذرع:

Llama-3.1-8B: انخفاض من 31.56% (ذراعان) إلى 7.37% (خمس أذرع)
Qwen3-4B: انخفاض من 89.22% (ذراعان) إلى 6.53% (خمس أذرع)
Phi-2: انخفاض من 25.45% (ذراعان) إلى 17.78% (خمس أذرع)
Qwen3-8B: انخفاض من 37.49% (ذراعان) إلى 17.09% (خمس أذرع)

3. تحليل الندم المتراكم

يُظهر Qwen3-4B انخفاضًا سريعًا في الندم في تكوين ذراعين
تحافظ النماذج الأكبر على ندم متراكم أعلى في جميع التكوينات
أنتج تكوين أربع أذرع بشكل غير متوقع أقل ندم متراكم بين جميع النماذج

التحليل النوعي

استراتيجية الاستكشاف والاستغلال: تُظهر نماذج اللغة الكبيرة أنماطًا سلوكية مشابهة لأخذ عينات Thompson
التصلب المبكر: تميل النماذج إلى تحديد الاختيار "الأمثل" بناءً على ردود فعل محدودة في وقت مبكر جدًا
تكلفة الاستدلال: يستغرق Qwen3-8B وقتًا غير عادي طويل بسبب محاولة الاستدلال المستمرة

الأعمال ذات الصلة

التفكير الاحتمالي في نماذج اللغة الكبيرة

Xie et al. (2022): تأطير التعلم السياقي كاستدلال بايزي ضمني
Gupta et al. (2025): إثبات أن نماذج اللغة الكبيرة قادرة على تحديث المعتقدات المتسقة مع تحديث البايزي اللاحق
Sun et al. (2025): اقتراح طريقة هجينة تجمع بين استراتيجيات آلات القمار الكلاسيكية وتنبؤ المكافآت من نماذج اللغة الكبيرة

اتخاذ القرارات مع الوعي بعدم اليقين

Felicioni et al. (2024): استكشاف فوائد الأخذ في الاعتبار الصريح لعدم اليقين الإبستيمي في اتخاذ القرارات المتسلسلة
تُظهر الأبحاث أن عدم اليقين يمكن أن يكون إشارة قيمة لتوجيه سلوك النموذج

الاستكشاف والاستغلال في بيئة آلات القمار

Zhang et al. (2025): مقارنة استراتيجيات الاستكشاف والاستغلال بين نماذج اللغة الكبيرة والبشر في آلات القمار متعددة الأذرع
يكتشفون أن استدلال Chain-of-Thought يحسّن بشكل كبير قدرات التفكير، مما يجعل سلوك نماذج اللغة الكبيرة أقرب إلى الطرق البشرية

الخلاصة والمناقشة

الاستنتاجات الرئيسية

التفكير الاحتمالي الناشئ من اللغة: إثبات أن قدرات التفكير الاحتمالي الفعال يمكن أن تنشأ من ردود فعل لغوية بحتة
العلاقة المعقدة بين الحجم والأداء: حجم النموذج لا يرتبط دائمًا بشكل إيجابي بأداء القرار
أهمية تحسين العمارة: قد تتمتع نماذج العمارة الخفيفة والفعالة بميزة في بيئات الردود السريعة

القيود

قيود نطاق النموذج: تم اختبار نماذج مفتوحة المصدر بـ 2.7B-8B معامل فقط، لم تشمل نماذج أكبر حجمًا
تعقيد المهمة: هياكل مكافآت ثابتة وبسيطة، لا تتضمن بيئات غير ثابتة أو ردود فعل متأخرة
استراتيجية الطلب: قد يؤدي تجنب استخدام Chain-of-Thought إلى التقليل من القدرات الحقيقية لنماذج اللغة الكبيرة
قيود الموارد الحسابية: لم تتمكن من اختبار نماذج تجارية كبيرة مثل GPT-4

الاتجاهات المستقبلية

اختبار البيئات الديناميكية: تقييم الأداء في بيئات آلات القمار غير الثابتة أو ذات الردود المتأخرة
الطلب الموجه: دراسة تأثير Chain-of-Thought على توازن الاستكشاف والاستغلال
دراسة تأثيرات الحجم: البحث المنهجي عن أداء النماذج الأكبر حجمًا والمتغيرات المضبوطة بدقة
التخطيط متعدد الخطوات: التوسع إلى مهام قرار معقدة تتطلب استدلالاً متعدد الخطوات

التقييم المتعمق

المزايا

قوة الابتكار: أول إطار عمل لتقييم التفكير الاحتمالي في بيئة لغوية بحتة
أهمية الاكتشافات: الكشف عن العلاقة المعاكسة للحدس بين حجم النموذج وأداء القرار
دقة التجربة: 500 عملية تشغيل مستقلة تضمن موثوقية إحصائية للنتائج
شمولية الخطوط الأساسية: المقارنة المنهجية مع الخوارزميات الكلاسيكية توفر مرجعًا قيمًا
جودة قابلية الاستنساخ: توفير كود كامل وشرح تنفيذ مفصل

أوجه القصور

نقص التفسير النظري: التفسير الضعيف نسبيًا لآليات الأداء الاستثنائية لـ Qwen3-4B
قيود اختيار النموذج: نقص الاختبار على نماذج أكبر حجمًا
أحادية المهمة: التركيز فقط على مشكلة آلات القمار، القابلية للتعميم قيد الانتظار
عمق التحليل: نقص التحليل الآلي الأعمق لظاهرة "الإفراط في التفكير"

التأثير

القيمة الأكاديمية: توفير إطار عمل تقييم جديد لفهم قدرات التفكير الاحتمالي في نماذج اللغة الكبيرة
الأهمية العملية: توفير مرجع مهم لتطوير أنظمة قرار قائمة على اللغة
المساهمة المنهجية: قد يصبح معيار TextBandit أداة تقييم معيارية في هذا المجال
التأثير متعدد التخصصات: ربط معالجة اللغة الطبيعية ونظرية القرار وعلم الإدراك

السيناريوهات المعمول بها

التقييم التعليمي: تقييم قدرات اتخاذ القرار لأنظمة الذكاء الاصطناعي في السيناريوهات التعليمية
التفاعل بين الإنسان والآلة: تصميم أنظمة دعم قرار أكثر طبيعية
تخصيص الموارد: تحسين الموارد في بيئات تفتقر إلى بيانات دقيقة
ذكاء اللعبة: تطوير وكلاء لعبة ذكيين بناءً على ردود فعل لغوية

المراجع

تستشهد هذه الورقة بأعمال مهمة في مجالات التفكير الاحتمالي واتخاذ القرارات تحت عدم اليقين وآلات القمار متعددة الأذرع، بما في ذلك:

Xie et al. (2022): إطار عمل الاستدلال البايزي للتعلم السياقي
Gupta et al. (2025): قدرات تحديث المعتقدات البايزية في نماذج اللغة الكبيرة
Zhang et al. (2025): مقارنة استراتيجيات الاستكشاف والاستغلال بين نماذج اللغة الكبيرة والبشر
Felicioni et al. (2024): اتخاذ القرارات المتسلسلة مع الوعي بعدم اليقين

التقييم الشامل: هذه ورقة ذات قيمة ابتكارية مهمة، توفر منظورًا جديدًا لفهم قدرات التفكير الاحتمالي في نماذج اللغة الكبيرة من خلال معيار TextBandit. على الرغم من وجود بعض القيود، فإن اكتشافاتها المتعلقة بتأثيرات الحجم المعاكسة للحدس وقدرات التفكير الاحتمالي الناشئة من اللغة لها أهمية نظرية وعملية مهمة للمجال.