2025-11-13T17:28:10.587795

TextBandit: Evaluating Probabilistic Reasoning in LLMs Through Language-Only Decision Tasks

Lim, Damerla, Jiang et al.

Large language models (LLMs) have shown to be increasingly capable of performing reasoning tasks, but their ability to make sequential decisions under uncertainty only using natural language remains underexplored. We introduce a novel benchmark in which LLMs interact with multi-armed bandit environments using purely textual feedback, "you earned a token", without access to numerical cues or explicit probabilities, resulting in the model to infer latent reward structures purely off linguistic cues and to adapt accordingly. We evaluated the performance of four open-source LLMs and compare their performance to standard decision-making algorithms such as Thompson Sampling, Epsilon Greedy, Upper Confidence Bound (UCB), and random choice. While most of the LLMs underperformed compared to the baselines, Qwen3-4B, achieved the best-arm selection rate of 89.2% , which significantly outperformed both the larger LLMs and traditional methods. Our findings suggest that probabilistic reasoning is able to emerge from language alone, and we present this benchmark as a step towards evaluating decision-making capabilities in naturalistic, non-numeric contexts.

academic

TextBandit: भाषा-केवल निर्णय कार्यों के माध्यम से LLMs में संभाव्य तर्क का मूल्यांकन

मूल जानकारी

पेपर ID: 2510.13878
शीर्षक: TextBandit: भाषा-केवल निर्णय कार्यों के माध्यम से LLMs में संभाव्य तर्क का मूल्यांकन
लेखक: Jimin Lim (UC Merced), Arjun Damerla (UC Berkeley), Arthur Jiang (Algoverse), Nam Le (Algoverse)
वर्गीकरण: cs.CL (कम्प्यूटेशनल भाषाविज्ञान)
प्रकाशन तिथि: 13 अक्टूबर 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.13878

सारांश

बड़े भाषा मॉडल (LLMs) तर्क कार्यों में बढ़ती क्षमता प्रदर्शित करते हैं, लेकिन अनिश्चितता के तहत केवल प्राकृतिक भाषा का उपयोग करके अनुक्रमिक निर्णय लेने की उनकी क्षमता अभी तक पर्याप्त रूप से अन्वेषित नहीं की गई है। यह पेपर एक नई बेंचमार्क प्रस्तुत करता है जिसमें LLMs शुद्ध पाठ प्रतिक्रिया ("आपको एक टोकन मिला") के साथ बहु-भुजा डाकू वातावरण के साथ इंटरैक्ट करते हैं, संख्यात्मक संकेत या स्पष्ट संभावनाओं तक पहुंच के बिना, जिसके लिए मॉडल को विशुद्ध रूप से भाषा संकेतों के आधार पर अंतर्निहित पुरस्कार संरचना का अनुमान लगाना और तदनुसार समायोजन करना आवश्यक है। अनुसंधान चार ओपन-सोर्स LLMs के प्रदर्शन का मूल्यांकन करता है और Thompson नमूनाकरण, Epsilon लालची, ऊपरी आत्मविश्वास सीमा (UCB) और यादृच्छिक चयन जैसे मानक निर्णय एल्गोरिदम के साथ तुलना करता है। हालांकि अधिकांश LLMs बेसलाइन विधियों से कम प्रदर्शन करते हैं, Qwen3-4B ने सर्वश्रेष्ठ भुजा चयन दर में 89.2% हासिल किया, जो बड़े LLMs और पारंपरिक विधियों से काफी बेहतर है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

इस अनुसंधान द्वारा हल की जाने वाली मूल समस्या यह है: क्या बड़े भाषा मॉडल केवल प्राकृतिक भाषा प्रतिक्रिया के माध्यम से अनिश्चित वातावरण में प्रभावी संभाव्य तर्क और निर्णय निर्माण कर सकते हैं?

महत्व

सैद्धांतिक महत्व: यह अन्वेषण करता है कि क्या LLMs में अंतर्निहित बेयेसियन तर्क क्षमता है, जो AI प्रणालियों के संज्ञानात्मक तंत्र को समझने के लिए महत्वपूर्ण है
व्यावहारिक मूल्य: वास्तविक दुनिया में, कई निर्णय परिदृश्यों में सटीक संख्यात्मक डेटा की कमी होती है और केवल भाषा विवरण पर निर्भर होना पड़ता है
तकनीकी चुनौती: पारंपरिक अनिश्चितता निर्णय विधियां जटिल गणितीय गणना पर निर्भर करती हैं, जबकि भाषा-आधारित विधियां अधिक लचीले, अधिक सुलभ समाधान प्रदान कर सकती हैं

मौजूदा विधियों की सीमाएं

संख्यात्मक निर्भरता: पारंपरिक बेयेसियन तर्क और सुदृढ़ीकरण सीखने की विधियों को स्पष्ट संख्यात्मक इनपुट और संभाव्यता जानकारी की आवश्यकता होती है
मूल्यांकन की कमी: शुद्ध भाषा वातावरण में LLMs की संभाव्य तर्क क्षमता का मूल्यांकन करने के लिए विशेष बेंचमार्क की कमी है
जटिलता सीमा: मौजूदा अनुसंधान मुख्य रूप से सरल बाधित कार्यों पर केंद्रित है, बहु-चरणीय निर्णय परिदृश्यों का पर्याप्त रूप से अन्वेषण नहीं किया गया है

अनुसंधान प्रेरणा

लेखकों का मानना है कि यदि LLMs केवल भाषा प्रतिक्रिया के माध्यम से प्रभावी संभाव्य तर्क कर सकते हैं, तो यह प्राकृतिक, गैर-संख्यात्मक निर्णय निर्माण के लिए नई संभावनाएं खोलेगा, विशेष रूप से संरचित डेटा की कमी वाले वास्तविक अनुप्रयोग परिदृश्यों में।

मूल योगदान

TextBandit बेंचमार्क प्रस्तुत करना: शुद्ध भाषा वातावरण में LLMs की संभाव्य तर्क क्षमता का मूल्यांकन करने के लिए पहला विशेष बेंचमार्क, बहु-भुजा डाकू ढांचे का उपयोग करते हुए
प्रतिकूल पैमाने प्रभाव की खोज: मॉडल आकार और निर्णय प्रदर्शन के बीच नकारात्मक संबंध को साबित करता है, छोटा Qwen3-4B बड़े मॉडल से काफी बेहतर है
भाषा से उत्पन्न संभाव्य तर्क प्रदर्शित करना: साबित करता है कि संभाव्य तर्क क्षमता शुद्ध भाषा इंटरैक्शन से उत्पन्न हो सकती है, संख्यात्मक संकेत की आवश्यकता के बिना
व्यापक तुलनात्मक विश्लेषण प्रदान करना: LLMs की शास्त्रीय निर्णय एल्गोरिदम के साथ व्यवस्थित तुलना, विभिन्न विधियों के फायदे और नुकसान को समझने के लिए महत्वपूर्ण अंतर्दृष्टि प्रदान करता है

विधि विवरण

कार्य परिभाषा

इनपुट: ऐतिहासिक चयन और परिणामों का प्राकृतिक भाषा विवरण (जैसे "स्लॉट मशीन 1 जीता", "स्लॉट मशीन 2 हारा") आउटपुट: अगले दौर के लिए भुजा चयन (संख्यात्मक ID, जैसे "1" या "2") बाधाएं: कोई संख्यात्मक संकेत नहीं, कोई स्पष्ट संभावना नहीं, कोई मध्यवर्ती तर्क प्रक्रिया नहीं

प्रयोगात्मक आर्किटेक्चर

बहु-भुजा डाकू वातावरण

भुजा संख्या: 2-5 भुजाएं, प्रत्येक भुजा में निश्चित लेकिन अज्ञात सफलता संभावना है
पुरस्कार संरचना: द्विभुजा कॉन्फ़िगरेशन में, एक भुजा 65% सफलता दर, दूसरी 30% सफलता दर
प्रतिक्रिया तंत्र:
- सफलता: "आपको एक टोकन मिला" (पुरस्कार=1)
- विफलता: "आपको कोई टोकन नहीं मिला" (पुरस्कार=0)

प्रॉम्प्ट प्रोटोकॉल

प्रत्येक LLM के लिए सुसंगत प्रॉम्प्ट संरचना का उपयोग किया जाता है:

कार्य विवरण: निर्णय संदर्भ में कार्य को रखने के लिए प्राकृतिक भाषा निर्देश
ऐतिहासिक रिकॉर्ड: सभी पूर्व चयन और परिणामों का शुद्ध भाषा विवरण
कार्रवाई अनुरोध: मॉडल को संबंधित भुजा के लिए संख्यात्मक आउटपुट करने के लिए कहना

मूल्यांकन मॉडल

अनुसंधान विभिन्न आर्किटेक्चर और पैरामीटर आकार वाले चार ओपन-सोर्स LLMs का चयन करता है:

मॉडल	पैरामीटर	आर्किटेक्चर	विशेषताएं
Qwen3-4B	4B	केवल डिकोडर Transformer	बहुभाषी समर्थन, मजबूत तर्क क्षमता
Qwen3-8B	8B	केवल डिकोडर Transformer	Qwen3-4B का बड़ा संस्करण, उन्नत उपकरण उपयोग क्षमता
Llama-3.1-8B	8B	केवल डिकोडर Transformer	निर्देश पालन और बहुभाषी क्षमता अनुकूलित
Phi-2	2.7B	Transformer	छोटा, कुशल मॉडल

बेसलाइन विधियां

चार शास्त्रीय बहु-भुजा डाकू एल्गोरिदम की तुलना की गई:

Thompson नमूनाकरण: संभाव्यता वितरण से नमूना लेने के लिए बेयेसियन तर्क का उपयोग करता है
ऊपरी आत्मविश्वास सीमा (UCB): शोषण और अन्वेषण को संतुलित करने वाली निर्धारक रणनीति
Epsilon लालची: 1-ε संभावना के साथ सर्वश्रेष्ठ कार्रवाई चुनता है, अन्यथा यादृच्छिक चयन
यादृच्छिक चयन: पूरी तरह से यादृच्छिक बेसलाइन विधि

प्रयोगात्मक सेटअप

प्रयोगात्मक कॉन्फ़िगरेशन

परीक्षण संख्या: प्रत्येक मॉडल के लिए 500 स्वतंत्र रन
निर्णय दौर: प्रत्येक रन में 25 दौर निर्णय
भुजा कॉन्फ़िगरेशन: 2-5 भुजाओं के विभिन्न कॉन्फ़िगरेशन का परीक्षण
मूल्यांकन वातावरण: RunPod द्वारा होस्ट किए गए GPU उदाहरण, Hugging Face Transformers लाइब्रेरी पर आधारित

मूल्यांकन मेट्रिक्स

संचयी पुरस्कार: 25 दौर निर्णय में प्राप्त कुल टोकन संख्या
सर्वश्रेष्ठ भुजा चयन दर: सर्वोत्तम भुजा (65% सफलता दर) चुनने की आवृत्ति प्रतिशत
संचयी खेद: सर्वश्रेष्ठ भुजा न चुनने की अवसर लागत

प्रयोगात्मक नियंत्रण

स्पष्ट आउटपुट के लिए Chain-of-Thought तर्क को हटाया गया
समान प्रॉम्प्ट प्रारूप और संरचना का उपयोग किया
प्रत्येक चरण निर्णय एकल समापन के साथ, कोई मध्यवर्ती तर्क नहीं

प्रयोगात्मक परिणाम

मुख्य परिणाम

सर्वश्रेष्ठ भुजा चयन दर तुलना

मॉडल/एल्गोरिदम	सर्वश्रेष्ठ भुजा चयन दर	संचयी पुरस्कार
Qwen3-4B	89.2%	11,150
Thompson नमूनाकरण	51.1%	8,297
UCB	47.6%	4,696
Epsilon लालची	38.1%	6,029
Qwen3-8B	37.5%	4,686
यादृच्छिक चयन	31.8%	5,783
Llama-3.1-8B	31.6%	3,946
Phi-2	25.4%	3,181

मुख्य निष्कर्ष

1. प्रतिकूल पैमाने प्रभाव

Qwen3-4B (4B पैरामीटर) Qwen3-8B (8B पैरामीटर) से काफी बेहतर है
बड़े मॉडल "अत्यधिक सोचने" की प्रवृत्ति रखते हैं, जिससे निर्णय प्रदर्शन में गिरावट आती है
सबसे छोटा मॉडल Phi-2 (2.7B) सबसे खराब प्रदर्शन करता है, जो एक इष्टतम आकार श्रेणी के अस्तित्व को दर्शाता है

2. भुजा संख्या का प्रदर्शन पर प्रभाव

भुजा संख्या बढ़ने के साथ, सभी मॉडल का प्रदर्शन काफी गिरता है:

Llama-3.1-8B: 31.56% (2 भुजा) से 7.37% (5 भुजा) तक गिरावट
Qwen3-4B: 89.22% (2 भुजा) से 6.53% (5 भुजा) तक गिरावट
Phi-2: 25.45% (2 भुजा) से 17.78% (5 भुजा) तक गिरावट
Qwen3-8B: 37.49% (2 भुजा) से 17.09% (5 भुजा) तक गिरावट

3. संचयी खेद विश्लेषण

Qwen3-4B 2-भुजा कॉन्फ़िगरेशन में तेजी से खेद में कमी प्रदर्शित करता है
बड़े मॉडल सभी कॉन्फ़िगरेशन में उच्च संचयी खेद बनाए रखते हैं
4-भुजा कॉन्फ़िगरेशन अप्रत्याशित रूप से सभी मॉडलों में सबसे कम संचयी खेद उत्पन्न करता है

गुणात्मक विश्लेषण

अन्वेषण-शोषण रणनीति: LLMs Thompson नमूनाकरण के समान व्यवहार पैटर्न प्रदर्शित करते हैं
प्रारंभिक कठोरता: मॉडल सीमित प्रतिक्रिया के आधार पर "इष्टतम" चयन को जल्दी निर्धारित करने की प्रवृत्ति रखते हैं
तर्क ओवरहेड: Qwen3-8B निरंतर तर्क प्रयास के कारण असामान्य रूप से लंबा समय लेता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

संभाव्य तर्क का भाषा उद्भव: साबित करता है कि केवल भाषा प्रतिक्रिया के आधार पर प्रभावी संभाव्य तर्क क्षमता उत्पन्न हो सकती है
आकार और प्रदर्शन का जटिल संबंध: मॉडल आकार हमेशा निर्णय प्रदर्शन के साथ सकारात्मक रूप से संबंधित नहीं होता है
आर्किटेक्चर अनुकूलन का महत्व: हल्के, कुशल मॉडल आर्किटेक्चर तेजी प्रतिक्रिया वातावरण में अधिक लाभकारी हो सकते हैं

सीमाएं

मॉडल श्रेणी सीमा: केवल 2.7B-8B पैरामीटर के ओपन-सोर्स मॉडल का परीक्षण किया गया, बड़े पैमाने के मॉडल शामिल नहीं हैं
कार्य जटिलता: स्थिर, सरल पुरस्कार संरचना, गैर-स्थिर वातावरण या विलंबित प्रतिक्रिया शामिल नहीं है
प्रॉम्प्ट रणनीति: Chain-of-Thought से बचना LLMs की वास्तविक क्षमता को कम आंक सकता है
कम्प्यूटेशनल संसाधन सीमा: GPT-4 जैसे बड़े वाणिज्यिक मॉडल का परीक्षण नहीं किया जा सका

भविष्य की दिशाएं

गतिशील वातावरण परीक्षण: गैर-स्थिर या विलंबित पुरस्कार डाकू वातावरण में मूल्यांकन
निर्देशित प्रॉम्प्टिंग: अन्वेषण-शोषण संतुलन पर Chain-of-Thought के प्रभाव का अध्ययन करने के लिए
पैमाने प्रभाव अनुसंधान: बड़े पैमाने के मॉडल और सूक्ष्म-ट्यून किए गए वेरिएंट के प्रदर्शन का व्यवस्थित अध्ययन
बहु-चरणीय योजना: जटिल निर्णय कार्यों के लिए विस्तार जिनमें बहु-चरणीय तर्क की आवश्यकता होती है

गहन मूल्यांकन

शक्तियां

मजबूत नवीनता: शुद्ध भाषा वातावरण में संभाव्य तर्क मूल्यांकन ढांचा पहली बार प्रस्तुत करता है
महत्वपूर्ण खोजें: मॉडल आकार और निर्णय प्रदर्शन के बीच प्रतिकूल संबंध को उजागर करता है
कठोर प्रयोग: 500 स्वतंत्र रन परिणामों की सांख्यिकीय विश्वसनीयता सुनिश्चित करते हैं
व्यापक बेसलाइन: शास्त्रीय एल्गोरिदम के साथ व्यवस्थित तुलना मूल्यवान संदर्भ प्रदान करती है
अच्छी पुनरुत्पादनीयता: पूर्ण कोड और विस्तृत कार्यान्वयन विवरण प्रदान करता है

कमियां

अपर्याप्त सैद्धांतिक व्याख्या: Qwen3-4B के उत्कृष्ट प्रदर्शन के तंत्र की व्याख्या कमजोर है
मॉडल चयन सीमा: बड़े पैमाने के मॉडल के परीक्षण की कमी
कार्य एकरूपता: केवल डाकू समस्या पर केंद्रित, सामान्यीकरण क्षमता सत्यापन की आवश्यकता है
विश्लेषण गहराई: "अत्यधिक सोचने" की घटना के तंत्र विश्लेषण में कमी

प्रभाव

शैक्षणिक मूल्य: LLMs की संभाव्य तर्क क्षमता को समझने के लिए नया मूल्यांकन ढांचा प्रदान करता है
व्यावहारिक महत्व: भाषा-आधारित निर्णय प्रणालियों के विकास के लिए महत्वपूर्ण संदर्भ
पद्धति योगदान: TextBandit बेंचमार्क इस क्षेत्र का मानक मूल्यांकन उपकरण बन सकता है
अंतः-अनुशासनात्मक प्रभाव: प्राकृतिक भाषा प्रसंस्करण, निर्णय सिद्धांत और संज्ञानात्मक विज्ञान को जोड़ता है

लागू परिदृश्य

शैक्षणिक मूल्यांकन: शैक्षणिक परिदृश्यों में AI प्रणालियों की निर्णय क्षमता का मूल्यांकन
मानव-कंप्यूटर इंटरैक्शन: अधिक प्राकृतिक निर्णय समर्थन प्रणालियों का डिजाइन
संसाधन आवंटन: सटीक डेटा की कमी वाले वातावरण में संसाधन अनुकूलन
गेम AI: भाषा प्रतिक्रिया के आधार पर गेम बुद्धिमान एजेंट विकास

संदर्भ

यह पेपर संभाव्य तर्क, अनिश्चितता निर्णय और बहु-भुजा डाकू क्षेत्र के महत्वपूर्ण कार्यों का हवाला देता है, जिसमें शामिल हैं:

Xie et al. (2022): संदर्भ सीखने की बेयेसियन तर्क ढांचा
Gupta et al. (2025): LLMs की बेयेसियन विश्वास अद्यतन क्षमता
Zhang et al. (2025): LLMs और मनुष्यों की अन्वेषण-शोषण रणनीति तुलना
Felicioni et al. (2024): अनिश्चितता-जागरूक अनुक्रमिक निर्णय निर्माण

समग्र मूल्यांकन: यह महत्वपूर्ण नवीन मूल्य वाला एक पेपर है जो TextBandit बेंचमार्क के माध्यम से LLMs की संभाव्य तर्क क्षमता को समझने के लिए नया दृष्टिकोण प्रदान करता है। हालांकि कुछ सीमाएं हैं, लेकिन इसकी खोजें - विशेष रूप से प्रतिकूल पैमाने प्रभाव और भाषा से उत्पन्न संभाव्य तर्क क्षमता - इस क्षेत्र के लिए महत्वपूर्ण सैद्धांतिक और व्यावहारिक महत्व रखती हैं।