Large language models (LLMs) have shown to be increasingly capable of performing reasoning tasks, but their ability to make sequential decisions under uncertainty only using natural language remains underexplored. We introduce a novel benchmark in which LLMs interact with multi-armed bandit environments using purely textual feedback, "you earned a token", without access to numerical cues or explicit probabilities, resulting in the model to infer latent reward structures purely off linguistic cues and to adapt accordingly. We evaluated the performance of four open-source LLMs and compare their performance to standard decision-making algorithms such as Thompson Sampling, Epsilon Greedy, Upper Confidence Bound (UCB), and random choice. While most of the LLMs underperformed compared to the baselines, Qwen3-4B, achieved the best-arm selection rate of 89.2% , which significantly outperformed both the larger LLMs and traditional methods. Our findings suggest that probabilistic reasoning is able to emerge from language alone, and we present this benchmark as a step towards evaluating decision-making capabilities in naturalistic, non-numeric contexts.
TextBandit: भाषा-केवल निर्णय कार्यों के माध्यम से LLMs में संभाव्य तर्क का मूल्यांकन
- पेपर ID: 2510.13878
- शीर्षक: TextBandit: भाषा-केवल निर्णय कार्यों के माध्यम से LLMs में संभाव्य तर्क का मूल्यांकन
- लेखक: Jimin Lim (UC Merced), Arjun Damerla (UC Berkeley), Arthur Jiang (Algoverse), Nam Le (Algoverse)
- वर्गीकरण: cs.CL (कम्प्यूटेशनल भाषाविज्ञान)
- प्रकाशन तिथि: 13 अक्टूबर 2025 (arXiv प्रीप्रिंट)
- पेपर लिंक: https://arxiv.org/abs/2510.13878
बड़े भाषा मॉडल (LLMs) तर्क कार्यों में बढ़ती क्षमता प्रदर्शित करते हैं, लेकिन अनिश्चितता के तहत केवल प्राकृतिक भाषा का उपयोग करके अनुक्रमिक निर्णय लेने की उनकी क्षमता अभी तक पर्याप्त रूप से अन्वेषित नहीं की गई है। यह पेपर एक नई बेंचमार्क प्रस्तुत करता है जिसमें LLMs शुद्ध पाठ प्रतिक्रिया ("आपको एक टोकन मिला") के साथ बहु-भुजा डाकू वातावरण के साथ इंटरैक्ट करते हैं, संख्यात्मक संकेत या स्पष्ट संभावनाओं तक पहुंच के बिना, जिसके लिए मॉडल को विशुद्ध रूप से भाषा संकेतों के आधार पर अंतर्निहित पुरस्कार संरचना का अनुमान लगाना और तदनुसार समायोजन करना आवश्यक है। अनुसंधान चार ओपन-सोर्स LLMs के प्रदर्शन का मूल्यांकन करता है और Thompson नमूनाकरण, Epsilon लालची, ऊपरी आत्मविश्वास सीमा (UCB) और यादृच्छिक चयन जैसे मानक निर्णय एल्गोरिदम के साथ तुलना करता है। हालांकि अधिकांश LLMs बेसलाइन विधियों से कम प्रदर्शन करते हैं, Qwen3-4B ने सर्वश्रेष्ठ भुजा चयन दर में 89.2% हासिल किया, जो बड़े LLMs और पारंपरिक विधियों से काफी बेहतर है।
इस अनुसंधान द्वारा हल की जाने वाली मूल समस्या यह है: क्या बड़े भाषा मॉडल केवल प्राकृतिक भाषा प्रतिक्रिया के माध्यम से अनिश्चित वातावरण में प्रभावी संभाव्य तर्क और निर्णय निर्माण कर सकते हैं?
- सैद्धांतिक महत्व: यह अन्वेषण करता है कि क्या LLMs में अंतर्निहित बेयेसियन तर्क क्षमता है, जो AI प्रणालियों के संज्ञानात्मक तंत्र को समझने के लिए महत्वपूर्ण है
- व्यावहारिक मूल्य: वास्तविक दुनिया में, कई निर्णय परिदृश्यों में सटीक संख्यात्मक डेटा की कमी होती है और केवल भाषा विवरण पर निर्भर होना पड़ता है
- तकनीकी चुनौती: पारंपरिक अनिश्चितता निर्णय विधियां जटिल गणितीय गणना पर निर्भर करती हैं, जबकि भाषा-आधारित विधियां अधिक लचीले, अधिक सुलभ समाधान प्रदान कर सकती हैं
- संख्यात्मक निर्भरता: पारंपरिक बेयेसियन तर्क और सुदृढ़ीकरण सीखने की विधियों को स्पष्ट संख्यात्मक इनपुट और संभाव्यता जानकारी की आवश्यकता होती है
- मूल्यांकन की कमी: शुद्ध भाषा वातावरण में LLMs की संभाव्य तर्क क्षमता का मूल्यांकन करने के लिए विशेष बेंचमार्क की कमी है
- जटिलता सीमा: मौजूदा अनुसंधान मुख्य रूप से सरल बाधित कार्यों पर केंद्रित है, बहु-चरणीय निर्णय परिदृश्यों का पर्याप्त रूप से अन्वेषण नहीं किया गया है
लेखकों का मानना है कि यदि LLMs केवल भाषा प्रतिक्रिया के माध्यम से प्रभावी संभाव्य तर्क कर सकते हैं, तो यह प्राकृतिक, गैर-संख्यात्मक निर्णय निर्माण के लिए नई संभावनाएं खोलेगा, विशेष रूप से संरचित डेटा की कमी वाले वास्तविक अनुप्रयोग परिदृश्यों में।
- TextBandit बेंचमार्क प्रस्तुत करना: शुद्ध भाषा वातावरण में LLMs की संभाव्य तर्क क्षमता का मूल्यांकन करने के लिए पहला विशेष बेंचमार्क, बहु-भुजा डाकू ढांचे का उपयोग करते हुए
- प्रतिकूल पैमाने प्रभाव की खोज: मॉडल आकार और निर्णय प्रदर्शन के बीच नकारात्मक संबंध को साबित करता है, छोटा Qwen3-4B बड़े मॉडल से काफी बेहतर है
- भाषा से उत्पन्न संभाव्य तर्क प्रदर्शित करना: साबित करता है कि संभाव्य तर्क क्षमता शुद्ध भाषा इंटरैक्शन से उत्पन्न हो सकती है, संख्यात्मक संकेत की आवश्यकता के बिना
- व्यापक तुलनात्मक विश्लेषण प्रदान करना: LLMs की शास्त्रीय निर्णय एल्गोरिदम के साथ व्यवस्थित तुलना, विभिन्न विधियों के फायदे और नुकसान को समझने के लिए महत्वपूर्ण अंतर्दृष्टि प्रदान करता है
इनपुट: ऐतिहासिक चयन और परिणामों का प्राकृतिक भाषा विवरण (जैसे "स्लॉट मशीन 1 जीता", "स्लॉट मशीन 2 हारा")
आउटपुट: अगले दौर के लिए भुजा चयन (संख्यात्मक ID, जैसे "1" या "2")
बाधाएं: कोई संख्यात्मक संकेत नहीं, कोई स्पष्ट संभावना नहीं, कोई मध्यवर्ती तर्क प्रक्रिया नहीं
- भुजा संख्या: 2-5 भुजाएं, प्रत्येक भुजा में निश्चित लेकिन अज्ञात सफलता संभावना है
- पुरस्कार संरचना: द्विभुजा कॉन्फ़िगरेशन में, एक भुजा 65% सफलता दर, दूसरी 30% सफलता दर
- प्रतिक्रिया तंत्र:
- सफलता: "आपको एक टोकन मिला" (पुरस्कार=1)
- विफलता: "आपको कोई टोकन नहीं मिला" (पुरस्कार=0)
प्रत्येक LLM के लिए सुसंगत प्रॉम्प्ट संरचना का उपयोग किया जाता है:
- कार्य विवरण: निर्णय संदर्भ में कार्य को रखने के लिए प्राकृतिक भाषा निर्देश
- ऐतिहासिक रिकॉर्ड: सभी पूर्व चयन और परिणामों का शुद्ध भाषा विवरण
- कार्रवाई अनुरोध: मॉडल को संबंधित भुजा के लिए संख्यात्मक आउटपुट करने के लिए कहना
अनुसंधान विभिन्न आर्किटेक्चर और पैरामीटर आकार वाले चार ओपन-सोर्स LLMs का चयन करता है:
| मॉडल | पैरामीटर | आर्किटेक्चर | विशेषताएं |
|---|
| Qwen3-4B | 4B | केवल डिकोडर Transformer | बहुभाषी समर्थन, मजबूत तर्क क्षमता |
| Qwen3-8B | 8B | केवल डिकोडर Transformer | Qwen3-4B का बड़ा संस्करण, उन्नत उपकरण उपयोग क्षमता |
| Llama-3.1-8B | 8B | केवल डिकोडर Transformer | निर्देश पालन और बहुभाषी क्षमता अनुकूलित |
| Phi-2 | 2.7B | Transformer | छोटा, कुशल मॉडल |
चार शास्त्रीय बहु-भुजा डाकू एल्गोरिदम की तुलना की गई:
- Thompson नमूनाकरण: संभाव्यता वितरण से नमूना लेने के लिए बेयेसियन तर्क का उपयोग करता है
- ऊपरी आत्मविश्वास सीमा (UCB): शोषण और अन्वेषण को संतुलित करने वाली निर्धारक रणनीति
- Epsilon लालची: 1-ε संभावना के साथ सर्वश्रेष्ठ कार्रवाई चुनता है, अन्यथा यादृच्छिक चयन
- यादृच्छिक चयन: पूरी तरह से यादृच्छिक बेसलाइन विधि
- परीक्षण संख्या: प्रत्येक मॉडल के लिए 500 स्वतंत्र रन
- निर्णय दौर: प्रत्येक रन में 25 दौर निर्णय
- भुजा कॉन्फ़िगरेशन: 2-5 भुजाओं के विभिन्न कॉन्फ़िगरेशन का परीक्षण
- मूल्यांकन वातावरण: RunPod द्वारा होस्ट किए गए GPU उदाहरण, Hugging Face Transformers लाइब्रेरी पर आधारित
- संचयी पुरस्कार: 25 दौर निर्णय में प्राप्त कुल टोकन संख्या
- सर्वश्रेष्ठ भुजा चयन दर: सर्वोत्तम भुजा (65% सफलता दर) चुनने की आवृत्ति प्रतिशत
- संचयी खेद: सर्वश्रेष्ठ भुजा न चुनने की अवसर लागत
- स्पष्ट आउटपुट के लिए Chain-of-Thought तर्क को हटाया गया
- समान प्रॉम्प्ट प्रारूप और संरचना का उपयोग किया
- प्रत्येक चरण निर्णय एकल समापन के साथ, कोई मध्यवर्ती तर्क नहीं
| मॉडल/एल्गोरिदम | सर्वश्रेष्ठ भुजा चयन दर | संचयी पुरस्कार |
|---|
| Qwen3-4B | 89.2% | 11,150 |
| Thompson नमूनाकरण | 51.1% | 8,297 |
| UCB | 47.6% | 4,696 |
| Epsilon लालची | 38.1% | 6,029 |
| Qwen3-8B | 37.5% | 4,686 |
| यादृच्छिक चयन | 31.8% | 5,783 |
| Llama-3.1-8B | 31.6% | 3,946 |
| Phi-2 | 25.4% | 3,181 |
- Qwen3-4B (4B पैरामीटर) Qwen3-8B (8B पैरामीटर) से काफी बेहतर है
- बड़े मॉडल "अत्यधिक सोचने" की प्रवृत्ति रखते हैं, जिससे निर्णय प्रदर्शन में गिरावट आती है
- सबसे छोटा मॉडल Phi-2 (2.7B) सबसे खराब प्रदर्शन करता है, जो एक इष्टतम आकार श्रेणी के अस्तित्व को दर्शाता है
भुजा संख्या बढ़ने के साथ, सभी मॉडल का प्रदर्शन काफी गिरता है:
- Llama-3.1-8B: 31.56% (2 भुजा) से 7.37% (5 भुजा) तक गिरावट
- Qwen3-4B: 89.22% (2 भुजा) से 6.53% (5 भुजा) तक गिरावट
- Phi-2: 25.45% (2 भुजा) से 17.78% (5 भुजा) तक गिरावट
- Qwen3-8B: 37.49% (2 भुजा) से 17.09% (5 भुजा) तक गिरावट
- Qwen3-4B 2-भुजा कॉन्फ़िगरेशन में तेजी से खेद में कमी प्रदर्शित करता है
- बड़े मॉडल सभी कॉन्फ़िगरेशन में उच्च संचयी खेद बनाए रखते हैं
- 4-भुजा कॉन्फ़िगरेशन अप्रत्याशित रूप से सभी मॉडलों में सबसे कम संचयी खेद उत्पन्न करता है
- अन्वेषण-शोषण रणनीति: LLMs Thompson नमूनाकरण के समान व्यवहार पैटर्न प्रदर्शित करते हैं
- प्रारंभिक कठोरता: मॉडल सीमित प्रतिक्रिया के आधार पर "इष्टतम" चयन को जल्दी निर्धारित करने की प्रवृत्ति रखते हैं
- तर्क ओवरहेड: Qwen3-8B निरंतर तर्क प्रयास के कारण असामान्य रूप से लंबा समय लेता है
- Xie et al. (2022): संदर्भ सीखने को निहित बेयेसियन तर्क के रूप में ढांचा
- Gupta et al. (2025): साबित करता है कि LLMs बेयेसियन पश्च अद्यतन के अनुरूप विश्वास अद्यतन कर सकते हैं
- Sun et al. (2025): शास्त्रीय डाकू रणनीति और LLM पुरस्कार भविष्यवाणी को जोड़ने वाली हाइब्रिड विधि प्रस्तावित करता है
- Felicioni et al. (2024): अनुक्रमिक निर्णय में स्पष्ट रूप से महामारी संबंधी अनिश्चितता पर विचार करने के लाभों की खोज
- अनुसंधान से पता चलता है कि अनिश्चितता मॉडल व्यवहार को निर्देशित करने के लिए एक मूल्यवान संकेत हो सकती है
- Zhang et al. (2025): बहु-भुजा डाकू में LLMs और मनुष्यों की अन्वेषण-शोषण रणनीति की तुलना
- पाता है कि Chain-of-Thought तर्क क्षमता को काफी बढ़ाता है, LLM व्यवहार को मानव विधियों के करीब लाता है
- संभाव्य तर्क का भाषा उद्भव: साबित करता है कि केवल भाषा प्रतिक्रिया के आधार पर प्रभावी संभाव्य तर्क क्षमता उत्पन्न हो सकती है
- आकार और प्रदर्शन का जटिल संबंध: मॉडल आकार हमेशा निर्णय प्रदर्शन के साथ सकारात्मक रूप से संबंधित नहीं होता है
- आर्किटेक्चर अनुकूलन का महत्व: हल्के, कुशल मॉडल आर्किटेक्चर तेजी प्रतिक्रिया वातावरण में अधिक लाभकारी हो सकते हैं
- मॉडल श्रेणी सीमा: केवल 2.7B-8B पैरामीटर के ओपन-सोर्स मॉडल का परीक्षण किया गया, बड़े पैमाने के मॉडल शामिल नहीं हैं
- कार्य जटिलता: स्थिर, सरल पुरस्कार संरचना, गैर-स्थिर वातावरण या विलंबित प्रतिक्रिया शामिल नहीं है
- प्रॉम्प्ट रणनीति: Chain-of-Thought से बचना LLMs की वास्तविक क्षमता को कम आंक सकता है
- कम्प्यूटेशनल संसाधन सीमा: GPT-4 जैसे बड़े वाणिज्यिक मॉडल का परीक्षण नहीं किया जा सका
- गतिशील वातावरण परीक्षण: गैर-स्थिर या विलंबित पुरस्कार डाकू वातावरण में मूल्यांकन
- निर्देशित प्रॉम्प्टिंग: अन्वेषण-शोषण संतुलन पर Chain-of-Thought के प्रभाव का अध्ययन करने के लिए
- पैमाने प्रभाव अनुसंधान: बड़े पैमाने के मॉडल और सूक्ष्म-ट्यून किए गए वेरिएंट के प्रदर्शन का व्यवस्थित अध्ययन
- बहु-चरणीय योजना: जटिल निर्णय कार्यों के लिए विस्तार जिनमें बहु-चरणीय तर्क की आवश्यकता होती है
- मजबूत नवीनता: शुद्ध भाषा वातावरण में संभाव्य तर्क मूल्यांकन ढांचा पहली बार प्रस्तुत करता है
- महत्वपूर्ण खोजें: मॉडल आकार और निर्णय प्रदर्शन के बीच प्रतिकूल संबंध को उजागर करता है
- कठोर प्रयोग: 500 स्वतंत्र रन परिणामों की सांख्यिकीय विश्वसनीयता सुनिश्चित करते हैं
- व्यापक बेसलाइन: शास्त्रीय एल्गोरिदम के साथ व्यवस्थित तुलना मूल्यवान संदर्भ प्रदान करती है
- अच्छी पुनरुत्पादनीयता: पूर्ण कोड और विस्तृत कार्यान्वयन विवरण प्रदान करता है
- अपर्याप्त सैद्धांतिक व्याख्या: Qwen3-4B के उत्कृष्ट प्रदर्शन के तंत्र की व्याख्या कमजोर है
- मॉडल चयन सीमा: बड़े पैमाने के मॉडल के परीक्षण की कमी
- कार्य एकरूपता: केवल डाकू समस्या पर केंद्रित, सामान्यीकरण क्षमता सत्यापन की आवश्यकता है
- विश्लेषण गहराई: "अत्यधिक सोचने" की घटना के तंत्र विश्लेषण में कमी
- शैक्षणिक मूल्य: LLMs की संभाव्य तर्क क्षमता को समझने के लिए नया मूल्यांकन ढांचा प्रदान करता है
- व्यावहारिक महत्व: भाषा-आधारित निर्णय प्रणालियों के विकास के लिए महत्वपूर्ण संदर्भ
- पद्धति योगदान: TextBandit बेंचमार्क इस क्षेत्र का मानक मूल्यांकन उपकरण बन सकता है
- अंतः-अनुशासनात्मक प्रभाव: प्राकृतिक भाषा प्रसंस्करण, निर्णय सिद्धांत और संज्ञानात्मक विज्ञान को जोड़ता है
- शैक्षणिक मूल्यांकन: शैक्षणिक परिदृश्यों में AI प्रणालियों की निर्णय क्षमता का मूल्यांकन
- मानव-कंप्यूटर इंटरैक्शन: अधिक प्राकृतिक निर्णय समर्थन प्रणालियों का डिजाइन
- संसाधन आवंटन: सटीक डेटा की कमी वाले वातावरण में संसाधन अनुकूलन
- गेम AI: भाषा प्रतिक्रिया के आधार पर गेम बुद्धिमान एजेंट विकास
यह पेपर संभाव्य तर्क, अनिश्चितता निर्णय और बहु-भुजा डाकू क्षेत्र के महत्वपूर्ण कार्यों का हवाला देता है, जिसमें शामिल हैं:
- Xie et al. (2022): संदर्भ सीखने की बेयेसियन तर्क ढांचा
- Gupta et al. (2025): LLMs की बेयेसियन विश्वास अद्यतन क्षमता
- Zhang et al. (2025): LLMs और मनुष्यों की अन्वेषण-शोषण रणनीति तुलना
- Felicioni et al. (2024): अनिश्चितता-जागरूक अनुक्रमिक निर्णय निर्माण
समग्र मूल्यांकन: यह महत्वपूर्ण नवीन मूल्य वाला एक पेपर है जो TextBandit बेंचमार्क के माध्यम से LLMs की संभाव्य तर्क क्षमता को समझने के लिए नया दृष्टिकोण प्रदान करता है। हालांकि कुछ सीमाएं हैं, लेकिन इसकी खोजें - विशेष रूप से प्रतिकूल पैमाने प्रभाव और भाषा से उत्पन्न संभाव्य तर्क क्षमता - इस क्षेत्र के लिए महत्वपूर्ण सैद्धांतिक और व्यावहारिक महत्व रखती हैं।