2025-11-13T17:28:10.587795

TextBandit: Evaluating Probabilistic Reasoning in LLMs Through Language-Only Decision Tasks

Lim, Damerla, Jiang et al.

Large language models (LLMs) have shown to be increasingly capable of performing reasoning tasks, but their ability to make sequential decisions under uncertainty only using natural language remains underexplored. We introduce a novel benchmark in which LLMs interact with multi-armed bandit environments using purely textual feedback, "you earned a token", without access to numerical cues or explicit probabilities, resulting in the model to infer latent reward structures purely off linguistic cues and to adapt accordingly. We evaluated the performance of four open-source LLMs and compare their performance to standard decision-making algorithms such as Thompson Sampling, Epsilon Greedy, Upper Confidence Bound (UCB), and random choice. While most of the LLMs underperformed compared to the baselines, Qwen3-4B, achieved the best-arm selection rate of 89.2% , which significantly outperformed both the larger LLMs and traditional methods. Our findings suggest that probabilistic reasoning is able to emerge from language alone, and we present this benchmark as a step towards evaluating decision-making capabilities in naturalistic, non-numeric contexts.

academic

TextBandit : Évaluation du Raisonnement Probabiliste dans les LLMs par des Tâches de Décision en Langage Naturel

Informations Fondamentales

ID de l'article : 2510.13878
Titre : TextBandit: Evaluating Probabilistic Reasoning in LLMs Through Language-Only Decision Tasks
Auteurs : Jimin Lim (UC Merced), Arjun Damerla (UC Berkeley), Arthur Jiang (Algoverse), Nam Le (Algoverse)
Classification : cs.CL (Linguistique Computationnelle)
Date de publication : 13 octobre 2025 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2510.13878

Résumé

Les grands modèles de langage (LLMs) démontrent des capacités croissantes dans les tâches de raisonnement, mais leur capacité à prendre des décisions séquentielles sous incertitude en utilisant uniquement le langage naturel reste insuffisamment explorée. Cet article introduit un nouveau benchmark où les LLMs interagissent avec un environnement de machines à sous multi-bras en utilisant exclusivement des retours textuels (« vous avez obtenu un jeton »), sans accès à des indices numériques ou à des probabilités explicites. Le modèle doit déduire la structure de récompense sous-jacente basée uniquement sur des indices linguistiques et adapter son comportement en conséquence. L'étude évalue les performances de quatre LLMs open-source et les compare avec des algorithmes de décision standards tels que l'échantillonnage de Thompson, l'epsilon-greedy, la limite de confiance supérieure (UCB) et la sélection aléatoire. Bien que la plupart des LLMs se comportent moins bien que les méthodes de base, Qwen3-4B atteint un taux de sélection du meilleur bras de 89,2%, surpassant significativement les LLMs plus grands et les méthodes traditionnelles.

Contexte et Motivation de la Recherche

Définition du Problème

La question centrale que cette recherche aborde est : les grands modèles de langage peuvent-ils effectuer un raisonnement probabiliste efficace et une prise de décision dans des environnements incertains en utilisant uniquement des retours en langage naturel ?

Importance

Signification théorique : Explorer si les LLMs possèdent des capacités intrinsèques de raisonnement bayésien, ce qui est crucial pour comprendre les mécanismes cognitifs des systèmes d'IA
Valeur pratique : Dans le monde réel, de nombreux scénarios de décision manquent de données numériques précises et ne peuvent s'appuyer que sur des descriptions linguistiques
Défis techniques : Les méthodes traditionnelles de décision sous incertitude dépendent de calculs mathématiques complexes, tandis que les approches basées sur le langage pourraient offrir des solutions plus flexibles et plus accessibles

Limitations des Approches Existantes

Dépendance numérique : Les méthodes traditionnelles de raisonnement bayésien et d'apprentissage par renforcement nécessitent des entrées numériques explicites et des informations probabilistes
Absence d'évaluation : Manque de benchmarks spécialisés pour évaluer les capacités de raisonnement probabiliste des LLMs dans des environnements purement linguistiques
Limitations de complexité : Les recherches existantes se concentrent principalement sur des tâches simples et contraintes, sans explorer suffisamment les scénarios de décision multi-étapes

Motivation de la Recherche

Les auteurs estiment que si les LLMs peuvent effectuer un raisonnement probabiliste efficace basé uniquement sur des retours linguistiques, cela ouvrirait de nouvelles possibilités pour une prise de décision naturelle et non numérisée, particulièrement dans les applications réelles manquant de données structurées.

Contributions Principales

Proposition du benchmark TextBandit : Premier benchmark spécialisé évaluant les capacités de raisonnement probabiliste des LLMs dans des environnements purement linguistiques, utilisant le cadre des machines à sous multi-bras
Découverte d'effets d'échelle contre-intuitifs : Démonstration d'une relation négative entre la taille du modèle et les performances de décision, avec le petit Qwen3-4B surpassant significativement les modèles plus grands
Démonstration du raisonnement probabiliste émergent du langage : Preuve que les capacités de raisonnement probabiliste peuvent émerger de l'interaction purement linguistique, sans indices numériques
Analyse comparative complète : Comparaison systématique des LLMs avec les algorithmes de décision classiques, fournissant des perspectives importantes sur les avantages et inconvénients de différentes approches

Explication Détaillée de la Méthodologie

Définition de la Tâche

Entrée : Description en langage naturel de l'historique des sélections et des résultats (par exemple, « la machine à sous 1 a gagné », « la machine à sous 2 a perdu ») Sortie : Sélection du bras pour le prochain tour (ID numérique, par exemple « 1 » ou « 2 ») Contraintes : Aucun indice numérique, aucune probabilité explicite, aucun processus de raisonnement intermédiaire

Architecture Expérimentale

Environnement de Machines à Sous Multi-Bras

Nombre de bras : 2-5 bras, chacun avec une probabilité de succès fixe mais inconnue
Structure de récompense : Dans les configurations à deux bras, un bras a un taux de succès de 65%, l'autre de 30%
Mécanisme de retour :
- Succès : « vous avez obtenu un jeton » (récompense = 1)
- Échec : « vous n'avez pas obtenu de jeton » (récompense = 0)

Protocole de Prompt

Chaque LLM utilise une structure de prompt cohérente :

Description de la tâche : Instructions en langage naturel plaçant la tâche dans un contexte décisionnel
Historique : Description purement linguistique de tous les choix et résultats antérieurs
Demande d'action : Demande au modèle de produire un nombre correspondant au bras

Modèles Évalués

L'étude a sélectionné quatre LLMs open-source avec différentes architectures et tailles de paramètres :

Modèle	Paramètres	Architecture	Caractéristiques
Qwen3-4B	4B	Transformer décodeur uniquement	Support multilingue, capacités de raisonnement fortes
Qwen3-8B	8B	Transformer décodeur uniquement	Version plus grande de Qwen3-4B, capacités d'utilisation d'outils améliorées
Llama-3.1-8B	8B	Transformer décodeur uniquement	Suivi d'instructions et capacités multilingues optimisés
Phi-2	2.7B	Transformer	Modèle petit et efficace

Méthodes de Base

Comparaison avec quatre algorithmes classiques de machines à sous multi-bras :

Échantillonnage de Thompson : Utilise le raisonnement bayésien pour échantillonner à partir d'une distribution de probabilité
Limite de Confiance Supérieure (UCB) : Stratégie déterministe équilibrant exploitation et exploration
Epsilon-Greedy : Sélectionne la meilleure action avec probabilité 1-ε, sinon choisit aléatoirement
Sélection Aléatoire : Méthode de base entièrement aléatoire

Configuration Expérimentale

Paramètres Expérimentaux

Nombre d'essais : 500 exécutions indépendantes par modèle
Nombre de tours de décision : 25 tours de décision par exécution
Configurations de bras : Test de différentes configurations avec 2-5 bras
Environnement d'évaluation : Instances GPU hébergées sur RunPod, basées sur la bibliothèque Hugging Face Transformers

Métriques d'Évaluation

Récompense cumulée : Nombre total de jetons obtenus sur 25 tours de décision
Taux de sélection du meilleur bras : Pourcentage de fois où le bras optimal (taux de succès de 65%) est sélectionné
Regret cumulé : Coût d'opportunité de ne pas sélectionner le bras optimal

Contrôles Expérimentaux

Suppression du raisonnement Chain-of-Thought pour obtenir des résultats clairs
Utilisation du même format et structure de prompt
Chaque décision utilise une seule complétion, sans raisonnement intermédiaire

Résultats Expérimentaux

Résultats Principaux

Comparaison des Taux de Sélection du Meilleur Bras

Modèle/Algorithme	Taux de Sélection du Meilleur Bras	Récompense Cumulée
Qwen3-4B	89,2%	11 150
Échantillonnage de Thompson	51,1%	8 297
UCB	47,6%	4 696
Epsilon-Greedy	38,1%	6 029
Qwen3-8B	37,5%	4 686
Sélection Aléatoire	31,8%	5 783
Llama-3.1-8B	31,6%	3 946
Phi-2	25,4%	3 181

Découvertes Clés

1. Effets d'Échelle Contre-Intuitifs

Qwen3-4B (4B paramètres) surpasse significativement Qwen3-8B (8B paramètres)
Les modèles plus grands tendent à « sur-réfléchir », entraînant une dégradation des performances de décision
Le plus petit modèle Phi-2 (2.7B) montre les pires performances, indiquant l'existence d'une plage de taille optimale

2. Impact du Nombre de Bras sur les Performances

Les performances de tous les modèles diminuent significativement avec l'augmentation du nombre de bras :

Llama-3.1-8B : Baisse de 31,56% (2 bras) à 7,37% (5 bras)
Qwen3-4B : Baisse de 89,22% (2 bras) à 6,53% (5 bras)
Phi-2 : Baisse de 25,45% (2 bras) à 17,78% (5 bras)
Qwen3-8B : Baisse de 37,49% (2 bras) à 17,09% (5 bras)

3. Analyse du Regret Cumulé

Qwen3-4B montre une réduction rapide du regret dans la configuration à 2 bras
Les modèles plus grands maintiennent un regret cumulé élevé dans toutes les configurations
La configuration à 4 bras a produit de manière inattendue le regret cumulé le plus faible parmi tous les modèles

Analyse Qualitative

Stratégie Exploitation-Exploration : Les LLMs présentent des modèles de comportement similaires à l'échantillonnage de Thompson
Cristallisation Précoce : Les modèles tendent à déterminer prématurément le choix « optimal » basé sur des retours limités
Surcharge de Raisonnement : Qwen3-8B prend un temps exceptionnellement long en raison de tentatives continues de raisonnement

Travaux Connexes

Raisonnement Probabiliste dans les LLMs

Xie et al. (2022) : Formalisation de l'apprentissage en contexte comme raisonnement bayésien implicite
Gupta et al. (2025) : Démonstration que les LLMs peuvent effectuer des mises à jour de croyances cohérentes avec les mises à jour bayésiennes postérieures
Sun et al. (2025) : Proposition d'une approche hybride combinant les stratégies classiques de machines à sous et la prédiction de récompense par LLM

Prise de Décision Consciente de l'Incertitude

Felicioni et al. (2024) : Exploration des bénéfices de considérer explicitement l'incertitude épistémique dans la prise de décision séquentielle
Les recherches montrent que l'incertitude peut servir de signal précieux pour guider le comportement du modèle

Exploration-Exploitation dans les Environnements de Machines à Sous

Zhang et al. (2025) : Comparaison des stratégies d'exploration-exploitation entre les LLMs et les humains dans les machines à sous multi-bras
Découverte que le Chain-of-Thought améliore significativement les capacités de raisonnement, rapprochant le comportement des LLMs des approches humaines

Conclusions et Discussion

Conclusions Principales

Émergence Linguistique du Raisonnement Probabiliste : Démonstration que le raisonnement probabiliste efficace peut émerger basé uniquement sur des retours linguistiques
Relation Complexe entre Taille et Performance : La taille du modèle n'est pas toujours positivement corrélée aux performances de décision
Importance de l'Optimisation Architecturale : Les architectures de modèles légers et efficaces peuvent avoir des avantages dans les environnements de retour rapide

Limitations

Portée des Modèles Limitée : Seuls les modèles open-source de 2.7B-8B paramètres ont été testés, sans inclure les modèles de plus grande taille
Complexité de la Tâche : Structures de récompense statiques et simples, sans environnements non-stationnaires ou retours retardés
Stratégie de Prompt : L'évitement du Chain-of-Thought peut sous-estimer les véritables capacités des LLMs
Limitations des Ressources Informatiques : Impossibilité de tester les grands modèles commerciaux comme GPT-4

Directions Futures

Test dans des Environnements Dynamiques : Évaluation dans des environnements de machines à sous non-stationnaires ou avec retours retardés
Prompts Guidés : Étude combinant le Chain-of-Thought pour rechercher l'impact de l'échafaudage sur l'équilibre exploitation-exploration
Étude des Effets d'Échelle : Recherche systématique des performances de modèles de plus grande taille et de variantes affinées
Planification Multi-Étapes : Extension à des tâches de décision complexes nécessitant un raisonnement multi-étapes

Évaluation Approfondie

Points Forts

Innovation Forte : Premier cadre d'évaluation du raisonnement probabiliste dans des environnements purement linguistiques
Découvertes Importantes : Révélation de la relation contre-intuitive entre la taille du modèle et les performances de décision
Rigueur Expérimentale : 500 exécutions indépendantes assurant la fiabilité statistique des résultats
Baselines Complètes : Comparaison systématique avec les algorithmes classiques fournissant des références précieuses
Bonne Reproductibilité : Fourniture de code complet et d'explications détaillées de l'implémentation

Insuffisances

Explication Théorique Insuffisante : Explication mécaniste faible des performances exceptionnelles de Qwen3-4B
Limitations du Choix de Modèles : Absence de test sur des modèles de plus grande taille
Unicité de la Tâche : Concentration exclusive sur les problèmes de machines à sous, généralisation à vérifier
Profondeur d'Analyse : Analyse insuffisante du phénomène de « sur-réflexion »

Impact

Valeur Académique : Fourniture d'un nouveau cadre d'évaluation pour comprendre les capacités de raisonnement probabiliste des LLMs
Signification Pratique : Référence importante pour le développement de systèmes de décision basés sur le langage
Contribution Méthodologique : Le benchmark TextBandit pourrait devenir un outil d'évaluation standard dans ce domaine
Impact Interdisciplinaire : Connexion du traitement du langage naturel, de la théorie de la décision et de la science cognitive

Scénarios d'Application

Évaluation Éducative : Évaluation des capacités de décision des systèmes d'IA dans les contextes éducatifs
Interaction Homme-Machine : Conception de systèmes de support décisionnel plus naturels
Allocation de Ressources : Optimisation des ressources dans des environnements manquant de données précises
IA pour Jeux : Développement d'agents de jeu intelligents basés sur des retours linguistiques

Références

Cet article cite des travaux importants dans les domaines du raisonnement probabiliste, de la prise de décision sous incertitude et des machines à sous multi-bras, notamment :

Xie et al. (2022) : Cadre de raisonnement bayésien pour l'apprentissage en contexte
Gupta et al. (2025) : Capacités de mise à jour des croyances bayésiennes des LLMs
Zhang et al. (2025) : Comparaison des stratégies d'exploitation-exploration entre LLMs et humains
Felicioni et al. (2024) : Prise de décision séquentielle consciente de l'incertitude

Évaluation Globale : Ceci est un article d'une valeur d'innovation importante qui fournit une nouvelle perspective pour comprendre les capacités de raisonnement probabiliste des LLMs par le biais du benchmark TextBandit. Bien qu'il présente certaines limitations, ses découvertes concernant les effets d'échelle contre-intuitifs et le raisonnement probabiliste émergent du langage ont une signification théorique et pratique importante pour ce domaine.