2025-11-13T17:28:10.587795

TextBandit: Evaluating Probabilistic Reasoning in LLMs Through Language-Only Decision Tasks

Lim, Damerla, Jiang et al.
Large language models (LLMs) have shown to be increasingly capable of performing reasoning tasks, but their ability to make sequential decisions under uncertainty only using natural language remains underexplored. We introduce a novel benchmark in which LLMs interact with multi-armed bandit environments using purely textual feedback, "you earned a token", without access to numerical cues or explicit probabilities, resulting in the model to infer latent reward structures purely off linguistic cues and to adapt accordingly. We evaluated the performance of four open-source LLMs and compare their performance to standard decision-making algorithms such as Thompson Sampling, Epsilon Greedy, Upper Confidence Bound (UCB), and random choice. While most of the LLMs underperformed compared to the baselines, Qwen3-4B, achieved the best-arm selection rate of 89.2% , which significantly outperformed both the larger LLMs and traditional methods. Our findings suggest that probabilistic reasoning is able to emerge from language alone, and we present this benchmark as a step towards evaluating decision-making capabilities in naturalistic, non-numeric contexts.
academic

TextBandit : Évaluation du Raisonnement Probabiliste dans les LLMs par des Tâches de Décision en Langage Naturel

Informations Fondamentales

  • ID de l'article : 2510.13878
  • Titre : TextBandit: Evaluating Probabilistic Reasoning in LLMs Through Language-Only Decision Tasks
  • Auteurs : Jimin Lim (UC Merced), Arjun Damerla (UC Berkeley), Arthur Jiang (Algoverse), Nam Le (Algoverse)
  • Classification : cs.CL (Linguistique Computationnelle)
  • Date de publication : 13 octobre 2025 (prépublication arXiv)
  • Lien de l'article : https://arxiv.org/abs/2510.13878

Résumé

Les grands modèles de langage (LLMs) démontrent des capacités croissantes dans les tâches de raisonnement, mais leur capacité à prendre des décisions séquentielles sous incertitude en utilisant uniquement le langage naturel reste insuffisamment explorée. Cet article introduit un nouveau benchmark où les LLMs interagissent avec un environnement de machines à sous multi-bras en utilisant exclusivement des retours textuels (« vous avez obtenu un jeton »), sans accès à des indices numériques ou à des probabilités explicites. Le modèle doit déduire la structure de récompense sous-jacente basée uniquement sur des indices linguistiques et adapter son comportement en conséquence. L'étude évalue les performances de quatre LLMs open-source et les compare avec des algorithmes de décision standards tels que l'échantillonnage de Thompson, l'epsilon-greedy, la limite de confiance supérieure (UCB) et la sélection aléatoire. Bien que la plupart des LLMs se comportent moins bien que les méthodes de base, Qwen3-4B atteint un taux de sélection du meilleur bras de 89,2%, surpassant significativement les LLMs plus grands et les méthodes traditionnelles.

Contexte et Motivation de la Recherche

Définition du Problème

La question centrale que cette recherche aborde est : les grands modèles de langage peuvent-ils effectuer un raisonnement probabiliste efficace et une prise de décision dans des environnements incertains en utilisant uniquement des retours en langage naturel ?

Importance

  1. Signification théorique : Explorer si les LLMs possèdent des capacités intrinsèques de raisonnement bayésien, ce qui est crucial pour comprendre les mécanismes cognitifs des systèmes d'IA
  2. Valeur pratique : Dans le monde réel, de nombreux scénarios de décision manquent de données numériques précises et ne peuvent s'appuyer que sur des descriptions linguistiques
  3. Défis techniques : Les méthodes traditionnelles de décision sous incertitude dépendent de calculs mathématiques complexes, tandis que les approches basées sur le langage pourraient offrir des solutions plus flexibles et plus accessibles

Limitations des Approches Existantes

  1. Dépendance numérique : Les méthodes traditionnelles de raisonnement bayésien et d'apprentissage par renforcement nécessitent des entrées numériques explicites et des informations probabilistes
  2. Absence d'évaluation : Manque de benchmarks spécialisés pour évaluer les capacités de raisonnement probabiliste des LLMs dans des environnements purement linguistiques
  3. Limitations de complexité : Les recherches existantes se concentrent principalement sur des tâches simples et contraintes, sans explorer suffisamment les scénarios de décision multi-étapes

Motivation de la Recherche

Les auteurs estiment que si les LLMs peuvent effectuer un raisonnement probabiliste efficace basé uniquement sur des retours linguistiques, cela ouvrirait de nouvelles possibilités pour une prise de décision naturelle et non numérisée, particulièrement dans les applications réelles manquant de données structurées.

Contributions Principales

  1. Proposition du benchmark TextBandit : Premier benchmark spécialisé évaluant les capacités de raisonnement probabiliste des LLMs dans des environnements purement linguistiques, utilisant le cadre des machines à sous multi-bras
  2. Découverte d'effets d'échelle contre-intuitifs : Démonstration d'une relation négative entre la taille du modèle et les performances de décision, avec le petit Qwen3-4B surpassant significativement les modèles plus grands
  3. Démonstration du raisonnement probabiliste émergent du langage : Preuve que les capacités de raisonnement probabiliste peuvent émerger de l'interaction purement linguistique, sans indices numériques
  4. Analyse comparative complète : Comparaison systématique des LLMs avec les algorithmes de décision classiques, fournissant des perspectives importantes sur les avantages et inconvénients de différentes approches

Explication Détaillée de la Méthodologie

Définition de la Tâche

Entrée : Description en langage naturel de l'historique des sélections et des résultats (par exemple, « la machine à sous 1 a gagné », « la machine à sous 2 a perdu ») Sortie : Sélection du bras pour le prochain tour (ID numérique, par exemple « 1 » ou « 2 ») Contraintes : Aucun indice numérique, aucune probabilité explicite, aucun processus de raisonnement intermédiaire

Architecture Expérimentale

Environnement de Machines à Sous Multi-Bras

  • Nombre de bras : 2-5 bras, chacun avec une probabilité de succès fixe mais inconnue
  • Structure de récompense : Dans les configurations à deux bras, un bras a un taux de succès de 65%, l'autre de 30%
  • Mécanisme de retour :
    • Succès : « vous avez obtenu un jeton » (récompense = 1)
    • Échec : « vous n'avez pas obtenu de jeton » (récompense = 0)

Protocole de Prompt

Chaque LLM utilise une structure de prompt cohérente :

  1. Description de la tâche : Instructions en langage naturel plaçant la tâche dans un contexte décisionnel
  2. Historique : Description purement linguistique de tous les choix et résultats antérieurs
  3. Demande d'action : Demande au modèle de produire un nombre correspondant au bras

Modèles Évalués

L'étude a sélectionné quatre LLMs open-source avec différentes architectures et tailles de paramètres :

ModèleParamètresArchitectureCaractéristiques
Qwen3-4B4BTransformer décodeur uniquementSupport multilingue, capacités de raisonnement fortes
Qwen3-8B8BTransformer décodeur uniquementVersion plus grande de Qwen3-4B, capacités d'utilisation d'outils améliorées
Llama-3.1-8B8BTransformer décodeur uniquementSuivi d'instructions et capacités multilingues optimisés
Phi-22.7BTransformerModèle petit et efficace

Méthodes de Base

Comparaison avec quatre algorithmes classiques de machines à sous multi-bras :

  1. Échantillonnage de Thompson : Utilise le raisonnement bayésien pour échantillonner à partir d'une distribution de probabilité
  2. Limite de Confiance Supérieure (UCB) : Stratégie déterministe équilibrant exploitation et exploration
  3. Epsilon-Greedy : Sélectionne la meilleure action avec probabilité 1-ε, sinon choisit aléatoirement
  4. Sélection Aléatoire : Méthode de base entièrement aléatoire

Configuration Expérimentale

Paramètres Expérimentaux

  • Nombre d'essais : 500 exécutions indépendantes par modèle
  • Nombre de tours de décision : 25 tours de décision par exécution
  • Configurations de bras : Test de différentes configurations avec 2-5 bras
  • Environnement d'évaluation : Instances GPU hébergées sur RunPod, basées sur la bibliothèque Hugging Face Transformers

Métriques d'Évaluation

  1. Récompense cumulée : Nombre total de jetons obtenus sur 25 tours de décision
  2. Taux de sélection du meilleur bras : Pourcentage de fois où le bras optimal (taux de succès de 65%) est sélectionné
  3. Regret cumulé : Coût d'opportunité de ne pas sélectionner le bras optimal

Contrôles Expérimentaux

  • Suppression du raisonnement Chain-of-Thought pour obtenir des résultats clairs
  • Utilisation du même format et structure de prompt
  • Chaque décision utilise une seule complétion, sans raisonnement intermédiaire

Résultats Expérimentaux

Résultats Principaux

Comparaison des Taux de Sélection du Meilleur Bras

Modèle/AlgorithmeTaux de Sélection du Meilleur BrasRécompense Cumulée
Qwen3-4B89,2%11 150
Échantillonnage de Thompson51,1%8 297
UCB47,6%4 696
Epsilon-Greedy38,1%6 029
Qwen3-8B37,5%4 686
Sélection Aléatoire31,8%5 783
Llama-3.1-8B31,6%3 946
Phi-225,4%3 181

Découvertes Clés

1. Effets d'Échelle Contre-Intuitifs

  • Qwen3-4B (4B paramètres) surpasse significativement Qwen3-8B (8B paramètres)
  • Les modèles plus grands tendent à « sur-réfléchir », entraînant une dégradation des performances de décision
  • Le plus petit modèle Phi-2 (2.7B) montre les pires performances, indiquant l'existence d'une plage de taille optimale

2. Impact du Nombre de Bras sur les Performances

Les performances de tous les modèles diminuent significativement avec l'augmentation du nombre de bras :

  • Llama-3.1-8B : Baisse de 31,56% (2 bras) à 7,37% (5 bras)
  • Qwen3-4B : Baisse de 89,22% (2 bras) à 6,53% (5 bras)
  • Phi-2 : Baisse de 25,45% (2 bras) à 17,78% (5 bras)
  • Qwen3-8B : Baisse de 37,49% (2 bras) à 17,09% (5 bras)

3. Analyse du Regret Cumulé

  • Qwen3-4B montre une réduction rapide du regret dans la configuration à 2 bras
  • Les modèles plus grands maintiennent un regret cumulé élevé dans toutes les configurations
  • La configuration à 4 bras a produit de manière inattendue le regret cumulé le plus faible parmi tous les modèles

Analyse Qualitative

  1. Stratégie Exploitation-Exploration : Les LLMs présentent des modèles de comportement similaires à l'échantillonnage de Thompson
  2. Cristallisation Précoce : Les modèles tendent à déterminer prématurément le choix « optimal » basé sur des retours limités
  3. Surcharge de Raisonnement : Qwen3-8B prend un temps exceptionnellement long en raison de tentatives continues de raisonnement

Travaux Connexes

Raisonnement Probabiliste dans les LLMs

  • Xie et al. (2022) : Formalisation de l'apprentissage en contexte comme raisonnement bayésien implicite
  • Gupta et al. (2025) : Démonstration que les LLMs peuvent effectuer des mises à jour de croyances cohérentes avec les mises à jour bayésiennes postérieures
  • Sun et al. (2025) : Proposition d'une approche hybride combinant les stratégies classiques de machines à sous et la prédiction de récompense par LLM

Prise de Décision Consciente de l'Incertitude

  • Felicioni et al. (2024) : Exploration des bénéfices de considérer explicitement l'incertitude épistémique dans la prise de décision séquentielle
  • Les recherches montrent que l'incertitude peut servir de signal précieux pour guider le comportement du modèle

Exploration-Exploitation dans les Environnements de Machines à Sous

  • Zhang et al. (2025) : Comparaison des stratégies d'exploration-exploitation entre les LLMs et les humains dans les machines à sous multi-bras
  • Découverte que le Chain-of-Thought améliore significativement les capacités de raisonnement, rapprochant le comportement des LLMs des approches humaines

Conclusions et Discussion

Conclusions Principales

  1. Émergence Linguistique du Raisonnement Probabiliste : Démonstration que le raisonnement probabiliste efficace peut émerger basé uniquement sur des retours linguistiques
  2. Relation Complexe entre Taille et Performance : La taille du modèle n'est pas toujours positivement corrélée aux performances de décision
  3. Importance de l'Optimisation Architecturale : Les architectures de modèles légers et efficaces peuvent avoir des avantages dans les environnements de retour rapide

Limitations

  1. Portée des Modèles Limitée : Seuls les modèles open-source de 2.7B-8B paramètres ont été testés, sans inclure les modèles de plus grande taille
  2. Complexité de la Tâche : Structures de récompense statiques et simples, sans environnements non-stationnaires ou retours retardés
  3. Stratégie de Prompt : L'évitement du Chain-of-Thought peut sous-estimer les véritables capacités des LLMs
  4. Limitations des Ressources Informatiques : Impossibilité de tester les grands modèles commerciaux comme GPT-4

Directions Futures

  1. Test dans des Environnements Dynamiques : Évaluation dans des environnements de machines à sous non-stationnaires ou avec retours retardés
  2. Prompts Guidés : Étude combinant le Chain-of-Thought pour rechercher l'impact de l'échafaudage sur l'équilibre exploitation-exploration
  3. Étude des Effets d'Échelle : Recherche systématique des performances de modèles de plus grande taille et de variantes affinées
  4. Planification Multi-Étapes : Extension à des tâches de décision complexes nécessitant un raisonnement multi-étapes

Évaluation Approfondie

Points Forts

  1. Innovation Forte : Premier cadre d'évaluation du raisonnement probabiliste dans des environnements purement linguistiques
  2. Découvertes Importantes : Révélation de la relation contre-intuitive entre la taille du modèle et les performances de décision
  3. Rigueur Expérimentale : 500 exécutions indépendantes assurant la fiabilité statistique des résultats
  4. Baselines Complètes : Comparaison systématique avec les algorithmes classiques fournissant des références précieuses
  5. Bonne Reproductibilité : Fourniture de code complet et d'explications détaillées de l'implémentation

Insuffisances

  1. Explication Théorique Insuffisante : Explication mécaniste faible des performances exceptionnelles de Qwen3-4B
  2. Limitations du Choix de Modèles : Absence de test sur des modèles de plus grande taille
  3. Unicité de la Tâche : Concentration exclusive sur les problèmes de machines à sous, généralisation à vérifier
  4. Profondeur d'Analyse : Analyse insuffisante du phénomène de « sur-réflexion »

Impact

  1. Valeur Académique : Fourniture d'un nouveau cadre d'évaluation pour comprendre les capacités de raisonnement probabiliste des LLMs
  2. Signification Pratique : Référence importante pour le développement de systèmes de décision basés sur le langage
  3. Contribution Méthodologique : Le benchmark TextBandit pourrait devenir un outil d'évaluation standard dans ce domaine
  4. Impact Interdisciplinaire : Connexion du traitement du langage naturel, de la théorie de la décision et de la science cognitive

Scénarios d'Application

  1. Évaluation Éducative : Évaluation des capacités de décision des systèmes d'IA dans les contextes éducatifs
  2. Interaction Homme-Machine : Conception de systèmes de support décisionnel plus naturels
  3. Allocation de Ressources : Optimisation des ressources dans des environnements manquant de données précises
  4. IA pour Jeux : Développement d'agents de jeu intelligents basés sur des retours linguistiques

Références

Cet article cite des travaux importants dans les domaines du raisonnement probabiliste, de la prise de décision sous incertitude et des machines à sous multi-bras, notamment :

  • Xie et al. (2022) : Cadre de raisonnement bayésien pour l'apprentissage en contexte
  • Gupta et al. (2025) : Capacités de mise à jour des croyances bayésiennes des LLMs
  • Zhang et al. (2025) : Comparaison des stratégies d'exploitation-exploration entre LLMs et humains
  • Felicioni et al. (2024) : Prise de décision séquentielle consciente de l'incertitude

Évaluation Globale : Ceci est un article d'une valeur d'innovation importante qui fournit une nouvelle perspective pour comprendre les capacités de raisonnement probabiliste des LLMs par le biais du benchmark TextBandit. Bien qu'il présente certaines limitations, ses découvertes concernant les effets d'échelle contre-intuitifs et le raisonnement probabiliste émergent du langage ont une signification théorique et pratique importante pour ce domaine.