2025-11-13T17:28:10.587795

TextBandit: Evaluating Probabilistic Reasoning in LLMs Through Language-Only Decision Tasks

Lim, Damerla, Jiang et al.

Large language models (LLMs) have shown to be increasingly capable of performing reasoning tasks, but their ability to make sequential decisions under uncertainty only using natural language remains underexplored. We introduce a novel benchmark in which LLMs interact with multi-armed bandit environments using purely textual feedback, "you earned a token", without access to numerical cues or explicit probabilities, resulting in the model to infer latent reward structures purely off linguistic cues and to adapt accordingly. We evaluated the performance of four open-source LLMs and compare their performance to standard decision-making algorithms such as Thompson Sampling, Epsilon Greedy, Upper Confidence Bound (UCB), and random choice. While most of the LLMs underperformed compared to the baselines, Qwen3-4B, achieved the best-arm selection rate of 89.2% , which significantly outperformed both the larger LLMs and traditional methods. Our findings suggest that probabilistic reasoning is able to emerge from language alone, and we present this benchmark as a step towards evaluating decision-making capabilities in naturalistic, non-numeric contexts.

academic

TextBandit: Evaluating Probabilistic Reasoning in LLMs Through Language-Only Decision Tasks

基本信息

论文ID: 2510.13878
标题: TextBandit: Evaluating Probabilistic Reasoning in LLMs Through Language-Only Decision Tasks
作者: Jimin Lim (UC Merced), Arjun Damerla (UC Berkeley), Arthur Jiang (Algoverse), Nam Le (Algoverse)
分类: cs.CL (Computational Linguistics)
发表时间: 2025年10月13日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2510.13878

摘要

大语言模型(LLMs)在推理任务中表现出越来越强的能力，但它们仅使用自然语言在不确定性下进行顺序决策的能力仍未得到充分探索。本文引入了一个新颖的基准测试，其中LLMs使用纯文本反馈("你获得了一个代币")与多臂老虎机环境交互，无法访问数值线索或显式概率，要求模型纯粹基于语言线索推断潜在奖励结构并相应调整。研究评估了四个开源LLMs的性能，并与Thompson采样、Epsilon贪心、上置信界(UCB)和随机选择等标准决策算法进行比较。虽然大多数LLMs表现不如基线方法，但Qwen3-4B实现了89.2%的最佳臂选择率，显著优于更大的LLMs和传统方法。

研究背景与动机

问题定义

本研究要解决的核心问题是：大语言模型是否能够仅通过自然语言反馈在不确定环境中进行有效的概率推理和决策制定？

重要性

理论意义：探索LLMs是否具备内在的贝叶斯推理能力，这对理解AI系统的认知机制具有重要价值
实用价值：在现实世界中，许多决策场景缺乏精确的数值数据，仅能依靠语言描述进行判断
技术挑战：传统的不确定性决策方法依赖复杂的数学计算，而基于语言的方法可能提供更灵活、更易获取的解决方案

现有方法局限性

数值依赖：传统贝叶斯推理和强化学习方法需要明确的数值输入和概率信息
评估缺失：缺乏专门评估LLMs在纯语言环境下概率推理能力的基准测试
复杂性限制：现有研究主要关注简单的约束任务，未充分探索多步决策场景

研究动机

作者认为，如果LLMs能够仅通过语言反馈进行有效的概率推理，这将为自然、非数值化的决策制定开辟新的可能性，特别是在缺乏结构化数据的现实应用场景中。

核心贡献

提出TextBandit基准测试：首个专门评估LLMs在纯语言环境下概率推理能力的基准，使用多臂老虎机框架
发现反直觉的规模效应：证明了模型规模与决策性能之间存在负相关关系，较小的Qwen3-4B显著优于更大的模型
展示语言涌现的概率推理：证明了概率推理能力可以从纯语言交互中涌现，无需数值线索
提供全面的比较分析：将LLMs与经典决策算法进行系统比较，为理解不同方法的优劣提供了重要见解

方法详解

任务定义

输入：历史选择和结果的自然语言描述（如"老虎机1赢了"，"老虎机2输了"）输出：下一轮的臂选择（数字ID，如"1"或"2"）约束：无数值线索、无显式概率、无中间推理过程

实验架构

多臂老虎机环境

臂数量：2-5个臂，每个臂具有固定但未知的成功概率
奖励结构：二臂配置中，一个臂65%成功率，另一个30%成功率
反馈机制：
- 成功："你获得了一个代币"（奖励=1）
- 失败："你没有获得代币"（奖励=0）

提示协议

每个LLM使用一致的提示结构：

任务描述：将任务置于决策情境中的自然语言指令
历史记录：所有先前选择和结果的纯语言描述
行动请求：要求模型输出对应臂的数字

评估模型

研究选择了四个具有不同架构和参数规模的开源LLMs：

模型	参数量	架构	特点
Qwen3-4B	4B	仅解码器Transformer	支持多语言，推理能力强
Qwen3-8B	8B	仅解码器Transformer	Qwen3-4B的大型版本，工具使用能力增强
Llama-3.1-8B	8B	仅解码器Transformer	指令跟随和多语言能力优化
Phi-2	2.7B	Transformer	小型高效模型

基线方法

比较了四种经典多臂老虎机算法：

Thompson采样：使用贝叶斯推理从概率分布中采样
上置信界(UCB)：平衡利用和探索的确定性策略
Epsilon贪心：以1-ε概率选择最佳动作，否则随机选择
随机选择：完全随机的基线方法

实验设置

实验配置

试验次数：每个模型500次独立运行
决策轮数：每次运行25轮决策
臂配置：测试2-5个臂的不同配置
评估环境：使用RunPod托管的GPU实例，基于Hugging Face Transformers库

评价指标

累积奖励：25轮决策中获得的总代币数
最佳臂选择率：选择最优臂（65%成功率）的频率百分比
累积遗憾：未选择最优臂的机会成本

实验控制

移除了Chain-of-Thought推理以获得清晰输出
使用相同的提示格式和结构
每步决策采用单次完成，无中间推理

实验结果

主要结果

最佳臂选择率对比

模型/算法	最佳臂选择率	累积奖励
Qwen3-4B	89.2%	11,150
Thompson采样	51.1%	8,297
UCB	47.6%	4,696
Epsilon贪心	38.1%	6,029
Qwen3-8B	37.5%	4,686
Random选择	31.8%	5,783
Llama-3.1-8B	31.6%	3,946
Phi-2	25.4%	3,181