2025-11-13T17:28:10.587795

TextBandit: Evaluating Probabilistic Reasoning in LLMs Through Language-Only Decision Tasks

Lim, Damerla, Jiang et al.
Large language models (LLMs) have shown to be increasingly capable of performing reasoning tasks, but their ability to make sequential decisions under uncertainty only using natural language remains underexplored. We introduce a novel benchmark in which LLMs interact with multi-armed bandit environments using purely textual feedback, "you earned a token", without access to numerical cues or explicit probabilities, resulting in the model to infer latent reward structures purely off linguistic cues and to adapt accordingly. We evaluated the performance of four open-source LLMs and compare their performance to standard decision-making algorithms such as Thompson Sampling, Epsilon Greedy, Upper Confidence Bound (UCB), and random choice. While most of the LLMs underperformed compared to the baselines, Qwen3-4B, achieved the best-arm selection rate of 89.2% , which significantly outperformed both the larger LLMs and traditional methods. Our findings suggest that probabilistic reasoning is able to emerge from language alone, and we present this benchmark as a step towards evaluating decision-making capabilities in naturalistic, non-numeric contexts.
academic

TextBandit: Evaluating Probabilistic Reasoning in LLMs Through Language-Only Decision Tasks

基本信息

  • 论文ID: 2510.13878
  • 标题: TextBandit: Evaluating Probabilistic Reasoning in LLMs Through Language-Only Decision Tasks
  • 作者: Jimin Lim (UC Merced), Arjun Damerla (UC Berkeley), Arthur Jiang (Algoverse), Nam Le (Algoverse)
  • 分类: cs.CL (Computational Linguistics)
  • 发表时间: 2025年10月13日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2510.13878

摘要

大语言模型(LLMs)在推理任务中表现出越来越强的能力,但它们仅使用自然语言在不确定性下进行顺序决策的能力仍未得到充分探索。本文引入了一个新颖的基准测试,其中LLMs使用纯文本反馈("你获得了一个代币")与多臂老虎机环境交互,无法访问数值线索或显式概率,要求模型纯粹基于语言线索推断潜在奖励结构并相应调整。研究评估了四个开源LLMs的性能,并与Thompson采样、Epsilon贪心、上置信界(UCB)和随机选择等标准决策算法进行比较。虽然大多数LLMs表现不如基线方法,但Qwen3-4B实现了89.2%的最佳臂选择率,显著优于更大的LLMs和传统方法。

研究背景与动机

问题定义

本研究要解决的核心问题是:大语言模型是否能够仅通过自然语言反馈在不确定环境中进行有效的概率推理和决策制定?

重要性

  1. 理论意义:探索LLMs是否具备内在的贝叶斯推理能力,这对理解AI系统的认知机制具有重要价值
  2. 实用价值:在现实世界中,许多决策场景缺乏精确的数值数据,仅能依靠语言描述进行判断
  3. 技术挑战:传统的不确定性决策方法依赖复杂的数学计算,而基于语言的方法可能提供更灵活、更易获取的解决方案

现有方法局限性

  1. 数值依赖:传统贝叶斯推理和强化学习方法需要明确的数值输入和概率信息
  2. 评估缺失:缺乏专门评估LLMs在纯语言环境下概率推理能力的基准测试
  3. 复杂性限制:现有研究主要关注简单的约束任务,未充分探索多步决策场景

研究动机

作者认为,如果LLMs能够仅通过语言反馈进行有效的概率推理,这将为自然、非数值化的决策制定开辟新的可能性,特别是在缺乏结构化数据的现实应用场景中。

核心贡献

  1. 提出TextBandit基准测试:首个专门评估LLMs在纯语言环境下概率推理能力的基准,使用多臂老虎机框架
  2. 发现反直觉的规模效应:证明了模型规模与决策性能之间存在负相关关系,较小的Qwen3-4B显著优于更大的模型
  3. 展示语言涌现的概率推理:证明了概率推理能力可以从纯语言交互中涌现,无需数值线索
  4. 提供全面的比较分析:将LLMs与经典决策算法进行系统比较,为理解不同方法的优劣提供了重要见解

方法详解

任务定义

输入:历史选择和结果的自然语言描述(如"老虎机1赢了","老虎机2输了") 输出:下一轮的臂选择(数字ID,如"1"或"2") 约束:无数值线索、无显式概率、无中间推理过程

实验架构

多臂老虎机环境

  • 臂数量:2-5个臂,每个臂具有固定但未知的成功概率
  • 奖励结构:二臂配置中,一个臂65%成功率,另一个30%成功率
  • 反馈机制
    • 成功:"你获得了一个代币"(奖励=1)
    • 失败:"你没有获得代币"(奖励=0)

提示协议

每个LLM使用一致的提示结构:

  1. 任务描述:将任务置于决策情境中的自然语言指令
  2. 历史记录:所有先前选择和结果的纯语言描述
  3. 行动请求:要求模型输出对应臂的数字

评估模型

研究选择了四个具有不同架构和参数规模的开源LLMs:

模型参数量架构特点
Qwen3-4B4B仅解码器Transformer支持多语言,推理能力强
Qwen3-8B8B仅解码器TransformerQwen3-4B的大型版本,工具使用能力增强
Llama-3.1-8B8B仅解码器Transformer指令跟随和多语言能力优化
Phi-22.7BTransformer小型高效模型

基线方法

比较了四种经典多臂老虎机算法:

  1. Thompson采样:使用贝叶斯推理从概率分布中采样
  2. 上置信界(UCB):平衡利用和探索的确定性策略
  3. Epsilon贪心:以1-ε概率选择最佳动作,否则随机选择
  4. 随机选择:完全随机的基线方法

实验设置

实验配置

  • 试验次数:每个模型500次独立运行
  • 决策轮数:每次运行25轮决策
  • 臂配置:测试2-5个臂的不同配置
  • 评估环境:使用RunPod托管的GPU实例,基于Hugging Face Transformers库

评价指标

  1. 累积奖励:25轮决策中获得的总代币数
  2. 最佳臂选择率:选择最优臂(65%成功率)的频率百分比
  3. 累积遗憾:未选择最优臂的机会成本

实验控制

  • 移除了Chain-of-Thought推理以获得清晰输出
  • 使用相同的提示格式和结构
  • 每步决策采用单次完成,无中间推理

实验结果

主要结果

最佳臂选择率对比

模型/算法最佳臂选择率累积奖励
Qwen3-4B89.2%11,150
Thompson采样51.1%8,297
UCB47.6%4,696
Epsilon贪心38.1%6,029
Qwen3-8B37.5%4,686
Random选择31.8%5,783
Llama-3.1-8B31.6%3,946
Phi-225.4%3,181

关键发现

1. 反直觉的规模效应

  • Qwen3-4B (4B参数) 显著优于 Qwen3-8B (8B参数)
  • 更大的模型倾向于"过度思考",导致决策性能下降
  • 最小的模型Phi-2 (2.7B)表现最差,说明存在最优规模区间

2. 臂数量对性能的影响

随着臂数量增加,所有模型的性能都显著下降:

  • Llama-3.1-8B:从31.56%(2臂)下降到7.37%(5臂)
  • Qwen3-4B:从89.22%(2臂)下降到6.53%(5臂)
  • Phi-2:从25.45%(2臂)下降到17.78%(5臂)
  • Qwen3-8B:从37.49%(2臂)下降到17.09%(5臂)

3. 累积遗憾分析

  • Qwen3-4B在2臂配置中表现出快速的遗憾减少
  • 较大模型在所有配置中都保持较高的累积遗憾
  • 4臂配置意外地产生了所有模型中最低的累积遗憾

定性分析

  1. 探索-利用策略:LLMs表现出类似Thompson采样的行为模式
  2. 早期固化:模型倾向于基于有限反馈过早确定"最优"选择
  3. 推理开销:Qwen3-8B由于持续尝试推理而耗时异常长

相关工作

LLMs中的概率推理

  • Xie et al. (2022):将上下文学习框架化为隐式贝叶斯推理
  • Gupta et al. (2025):证明LLMs能够进行与贝叶斯后验更新一致的信念更新
  • Sun et al. (2025):提出结合经典老虎机策略和LLM奖励预测的混合方法

不确定性感知决策

  • Felicioni et al. (2024):探索在顺序决策中显式考虑认识不确定性的益处
  • 研究表明不确定性可以作为指导模型行为的有价值信号

老虎机环境中的探索-利用

  • Zhang et al. (2025):比较LLMs与人类在多臂老虎机中的探索-利用策略
  • 发现Chain-of-Thought显著提升推理能力,使LLMs行为更接近人类方法

结论与讨论

主要结论

  1. 概率推理的语言涌现:证明了仅基于语言反馈就能产生有效的概率推理能力
  2. 规模与性能的复杂关系:模型规模并不总是与决策性能正相关
  3. 架构优化的重要性:轻量级、高效的模型架构在快速反馈环境中可能更有优势

局限性

  1. 模型范围限制:仅测试了2.7B-8B参数的开源模型,未包含更大规模模型
  2. 任务复杂度:静态、简单的奖励结构,不涉及非平稳环境或延迟反馈
  3. 提示策略:避免使用Chain-of-Thought可能低估了LLMs的真实能力
  4. 计算资源限制:未能测试GPT-4等大型商业模型

未来方向

  1. 动态环境测试:在非平稳或延迟奖励的老虎机环境中评估
  2. 引导式提示:结合Chain-of-Thought研究脚手架对探索-利用平衡的影响
  3. 规模效应研究:系统研究更大规模模型和微调变体的表现
  4. 多步规划:扩展到需要多步推理的复杂决策任务

深度评价

优点

  1. 创新性强:首次提出纯语言环境下的概率推理评估框架
  2. 发现重要:揭示了模型规模与决策性能的反直觉关系
  3. 实验严谨:500次独立运行确保结果的统计可靠性
  4. 基线全面:与经典算法的系统比较提供了有价值的参考
  5. 可复现性好:提供完整的代码和详细的实现说明

不足

  1. 理论解释不足:对Qwen3-4B优异表现的机制解释较为薄弱
  2. 模型选择局限:缺乏对更大规模模型的测试
  3. 任务单一性:仅关注老虎机问题,泛化性有待验证
  4. 分析深度:对"过度思考"现象缺乏更深入的机制分析

影响力

  1. 学术价值:为理解LLMs的概率推理能力提供了新的评估框架
  2. 实用意义:为开发基于语言的决策系统提供了重要参考
  3. 方法论贡献:TextBandit基准可能成为该领域的标准评估工具
  4. 跨学科影响:连接了自然语言处理、决策理论和认知科学

适用场景

  1. 教育评估:评估AI系统在教育场景中的决策能力
  2. 人机交互:设计更自然的决策支持系统
  3. 资源分配:在缺乏精确数据的环境中进行资源优化
  4. 游戏AI:开发基于语言反馈的游戏智能体

参考文献

本文引用了概率推理、不确定性决策和多臂老虎机领域的重要工作,包括:

  • Xie et al. (2022): 上下文学习的贝叶斯推理框架
  • Gupta et al. (2025): LLMs的贝叶斯信念更新能力
  • Zhang et al. (2025): LLMs与人类的探索-利用策略比较
  • Felicioni et al. (2024): 不确定性感知的顺序决策制定

总体评价:这是一篇具有重要创新价值的论文,通过TextBandit基准测试为理解LLMs的概率推理能力提供了新的视角。虽然存在一些局限性,但其发现的反直觉规模效应和语言涌现的概率推理能力对该领域具有重要的理论和实践意义。