Large language models (LLMs) have shown to be increasingly capable of performing reasoning tasks, but their ability to make sequential decisions under uncertainty only using natural language remains underexplored. We introduce a novel benchmark in which LLMs interact with multi-armed bandit environments using purely textual feedback, "you earned a token", without access to numerical cues or explicit probabilities, resulting in the model to infer latent reward structures purely off linguistic cues and to adapt accordingly. We evaluated the performance of four open-source LLMs and compare their performance to standard decision-making algorithms such as Thompson Sampling, Epsilon Greedy, Upper Confidence Bound (UCB), and random choice. While most of the LLMs underperformed compared to the baselines, Qwen3-4B, achieved the best-arm selection rate of 89.2% , which significantly outperformed both the larger LLMs and traditional methods. Our findings suggest that probabilistic reasoning is able to emerge from language alone, and we present this benchmark as a step towards evaluating decision-making capabilities in naturalistic, non-numeric contexts.
academicTextBandit: 言語のみの決定タスクを通じたLLMsの確率推論の評価
- 論文ID: 2510.13878
- タイトル: TextBandit: Evaluating Probabilistic Reasoning in LLMs Through Language-Only Decision Tasks
- 著者: Jimin Lim (UC Merced)、Arjun Damerla (UC Berkeley)、Arthur Jiang (Algoverse)、Nam Le (Algoverse)
- 分類: cs.CL (計算言語学)
- 発表日: 2025年10月13日 (arXivプレプリント)
- 論文リンク: https://arxiv.org/abs/2510.13878
大規模言語モデル(LLMs)は推論タスクにおいて増強する能力を示していますが、自然言語のみを使用して不確実性下での逐次的意思決定を行う能力は、まだ十分に探索されていません。本論文は、LLMsが純粋なテキストフィードバック(「トークンを獲得しました」)を使用して多腕バンディット環境と相互作用する新規なベンチマークを導入しており、数値的手がかりや明示的な確率にアクセスできず、言語的手がかりのみに基づいて潜在的な報酬構造を推測し、それに応じて調整することが要求されます。本研究は4つのオープンソースLLMsのパフォーマンスを評価し、Thompson抽出法、Epsilon貪欲法、上信頼限界(UCB)、ランダム選択などの標準的な意思決定アルゴリズムと比較しています。ほとんどのLLMsはベースライン手法より劣っていますが、Qwen3-4Bは最適腕選択率89.2%を達成し、より大規模なLLMsと従来の手法を大幅に上回っています。
本研究が解決しようとしている中核的な問題は、大規模言語モデルが自然言語フィードバックのみを通じて不確実な環境で効果的な確率推論と意思決定を行うことができるかどうかです。
- 理論的意義: LLMsが固有のベイズ推論能力を持つかどうかを探索することは、AI システムの認知メカニズムを理解する上で重要な価値があります
- 実用的価値: 現実世界では、多くの意思決定シナリオが正確な数値データを欠いており、言語記述のみに基づいて判断する必要があります
- 技術的課題: 従来の不確実性下での意思決定方法は複雑な数学計算に依存していますが、言語ベースの方法はより柔軟でアクセスしやすいソリューションを提供する可能性があります
- 数値依存性: 従来のベイズ推論と強化学習手法は明示的な数値入力と確率情報を必要とします
- 評価の欠落: 純粋な言語環境でのLLMsの確率推論能力を評価する専用ベンチマークが不足しています
- 複雑性の制限: 既存の研究は主に単純な制約付きタスクに焦点を当てており、多段階の意思決定シナリオを十分に探索していません
著者らは、LLMsが言語フィードバックのみを通じて効果的な確率推論を行うことができれば、自然で非数値的な意思決定のための新しい可能性が開かれると考えています。特に、構造化されたデータが不足している現実世界の応用シナリオにおいて有用です。
- TextBanditベンチマークの提案: 純粋な言語環境でのLLMsの確率推論能力を評価する初めての専用ベンチマークで、多腕バンディットフレームワークを使用
- 反直感的なスケール効果の発見: モデルサイズと意思決定パフォーマンスの間に負の相関関係が存在することを証明し、より小さいQwen3-4Bが大規模なモデルを大幅に上回ることを示しています
- 言語から涌現する確率推論の実証: 数値的手がかりなしに、純粋な言語相互作用から確率推論能力が涌現できることを証明
- 包括的な比較分析の提供: LLMsと古典的な意思決定アルゴリズムの体系的な比較により、異なるアプローチの長所と短所を理解するための重要な洞察を提供
入力: 履歴選択と結果の自然言語記述(例:「スロットマシン1が勝ちました」、「スロットマシン2が負けました」)
出力: 次のラウンドの腕選択(数字ID、例:「1」または「2」)
制約: 数値的手がかりなし、明示的な確率なし、中間推論プロセスなし
- 腕の数: 2~5本の腕、各腕は固定だが未知の成功確率を持つ
- 報酬構造: 2腕構成では、一方の腕は65%の成功率、もう一方は30%の成功率
- フィードバックメカニズム:
- 成功: 「トークンを獲得しました」(報酬=1)
- 失敗: 「トークンを獲得しませんでした」(報酬=0)
各LLMは一貫したプロンプト構造を使用します:
- タスク記述: 意思決定コンテキストに置かれたタスクの自然言語指示
- 履歴記録: すべての以前の選択と結果の純粋な言語記述
- アクション要求: 対応する腕の数字を出力するようモデルに要求
本研究は、異なるアーキテクチャとパラメータスケールを持つ4つのオープンソースLLMsを選択しました:
| モデル | パラメータ数 | アーキテクチャ | 特徴 |
|---|
| Qwen3-4B | 4B | デコーダーのみTransformer | 多言語対応、強力な推論能力 |
| Qwen3-8B | 8B | デコーダーのみTransformer | Qwen3-4Bの大規模版、ツール使用能力強化 |
| Llama-3.1-8B | 8B | デコーダーのみTransformer | 指示追従と多言語能力最適化 |
| Phi-2 | 2.7B | Transformer | 小規模で効率的なモデル |
4つの古典的な多腕バンディットアルゴリズムを比較しました:
- Thompson抽出法: ベイズ推論を使用して確率分布からサンプリング
- 上信頼限界(UCB): 利用と探索のバランスを取る決定論的戦略
- Epsilon貪欲法: 1-εの確率で最適アクションを選択、それ以外はランダム選択
- ランダム選択: 完全にランダムなベースラインメソッド
- 試行回数: 各モデルで500回の独立実行
- 決定ラウンド数: 実行ごとに25ラウンドの意思決定
- 腕構成: 2~5本の腕の異なる構成をテスト
- 評価環境: RunPodでホストされるGPUインスタンスを使用、Hugging Face Transformersライブラリに基づく
- 累積報酬: 25ラウンドの意思決定で獲得した総トークン数
- 最適腕選択率: 最適腕(65%成功率)を選択する頻度の割合
- 累積後悔: 最適腕を選択しなかった機会費用
- 明確な出力を得るためChain-of-Thought推論を削除
- 同じプロンプト形式と構造を使用
- 各ステップの決定は単一の完成で実行、中間推論なし
| モデル/アルゴリズム | 最適腕選択率 | 累積報酬 |
|---|
| Qwen3-4B | 89.2% | 11,150 |
| Thompson抽出法 | 51.1% | 8,297 |
| UCB | 47.6% | 4,696 |
| Epsilon貪欲法 | 38.1% | 6,029 |
| Qwen3-8B | 37.5% | 4,686 |
| ランダム選択 | 31.8% | 5,783 |
| Llama-3.1-8B | 31.6% | 3,946 |
| Phi-2 | 25.4% | 3,181 |
- Qwen3-4B (4Bパラメータ) は Qwen3-8B (8Bパラメータ) を大幅に上回っています
- より大規模なモデルは「過度に思考」する傾向があり、意思決定パフォーマンスの低下につながります
- 最小のモデルPhi-2 (2.7B)は最悪のパフォーマンスを示し、最適なサイズ範囲が存在することを示唆しています
腕の数が増加するにつれて、すべてのモデルのパフォーマンスが大幅に低下します:
- Llama-3.1-8B: 31.56%(2腕)から7.37%(5腕)に低下
- Qwen3-4B: 89.22%(2腕)から6.53%(5腕)に低下
- Phi-2: 25.45%(2腕)から17.78%(5腕)に低下
- Qwen3-8B: 37.49%(2腕)から17.09%(5腕)に低下
- Qwen3-4Bは2腕構成で急速な後悔減少を示しています
- より大規模なモデルはすべての構成で高い累積後悔を維持しています
- 4腕構成は予期せず、すべてのモデルの中で最も低い累積後悔を生成しました
- 探索-利用戦略: LLMsはThompson抽出法に似た行動パターンを示しています
- 早期固化: モデルは限定的なフィードバックに基づいて「最適な」選択を過度に早く決定する傾向があります
- 推論オーバーヘッド: Qwen3-8Bは継続的な推論試行により異常に長い処理時間を要しています
- Xie et al. (2022): 文脈内学習をフレームワーク化した暗黙的ベイズ推論
- Gupta et al. (2025): LLMsがベイズ事後更新と一致する信念更新を行うことができることを証明
- Sun et al. (2025): 古典的なバンディット戦略とLLM報酬予測を組み合わせたハイブリッドアプローチを提案
- Felicioni et al. (2024): 逐次的意思決定において認識論的不確実性を明示的に考慮することの利益を探索
- 研究は不確実性がモデルの行動を導く価値のある信号として機能することを示しています
- Zhang et al. (2025): 多腕バンディットにおけるLLMsと人間の探索-利用戦略を比較
- LLMsの行動がChain-of-Thoughtにより人間の方法に近づくことを発見
- 言語から涌現する確率推論: 言語フィードバックのみに基づいて効果的な確率推論能力が生成できることを証明
- スケールとパフォーマンスの複雑な関係: モデルサイズは常に意思決定パフォーマンスと正の相関があるわけではありません
- アーキテクチャ最適化の重要性: 軽量で効率的なモデルアーキテクチャは、高速フィードバック環境でより有利な可能性があります
- モデル範囲の制限: 2.7B~8Bパラメータのオープンソースモデルのみをテストし、より大規模なモデルは含まれていません
- タスク複雑性: 静的で単純な報酬構造で、非定常環境や遅延フィードバックは含まれていません
- プロンプト戦略: Chain-of-Thoughtの回避はLLMsの真の能力を過小評価する可能性があります
- 計算リソースの制限: GPT-4などの大規模商用モデルをテストできませんでした
- 動的環境テスト: 非定常または遅延報酬のバンディット環境での評価
- ガイド付きプロンプト: Chain-of-Thoughtを組み合わせて、スキャフォールディングが探索-利用バランスに与える影響を研究
- スケール効果研究: より大規模なモデルと微調整変種のパフォーマンスを体系的に研究
- 多段階計画: 複雑な意思決定タスクへの拡張が多段階推論を必要とします
- 高い革新性: 純粋な言語環境での確率推論評価フレームワークを初めて提案
- 重要な発見: モデルサイズと意思決定パフォーマンスの反直感的な関係を明らかにしました
- 厳密な実験: 500回の独立実行により結果の統計的信頼性を確保
- 包括的なベースライン: 古典的アルゴリズムとの体系的な比較により価値のある参考情報を提供
- 優れた再現性: 完全なコードと詳細な実装説明を提供
- 理論的説明の不足: Qwen3-4Bの優れたパフォーマンスのメカニズムに対する説明が弱い
- モデル選択の限界: より大規模なモデルのテストが不足しています
- タスクの単一性: バンディット問題のみに焦点を当てており、一般化可能性は検証が必要
- 分析の深さ: 「過度な思考」現象に対するより深いメカニズム分析が不足しています
- 学術的価値: LLMsの確率推論能力を理解するための新しい評価フレームワークを提供
- 実用的意義: 言語ベースの意思決定システムの開発に重要な参考情報を提供
- 方法論的貢献: TextBanditベンチマークはこの分野の標準評価ツールになる可能性があります
- 学際的影響: 自然言語処理、意思決定理論、認知科学を結びつけています
- 教育評価: 教育シナリオにおけるAIシステムの意思決定能力の評価
- 人間-機械相互作用: より自然な意思決定支援システムの設計
- リソース配分: 正確なデータが不足している環境でのリソース最適化
- ゲームAI: 言語フィードバックに基づくゲーム知能エージェントの開発
本論文は確率推論、不確実性下での意思決定、多腕バンディット分野の重要な研究を引用しており、以下を含みます:
- Xie et al. (2022): 文脈内学習のベイズ推論フレームワーク
- Gupta et al. (2025): LLMsのベイズ信念更新能力
- Zhang et al. (2025): LLMsと人間の探索-利用戦略の比較
- Felicioni et al. (2024): 不確実性認識の逐次的意思決定
総合評価: これは重要な革新的価値を持つ論文であり、TextBanditベンチマークを通じてLLMsの確率推論能力を理解するための新しい視点を提供しています。いくつかの限界がありますが、発見された反直感的なスケール効果と言語から涌現する確率推論能力は、この分野に対して重要な理論的および実践的意義を持っています。