2025-11-13T17:28:10.587795

TextBandit: Evaluating Probabilistic Reasoning in LLMs Through Language-Only Decision Tasks

Lim, Damerla, Jiang et al.
Large language models (LLMs) have shown to be increasingly capable of performing reasoning tasks, but their ability to make sequential decisions under uncertainty only using natural language remains underexplored. We introduce a novel benchmark in which LLMs interact with multi-armed bandit environments using purely textual feedback, "you earned a token", without access to numerical cues or explicit probabilities, resulting in the model to infer latent reward structures purely off linguistic cues and to adapt accordingly. We evaluated the performance of four open-source LLMs and compare their performance to standard decision-making algorithms such as Thompson Sampling, Epsilon Greedy, Upper Confidence Bound (UCB), and random choice. While most of the LLMs underperformed compared to the baselines, Qwen3-4B, achieved the best-arm selection rate of 89.2% , which significantly outperformed both the larger LLMs and traditional methods. Our findings suggest that probabilistic reasoning is able to emerge from language alone, and we present this benchmark as a step towards evaluating decision-making capabilities in naturalistic, non-numeric contexts.
academic

TextBandit: Оценка вероятностного рассуждения в LLM через задачи принятия решений только на естественном языке

Основная информация

  • ID статьи: 2510.13878
  • Название: TextBandit: Evaluating Probabilistic Reasoning in LLMs Through Language-Only Decision Tasks
  • Авторы: Jimin Lim (UC Merced), Arjun Damerla (UC Berkeley), Arthur Jiang (Algoverse), Nam Le (Algoverse)
  • Классификация: cs.CL (Вычислительная лингвистика)
  • Дата публикации: 13 октября 2025 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2510.13878

Аннотация

Большие языковые модели (LLM) демонстрируют растущие способности в задачах рассуждения, однако их способность принимать последовательные решения в условиях неопределённости, используя только естественный язык, остаётся недостаточно изученной. В данной работе представлен новый набор тестов, в котором LLM взаимодействуют с окружением многорукого бандита, используя исключительно текстовую обратную связь ("вы получили токен"), без доступа к числовым подсказкам или явным вероятностям. Требуется, чтобы модель выводила основную структуру вознаграждений исключительно на основе языковых сигналов и соответственно адаптировала свои решения. Исследование оценивает производительность четырёх открытых LLM и сравнивает их со стандартными алгоритмами принятия решений: выборкой Томпсона, ε-жадным алгоритмом, верхней доверительной границей (UCB) и случайным выбором. Хотя большинство LLM показали результаты хуже базовых методов, Qwen3-4B достигла наилучшего показателя выбора оптимального рукава в 89,2%, значительно превосходя более крупные LLM и традиционные методы.

Исследовательский контекст и мотивация

Определение проблемы

Основной вопрос исследования: способны ли большие языковые модели проводить эффективное вероятностное рассуждение и принимать решения в неопределённых окружениях, используя только обратную связь на естественном языке?

Значимость

  1. Теоретическое значение: Исследование того, обладают ли LLM врождённой способностью к байесовскому рассуждению, имеет важное значение для понимания когнитивных механизмов систем искусственного интеллекта
  2. Практическая ценность: В реальных сценариях принятия решений часто отсутствуют точные числовые данные, и суждения основываются только на языковых описаниях
  3. Технические вызовы: Традиционные методы принятия решений в условиях неопределённости требуют сложных математических вычислений, тогда как методы на основе языка могут предоставить более гибкие и доступные решения

Ограничения существующих подходов

  1. Зависимость от чисел: Традиционные байесовские методы и методы обучения с подкреплением требуют явных числовых входных данных и информации о вероятностях
  2. Отсутствие оценки: Недостаток специализированных тестов для оценки способности LLM к вероятностному рассуждению в чисто языковой среде
  3. Ограничения сложности: Существующие исследования сосредоточены в основном на простых ограниченных задачах и недостаточно изучают многошаговые сценарии принятия решений

Исследовательская мотивация

Авторы полагают, что если LLM способны проводить эффективное вероятностное рассуждение только на основе языковой обратной связи, это откроет новые возможности для естественного, ненумерического принятия решений, особенно в практических приложениях, где отсутствуют структурированные данные.

Основные вклады

  1. Предложение набора тестов TextBandit: Первый специализированный тест для оценки способности LLM к вероятностному рассуждению в чисто языковой среде, использующий структуру многорукого бандита
  2. Обнаружение контринтуитивного эффекта масштаба: Доказательство отрицательной корреляции между размером модели и производительностью при принятии решений; меньшая модель Qwen3-4B значительно превосходит более крупные модели
  3. Демонстрация возникающего вероятностного рассуждения из языка: Доказательство того, что способность к вероятностному рассуждению может возникать из чисто языкового взаимодействия без числовых сигналов
  4. Предоставление комплексного сравнительного анализа: Систематическое сравнение LLM с классическими алгоритмами принятия решений, обеспечивающее важные выводы о преимуществах и недостатках различных подходов

Подробное описание методологии

Определение задачи

Входные данные: Описание истории выборов и результатов на естественном языке (например, "рукав 1 выиграл", "рукав 2 проиграл") Выходные данные: Выбор рукава на следующем раунде (числовой идентификатор, например "1" или "2") Ограничения: Отсутствие числовых сигналов, отсутствие явных вероятностей, отсутствие промежуточных процессов рассуждения

Архитектура экспериментов

Окружение многорукого бандита

  • Количество рукавов: 2-5 рукавов, каждый с фиксированной, но неизвестной вероятностью успеха
  • Структура вознаграждений: В двухрукавной конфигурации один рукав имеет вероятность успеха 65%, другой — 30%
  • Механизм обратной связи:
    • Успех: "вы получили токен" (вознаграждение = 1)
    • Неудача: "вы не получили токен" (вознаграждение = 0)

Протокол подсказок

Каждая LLM использует согласованную структуру подсказок:

  1. Описание задачи: Инструкции на естественном языке, помещающие задачу в контекст принятия решений
  2. История: Описание всех предыдущих выборов и результатов на чистом языке
  3. Запрос действия: Требование от модели вывести числовой идентификатор соответствующего рукава

Оценённые модели

Исследование выбрало четыре открытые LLM с различными архитектурами и размерами параметров:

МодельПараметрыАрхитектураОсобенности
Qwen3-4B4BТрансформер (только декодер)Поддержка многоязычности, сильные способности рассуждения
Qwen3-8B8BТрансформер (только декодер)Расширенная версия Qwen3-4B, улучшенные способности использования инструментов
Llama-3.1-8B8BТрансформер (только декодер)Оптимизирована для следования инструкциям и многоязычности
Phi-22.7BТрансформерКомпактная и эффективная модель

Базовые методы

Сравнение с четырьмя классическими алгоритмами многорукого бандита:

  1. Выборка Томпсона: Использование байесовского вывода для выборки из распределения вероятностей
  2. Верхняя доверительная граница (UCB): Детерминированная стратегия, балансирующая эксплуатацию и исследование
  3. ε-жадный алгоритм: Выбор оптимального действия с вероятностью 1-ε, иначе случайный выбор
  4. Случайный выбор: Полностью случайный базовый метод

Экспериментальная установка

Конфигурация экспериментов

  • Количество испытаний: 500 независимых запусков для каждой модели
  • Раунды принятия решений: 25 раундов принятия решений на каждый запуск
  • Конфигурации рукавов: Тестирование различных конфигураций с 2-5 рукавами
  • Среда оценки: Использование экземпляров GPU, размещённых на RunPod, на основе библиотеки Hugging Face Transformers

Метрики оценки

  1. Накопленное вознаграждение: Общее количество токенов, полученных за 25 раундов принятия решений
  2. Процент выбора оптимального рукава: Частота выбора оптимального рукава (вероятность успеха 65%)
  3. Накопленное сожаление: Упущенная выгода от невыбора оптимального рукава

Контроль экспериментов

  • Удаление рассуждений типа "цепь мыслей" для получения чистого вывода
  • Использование одинакового формата и структуры подсказок
  • Однократное завершение на каждом шаге принятия решения без промежуточного рассуждения

Результаты экспериментов

Основные результаты

Сравнение процента выбора оптимального рукава

Модель/АлгоритмПроцент выбора оптимального рукаваНакопленное вознаграждение
Qwen3-4B89,2%11 150
Выборка Томпсона51,1%8 297
UCB47,6%4 696
ε-жадный алгоритм38,1%6 029
Qwen3-8B37,5%4 686
Случайный выбор31,8%5 783
Llama-3.1-8B31,6%3 946
Phi-225,4%3 181

Ключевые находки

1. Контринтуитивный эффект масштаба

  • Qwen3-4B (4B параметров) значительно превосходит Qwen3-8B (8B параметров)
  • Более крупные модели склонны к "чрезмерному размышлению", что приводит к снижению производительности при принятии решений
  • Наименьшая модель Phi-2 (2,7B) показала наихудшие результаты, указывая на существование оптимального диапазона размеров

2. Влияние количества рукавов на производительность

Производительность всех моделей значительно снижается с увеличением количества рукавов:

  • Llama-3.1-8B: Снижение с 31,56% (2 рукава) до 7,37% (5 рукавов)
  • Qwen3-4B: Снижение с 89,22% (2 рукава) до 6,53% (5 рукавов)
  • Phi-2: Снижение с 25,45% (2 рукава) до 17,78% (5 рукавов)
  • Qwen3-8B: Снижение с 37,49% (2 рукава) до 17,09% (5 рукавов)

3. Анализ накопленного сожаления

  • Qwen3-4B демонстрирует быстрое снижение сожаления в двухрукавной конфигурации
  • Более крупные модели поддерживают высокое накопленное сожаление во всех конфигурациях
  • Четырёхрукавная конфигурация неожиданно привела к наименьшему накопленному сожалению среди всех моделей

Качественный анализ

  1. Стратегия эксплуатации-исследования: LLM демонстрируют поведение, подобное выборке Томпсона
  2. Раннее закрепление: Модели склонны преждевременно определять "оптимальный" выбор на основе ограниченной обратной связи
  3. Затраты на рассуждение: Qwen3-8B требует необычно длительного времени из-за постоянных попыток рассуждения

Связанные работы

Вероятностное рассуждение в LLM

  • Xie et al. (2022): Формализация контекстного обучения как неявного байесовского вывода
  • Gupta et al. (2025): Доказательство того, что LLM способны к обновлению убеждений, согласованному с байесовским апостериорным обновлением
  • Sun et al. (2025): Предложение гибридного подхода, объединяющего классические стратегии бандита и предсказание вознаграждений LLM

Принятие решений с учётом неопределённости

  • Felicioni et al. (2024): Исследование преимуществ явного учёта эпистемической неопределённости при последовательном принятии решений
  • Исследования показывают, что неопределённость может служить ценным сигналом для руководства поведением модели

Исследование-эксплуатация в окружении бандита

  • Zhang et al. (2025): Сравнение стратегий исследования-эксплуатации LLM и человека в многоруком бандите
  • Обнаружено, что рассуждение типа "цепь мыслей" значительно улучшает способность рассуждения, приближая поведение LLM к человеческим методам

Выводы и обсуждение

Основные выводы

  1. Возникающее из языка вероятностное рассуждение: Доказательство того, что эффективное вероятностное рассуждение может возникать исключительно из языковой обратной связи
  2. Сложные отношения между масштабом и производительностью: Размер модели не всегда положительно коррелирует с производительностью при принятии решений
  3. Важность оптимизации архитектуры: Компактные, эффективные архитектуры моделей могут иметь преимущества в окружениях с быстрой обратной связью

Ограничения

  1. Ограниченный диапазон моделей: Тестирование только открытых моделей размером 2,7B-8B параметров без включения более крупных моделей
  2. Сложность задачи: Статические, простые структуры вознаграждения без нестационарных окружений или отложенной обратной связи
  3. Стратегия подсказок: Избежание рассуждения типа "цепь мыслей" может недооценивать истинные способности LLM
  4. Ограничения вычислительных ресурсов: Невозможность тестирования крупных коммерческих моделей, таких как GPT-4

Будущие направления

  1. Тестирование в динамических окружениях: Оценка в нестационарных окружениях бандита или с отложенной обратной связью
  2. Направленные подсказки: Исследование влияния рассуждения типа "цепь мыслей" на баланс исследования-эксплуатации
  3. Исследование эффектов масштаба: Систематическое изучение производительности более крупных моделей и вариантов с дообучением
  4. Многошаговое планирование: Расширение на сложные задачи принятия решений, требующие многошагового рассуждения

Глубокая оценка

Преимущества

  1. Высокая инновационность: Первое предложение структуры оценки вероятностного рассуждения в чисто языковой среде
  2. Важные находки: Раскрытие контринтуитивных отношений между размером модели и производительностью при принятии решений
  3. Строгие эксперименты: 500 независимых запусков обеспечивают статистическую надёжность результатов
  4. Комплексные базовые методы: Систематическое сравнение с классическими алгоритмами предоставляет ценные справочные материалы
  5. Хорошая воспроизводимость: Предоставление полного кода и подробных инструкций по реализации

Недостатки

  1. Недостаточное теоретическое объяснение: Слабое объяснение механизмов, лежащих в основе исключительной производительности Qwen3-4B
  2. Ограничения выбора моделей: Отсутствие тестирования более крупных моделей
  3. Однородность задач: Сосредоточение только на задачах бандита; обобщаемость требует проверки
  4. Поверхностный анализ: Недостаточно глубокий анализ механизмов явления "чрезмерного размышления"

Влияние

  1. Академическая ценность: Предоставление новой структуры оценки для понимания способности LLM к вероятностному рассуждению
  2. Практическое значение: Предоставление важных справочных материалов для разработки систем принятия решений на основе языка
  3. Методологический вклад: Набор тестов TextBandit может стать стандартным инструментом оценки в этой области
  4. Междисциплинарное влияние: Связь обработки естественного языка, теории принятия решений и когнитивной науки

Применимые сценарии

  1. Оценка в образовании: Оценка способности систем искусственного интеллекта принимать решения в образовательных сценариях
  2. Взаимодействие человека и машины: Разработка более естественных систем поддержки принятия решений
  3. Распределение ресурсов: Оптимизация ресурсов в окружениях, где отсутствуют точные данные
  4. Игровой ИИ: Разработка игровых интеллектуальных агентов, использующих языковую обратную связь

Библиография

Статья цитирует важные работы в областях вероятностного рассуждения, принятия решений в условиях неопределённости и многорукого бандита, включая:

  • Xie et al. (2022): Байесовская структура вывода для контекстного обучения
  • Gupta et al. (2025): Способность LLM к байесовскому обновлению убеждений
  • Zhang et al. (2025): Сравнение стратегий исследования-эксплуатации LLM и человека
  • Felicioni et al. (2024): Принятие последовательных решений с учётом неопределённости

Общая оценка: Это статья с важной инновационной ценностью, которая предоставляет новую перспективу для понимания способности LLM к вероятностному рассуждению через набор тестов TextBandit. Несмотря на некоторые ограничения, обнаруженные контринтуитивные эффекты масштаба и возникающее из языка вероятностное рассуждение имеют важное теоретическое и практическое значение для этой области.