Large language models (LLMs) have shown to be increasingly capable of performing reasoning tasks, but their ability to make sequential decisions under uncertainty only using natural language remains underexplored. We introduce a novel benchmark in which LLMs interact with multi-armed bandit environments using purely textual feedback, "you earned a token", without access to numerical cues or explicit probabilities, resulting in the model to infer latent reward structures purely off linguistic cues and to adapt accordingly. We evaluated the performance of four open-source LLMs and compare their performance to standard decision-making algorithms such as Thompson Sampling, Epsilon Greedy, Upper Confidence Bound (UCB), and random choice. While most of the LLMs underperformed compared to the baselines, Qwen3-4B, achieved the best-arm selection rate of 89.2% , which significantly outperformed both the larger LLMs and traditional methods. Our findings suggest that probabilistic reasoning is able to emerge from language alone, and we present this benchmark as a step towards evaluating decision-making capabilities in naturalistic, non-numeric contexts.
TextBandit: Оценка вероятностного рассуждения в LLM через задачи принятия решений только на естественном языке
- ID статьи: 2510.13878
- Название: TextBandit: Evaluating Probabilistic Reasoning in LLMs Through Language-Only Decision Tasks
- Авторы: Jimin Lim (UC Merced), Arjun Damerla (UC Berkeley), Arthur Jiang (Algoverse), Nam Le (Algoverse)
- Классификация: cs.CL (Вычислительная лингвистика)
- Дата публикации: 13 октября 2025 г. (препринт arXiv)
- Ссылка на статью: https://arxiv.org/abs/2510.13878
Большие языковые модели (LLM) демонстрируют растущие способности в задачах рассуждения, однако их способность принимать последовательные решения в условиях неопределённости, используя только естественный язык, остаётся недостаточно изученной. В данной работе представлен новый набор тестов, в котором LLM взаимодействуют с окружением многорукого бандита, используя исключительно текстовую обратную связь ("вы получили токен"), без доступа к числовым подсказкам или явным вероятностям. Требуется, чтобы модель выводила основную структуру вознаграждений исключительно на основе языковых сигналов и соответственно адаптировала свои решения. Исследование оценивает производительность четырёх открытых LLM и сравнивает их со стандартными алгоритмами принятия решений: выборкой Томпсона, ε-жадным алгоритмом, верхней доверительной границей (UCB) и случайным выбором. Хотя большинство LLM показали результаты хуже базовых методов, Qwen3-4B достигла наилучшего показателя выбора оптимального рукава в 89,2%, значительно превосходя более крупные LLM и традиционные методы.
Основной вопрос исследования: способны ли большие языковые модели проводить эффективное вероятностное рассуждение и принимать решения в неопределённых окружениях, используя только обратную связь на естественном языке?
- Теоретическое значение: Исследование того, обладают ли LLM врождённой способностью к байесовскому рассуждению, имеет важное значение для понимания когнитивных механизмов систем искусственного интеллекта
- Практическая ценность: В реальных сценариях принятия решений часто отсутствуют точные числовые данные, и суждения основываются только на языковых описаниях
- Технические вызовы: Традиционные методы принятия решений в условиях неопределённости требуют сложных математических вычислений, тогда как методы на основе языка могут предоставить более гибкие и доступные решения
- Зависимость от чисел: Традиционные байесовские методы и методы обучения с подкреплением требуют явных числовых входных данных и информации о вероятностях
- Отсутствие оценки: Недостаток специализированных тестов для оценки способности LLM к вероятностному рассуждению в чисто языковой среде
- Ограничения сложности: Существующие исследования сосредоточены в основном на простых ограниченных задачах и недостаточно изучают многошаговые сценарии принятия решений
Авторы полагают, что если LLM способны проводить эффективное вероятностное рассуждение только на основе языковой обратной связи, это откроет новые возможности для естественного, ненумерического принятия решений, особенно в практических приложениях, где отсутствуют структурированные данные.
- Предложение набора тестов TextBandit: Первый специализированный тест для оценки способности LLM к вероятностному рассуждению в чисто языковой среде, использующий структуру многорукого бандита
- Обнаружение контринтуитивного эффекта масштаба: Доказательство отрицательной корреляции между размером модели и производительностью при принятии решений; меньшая модель Qwen3-4B значительно превосходит более крупные модели
- Демонстрация возникающего вероятностного рассуждения из языка: Доказательство того, что способность к вероятностному рассуждению может возникать из чисто языкового взаимодействия без числовых сигналов
- Предоставление комплексного сравнительного анализа: Систематическое сравнение LLM с классическими алгоритмами принятия решений, обеспечивающее важные выводы о преимуществах и недостатках различных подходов
Входные данные: Описание истории выборов и результатов на естественном языке (например, "рукав 1 выиграл", "рукав 2 проиграл")
Выходные данные: Выбор рукава на следующем раунде (числовой идентификатор, например "1" или "2")
Ограничения: Отсутствие числовых сигналов, отсутствие явных вероятностей, отсутствие промежуточных процессов рассуждения
- Количество рукавов: 2-5 рукавов, каждый с фиксированной, но неизвестной вероятностью успеха
- Структура вознаграждений: В двухрукавной конфигурации один рукав имеет вероятность успеха 65%, другой — 30%
- Механизм обратной связи:
- Успех: "вы получили токен" (вознаграждение = 1)
- Неудача: "вы не получили токен" (вознаграждение = 0)
Каждая LLM использует согласованную структуру подсказок:
- Описание задачи: Инструкции на естественном языке, помещающие задачу в контекст принятия решений
- История: Описание всех предыдущих выборов и результатов на чистом языке
- Запрос действия: Требование от модели вывести числовой идентификатор соответствующего рукава
Исследование выбрало четыре открытые LLM с различными архитектурами и размерами параметров:
| Модель | Параметры | Архитектура | Особенности |
|---|
| Qwen3-4B | 4B | Трансформер (только декодер) | Поддержка многоязычности, сильные способности рассуждения |
| Qwen3-8B | 8B | Трансформер (только декодер) | Расширенная версия Qwen3-4B, улучшенные способности использования инструментов |
| Llama-3.1-8B | 8B | Трансформер (только декодер) | Оптимизирована для следования инструкциям и многоязычности |
| Phi-2 | 2.7B | Трансформер | Компактная и эффективная модель |
Сравнение с четырьмя классическими алгоритмами многорукого бандита:
- Выборка Томпсона: Использование байесовского вывода для выборки из распределения вероятностей
- Верхняя доверительная граница (UCB): Детерминированная стратегия, балансирующая эксплуатацию и исследование
- ε-жадный алгоритм: Выбор оптимального действия с вероятностью 1-ε, иначе случайный выбор
- Случайный выбор: Полностью случайный базовый метод
- Количество испытаний: 500 независимых запусков для каждой модели
- Раунды принятия решений: 25 раундов принятия решений на каждый запуск
- Конфигурации рукавов: Тестирование различных конфигураций с 2-5 рукавами
- Среда оценки: Использование экземпляров GPU, размещённых на RunPod, на основе библиотеки Hugging Face Transformers
- Накопленное вознаграждение: Общее количество токенов, полученных за 25 раундов принятия решений
- Процент выбора оптимального рукава: Частота выбора оптимального рукава (вероятность успеха 65%)
- Накопленное сожаление: Упущенная выгода от невыбора оптимального рукава
- Удаление рассуждений типа "цепь мыслей" для получения чистого вывода
- Использование одинакового формата и структуры подсказок
- Однократное завершение на каждом шаге принятия решения без промежуточного рассуждения
| Модель/Алгоритм | Процент выбора оптимального рукава | Накопленное вознаграждение |
|---|
| Qwen3-4B | 89,2% | 11 150 |
| Выборка Томпсона | 51,1% | 8 297 |
| UCB | 47,6% | 4 696 |
| ε-жадный алгоритм | 38,1% | 6 029 |
| Qwen3-8B | 37,5% | 4 686 |
| Случайный выбор | 31,8% | 5 783 |
| Llama-3.1-8B | 31,6% | 3 946 |
| Phi-2 | 25,4% | 3 181 |
- Qwen3-4B (4B параметров) значительно превосходит Qwen3-8B (8B параметров)
- Более крупные модели склонны к "чрезмерному размышлению", что приводит к снижению производительности при принятии решений
- Наименьшая модель Phi-2 (2,7B) показала наихудшие результаты, указывая на существование оптимального диапазона размеров
Производительность всех моделей значительно снижается с увеличением количества рукавов:
- Llama-3.1-8B: Снижение с 31,56% (2 рукава) до 7,37% (5 рукавов)
- Qwen3-4B: Снижение с 89,22% (2 рукава) до 6,53% (5 рукавов)
- Phi-2: Снижение с 25,45% (2 рукава) до 17,78% (5 рукавов)
- Qwen3-8B: Снижение с 37,49% (2 рукава) до 17,09% (5 рукавов)
- Qwen3-4B демонстрирует быстрое снижение сожаления в двухрукавной конфигурации
- Более крупные модели поддерживают высокое накопленное сожаление во всех конфигурациях
- Четырёхрукавная конфигурация неожиданно привела к наименьшему накопленному сожалению среди всех моделей
- Стратегия эксплуатации-исследования: LLM демонстрируют поведение, подобное выборке Томпсона
- Раннее закрепление: Модели склонны преждевременно определять "оптимальный" выбор на основе ограниченной обратной связи
- Затраты на рассуждение: Qwen3-8B требует необычно длительного времени из-за постоянных попыток рассуждения
- Xie et al. (2022): Формализация контекстного обучения как неявного байесовского вывода
- Gupta et al. (2025): Доказательство того, что LLM способны к обновлению убеждений, согласованному с байесовским апостериорным обновлением
- Sun et al. (2025): Предложение гибридного подхода, объединяющего классические стратегии бандита и предсказание вознаграждений LLM
- Felicioni et al. (2024): Исследование преимуществ явного учёта эпистемической неопределённости при последовательном принятии решений
- Исследования показывают, что неопределённость может служить ценным сигналом для руководства поведением модели
- Zhang et al. (2025): Сравнение стратегий исследования-эксплуатации LLM и человека в многоруком бандите
- Обнаружено, что рассуждение типа "цепь мыслей" значительно улучшает способность рассуждения, приближая поведение LLM к человеческим методам
- Возникающее из языка вероятностное рассуждение: Доказательство того, что эффективное вероятностное рассуждение может возникать исключительно из языковой обратной связи
- Сложные отношения между масштабом и производительностью: Размер модели не всегда положительно коррелирует с производительностью при принятии решений
- Важность оптимизации архитектуры: Компактные, эффективные архитектуры моделей могут иметь преимущества в окружениях с быстрой обратной связью
- Ограниченный диапазон моделей: Тестирование только открытых моделей размером 2,7B-8B параметров без включения более крупных моделей
- Сложность задачи: Статические, простые структуры вознаграждения без нестационарных окружений или отложенной обратной связи
- Стратегия подсказок: Избежание рассуждения типа "цепь мыслей" может недооценивать истинные способности LLM
- Ограничения вычислительных ресурсов: Невозможность тестирования крупных коммерческих моделей, таких как GPT-4
- Тестирование в динамических окружениях: Оценка в нестационарных окружениях бандита или с отложенной обратной связью
- Направленные подсказки: Исследование влияния рассуждения типа "цепь мыслей" на баланс исследования-эксплуатации
- Исследование эффектов масштаба: Систематическое изучение производительности более крупных моделей и вариантов с дообучением
- Многошаговое планирование: Расширение на сложные задачи принятия решений, требующие многошагового рассуждения
- Высокая инновационность: Первое предложение структуры оценки вероятностного рассуждения в чисто языковой среде
- Важные находки: Раскрытие контринтуитивных отношений между размером модели и производительностью при принятии решений
- Строгие эксперименты: 500 независимых запусков обеспечивают статистическую надёжность результатов
- Комплексные базовые методы: Систематическое сравнение с классическими алгоритмами предоставляет ценные справочные материалы
- Хорошая воспроизводимость: Предоставление полного кода и подробных инструкций по реализации
- Недостаточное теоретическое объяснение: Слабое объяснение механизмов, лежащих в основе исключительной производительности Qwen3-4B
- Ограничения выбора моделей: Отсутствие тестирования более крупных моделей
- Однородность задач: Сосредоточение только на задачах бандита; обобщаемость требует проверки
- Поверхностный анализ: Недостаточно глубокий анализ механизмов явления "чрезмерного размышления"
- Академическая ценность: Предоставление новой структуры оценки для понимания способности LLM к вероятностному рассуждению
- Практическое значение: Предоставление важных справочных материалов для разработки систем принятия решений на основе языка
- Методологический вклад: Набор тестов TextBandit может стать стандартным инструментом оценки в этой области
- Междисциплинарное влияние: Связь обработки естественного языка, теории принятия решений и когнитивной науки
- Оценка в образовании: Оценка способности систем искусственного интеллекта принимать решения в образовательных сценариях
- Взаимодействие человека и машины: Разработка более естественных систем поддержки принятия решений
- Распределение ресурсов: Оптимизация ресурсов в окружениях, где отсутствуют точные данные
- Игровой ИИ: Разработка игровых интеллектуальных агентов, использующих языковую обратную связь
Статья цитирует важные работы в областях вероятностного рассуждения, принятия решений в условиях неопределённости и многорукого бандита, включая:
- Xie et al. (2022): Байесовская структура вывода для контекстного обучения
- Gupta et al. (2025): Способность LLM к байесовскому обновлению убеждений
- Zhang et al. (2025): Сравнение стратегий исследования-эксплуатации LLM и человека
- Felicioni et al. (2024): Принятие последовательных решений с учётом неопределённости
Общая оценка: Это статья с важной инновационной ценностью, которая предоставляет новую перспективу для понимания способности LLM к вероятностному рассуждению через набор тестов TextBandit. Несмотря на некоторые ограничения, обнаруженные контринтуитивные эффекты масштаба и возникающее из языка вероятностное рассуждение имеют важное теоретическое и практическое значение для этой области.