2025-11-13T17:28:10.587795

TextBandit: Evaluating Probabilistic Reasoning in LLMs Through Language-Only Decision Tasks

Lim, Damerla, Jiang et al.

Large language models (LLMs) have shown to be increasingly capable of performing reasoning tasks, but their ability to make sequential decisions under uncertainty only using natural language remains underexplored. We introduce a novel benchmark in which LLMs interact with multi-armed bandit environments using purely textual feedback, "you earned a token", without access to numerical cues or explicit probabilities, resulting in the model to infer latent reward structures purely off linguistic cues and to adapt accordingly. We evaluated the performance of four open-source LLMs and compare their performance to standard decision-making algorithms such as Thompson Sampling, Epsilon Greedy, Upper Confidence Bound (UCB), and random choice. While most of the LLMs underperformed compared to the baselines, Qwen3-4B, achieved the best-arm selection rate of 89.2% , which significantly outperformed both the larger LLMs and traditional methods. Our findings suggest that probabilistic reasoning is able to emerge from language alone, and we present this benchmark as a step towards evaluating decision-making capabilities in naturalistic, non-numeric contexts.

academic

TextBandit: Evaluación del Razonamiento Probabilístico en LLMs a Través de Tareas de Decisión Solo en Lenguaje

Información Básica

ID del Artículo: 2510.13878
Título: TextBandit: Evaluación del Razonamiento Probabilístico en LLMs a Través de Tareas de Decisión Solo en Lenguaje
Autores: Jimin Lim (UC Merced), Arjun Damerla (UC Berkeley), Arthur Jiang (Algoverse), Nam Le (Algoverse)
Clasificación: cs.CL (Lingüística Computacional)
Fecha de Publicación: 13 de octubre de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.13878

Resumen

Los modelos de lenguaje grandes (LLMs) demuestran capacidades cada vez más sólidas en tareas de razonamiento, pero su capacidad para realizar toma de decisiones secuencial bajo incertidumbre utilizando únicamente lenguaje natural sigue siendo insuficientemente explorada. Este artículo introduce un nuevo conjunto de pruebas en el cual los LLMs interactúan con un entorno de máquinas tragamonedas multibrazo utilizando retroalimentación de texto puro ("obtuviste una moneda"), sin acceso a pistas numéricas o probabilidades explícitas, requiriendo que el modelo infiera la estructura de recompensas subyacente basándose puramente en pistas lingüísticas y se ajuste en consecuencia. El estudio evalúa el desempeño de cuatro LLMs de código abierto y los compara con algoritmos de toma de decisiones estándar como muestreo de Thompson, epsilon-codicioso, límite de confianza superior (UCB) y selección aleatoria. Aunque la mayoría de los LLMs tienen un desempeño inferior al de los métodos de referencia, Qwen3-4B logra una tasa de selección del brazo óptimo del 89.2%, superando significativamente a LLMs más grandes y métodos tradicionales.

Antecedentes de Investigación y Motivación

Definición del Problema

La pregunta central que aborda esta investigación es: ¿pueden los modelos de lenguaje grandes realizar razonamiento probabilístico efectivo y toma de decisiones en entornos inciertos únicamente a través de retroalimentación en lenguaje natural?

Importancia

Significado Teórico: Explora si los LLMs poseen capacidades intrínsecas de razonamiento bayesiano, lo cual tiene valor importante para comprender los mecanismos cognitivos de los sistemas de IA
Valor Práctico: En el mundo real, muchos escenarios de decisión carecen de datos numéricos precisos y solo pueden depender de descripciones lingüísticas para el juicio
Desafío Técnico: Los métodos tradicionales de decisión bajo incertidumbre dependen de cálculos matemáticos complejos, mientras que los métodos basados en lenguaje podrían proporcionar soluciones más flexibles y accesibles

Limitaciones de Métodos Existentes

Dependencia Numérica: Los métodos tradicionales de razonamiento bayesiano y aprendizaje por refuerzo requieren entradas numéricas explícitas e información probabilística
Evaluación Faltante: Carencia de conjuntos de pruebas especializados para evaluar las capacidades de razonamiento probabilístico de los LLMs en entornos puramente lingüísticos
Restricciones de Complejidad: La investigación existente se enfoca principalmente en tareas restringidas simples, sin explorar suficientemente escenarios de decisión multietapa

Motivación de la Investigación

Los autores argumentan que si los LLMs pueden realizar razonamiento probabilístico efectivo únicamente a través de retroalimentación lingüística, esto abriría nuevas posibilidades para la toma de decisiones natural y no numérica, particularmente en escenarios de aplicación práctica donde faltan datos estructurados.

Contribuciones Principales

Propuesta del Conjunto de Pruebas TextBandit: El primer conjunto de pruebas especializado para evaluar las capacidades de razonamiento probabilístico de los LLMs en entornos puramente lingüísticos, utilizando el marco de máquinas tragamonedas multibrazo
Descubrimiento de Efectos de Escala Contraintuitivios: Demuestra que existe una relación negativa entre el tamaño del modelo y el desempeño en la toma de decisiones, siendo Qwen3-4B significativamente superior a modelos más grandes
Demostración del Razonamiento Probabilístico Emergente del Lenguaje: Prueba que las capacidades de razonamiento probabilístico pueden emerger de interacciones puramente lingüísticas sin pistas numéricas
Análisis Comparativo Integral: Proporciona comparación sistemática entre LLMs y algoritmos de decisión clásicos, ofreciendo perspectivas importantes para comprender las ventajas y desventajas de diferentes enfoques

Explicación Detallada de la Metodología

Definición de la Tarea

Entrada: Descripción en lenguaje natural del historial de selecciones y resultados (como "la máquina tragamonedas 1 ganó", "la máquina tragamonedas 2 perdió") Salida: Selección del brazo para la siguiente ronda (ID numérico, como "1" o "2") Restricciones: Sin pistas numéricas, sin probabilidades explícitas, sin procesos de razonamiento intermedio

Arquitectura Experimental

Entorno de Máquinas Tragamonedas Multibrazo

Número de Brazos: 2-5 brazos, cada uno con una probabilidad de éxito fija pero desconocida
Estructura de Recompensas: En configuraciones de dos brazos, un brazo tiene tasa de éxito del 65% y el otro del 30%
Mecanismo de Retroalimentación:
- Éxito: "obtuviste una moneda" (recompensa=1)
- Fracaso: "no obtuviste una moneda" (recompensa=0)

Protocolo de Indicaciones

Cada LLM utiliza una estructura de indicación consistente:

Descripción de la Tarea: Instrucciones en lenguaje natural que sitúan la tarea en un contexto de decisión
Registro del Historial: Descripción puramente lingüística de todas las selecciones y resultados previos
Solicitud de Acción: Solicitud al modelo de que genere el número correspondiente al brazo

Modelos Evaluados

El estudio seleccionó cuatro LLMs de código abierto con diferentes arquitecturas y escalas de parámetros:

Modelo	Parámetros	Arquitectura	Características
Qwen3-4B	4B	Transformer solo decodificador	Multilingüe, capacidades de razonamiento sólidas
Qwen3-8B	8B	Transformer solo decodificador	Versión más grande de Qwen3-4B, capacidades mejoradas de uso de herramientas
Llama-3.1-8B	8B	Transformer solo decodificador	Optimizado para seguimiento de instrucciones y multilingüismo
Phi-2	2.7B	Transformer	Modelo pequeño y eficiente

Métodos de Referencia

Se compararon cuatro algoritmos clásicos de máquinas tragamonedas multibrazo:

Muestreo de Thompson: Utiliza razonamiento bayesiano para muestrear desde distribuciones de probabilidad
Límite de Confianza Superior (UCB): Estrategia determinista que equilibra explotación y exploración
Epsilon-Codicioso: Selecciona la mejor acción con probabilidad 1-ε, de lo contrario selecciona aleatoriamente
Selección Aleatoria: Método de referencia completamente aleatorio

Configuración Experimental

Configuración del Experimento

Número de Ensayos: 500 ejecuciones independientes para cada modelo
Rondas de Decisión: 25 rondas de decisión por ejecución
Configuraciones de Brazos: Pruebas con diferentes configuraciones de 2-5 brazos
Entorno de Evaluación: Instancias de GPU alojadas en RunPod, basadas en la biblioteca Hugging Face Transformers

Métricas de Evaluación

Recompensa Acumulada: Número total de monedas obtenidas en 25 rondas de decisión
Tasa de Selección del Brazo Óptimo: Porcentaje de frecuencia de selección del brazo óptimo (tasa de éxito del 65%)
Arrepentimiento Acumulado: Costo de oportunidad de no seleccionar el brazo óptimo

Control Experimental

Eliminación del razonamiento de Cadena de Pensamiento para obtener salidas claras
Uso del mismo formato y estructura de indicación
Decisión única en cada paso sin razonamiento intermedio

Resultados Experimentales

Resultados Principales

Comparación de Tasas de Selección del Brazo Óptimo

Modelo/Algoritmo	Tasa de Selección del Brazo Óptimo	Recompensa Acumulada
Qwen3-4B	89.2%	11,150
Muestreo de Thompson	51.1%	8,297
UCB	47.6%	4,696
Epsilon-Codicioso	38.1%	6,029
Qwen3-8B	37.5%	4,686
Selección Aleatoria	31.8%	5,783
Llama-3.1-8B	31.6%	3,946
Phi-2	25.4%	3,181

Hallazgos Clave

1. Efectos de Escala Contraintuitivos

Qwen3-4B (4B parámetros) supera significativamente a Qwen3-8B (8B parámetros)
Los modelos más grandes tienden a "pensar demasiado", resultando en degradación del desempeño en la toma de decisiones
El modelo más pequeño Phi-2 (2.7B) tiene el peor desempeño, indicando que existe un rango de tamaño óptimo

2. Impacto del Número de Brazos en el Desempeño

El desempeño de todos los modelos disminuye significativamente con el aumento del número de brazos:

Llama-3.1-8B: Disminuye de 31.56% (2 brazos) a 7.37% (5 brazos)
Qwen3-4B: Disminuye de 89.22% (2 brazos) a 6.53% (5 brazos)
Phi-2: Disminuye de 25.45% (2 brazos) a 17.78% (5 brazos)
Qwen3-8B: Disminuye de 37.49% (2 brazos) a 17.09% (5 brazos)

3. Análisis del Arrepentimiento Acumulado

Qwen3-4B muestra reducción rápida del arrepentimiento en configuraciones de 2 brazos
Los modelos más grandes mantienen arrepentimiento acumulado más alto en todas las configuraciones
La configuración de 4 brazos produjo inesperadamente el arrepentimiento acumulado más bajo entre todos los modelos

Análisis Cualitativo

Estrategia de Exploración-Explotación: Los LLMs exhiben patrones de comportamiento similares al muestreo de Thompson
Fijación Temprana: Los modelos tienden a determinar la selección "óptima" demasiado pronto basándose en retroalimentación limitada
Sobrecarga de Razonamiento: Qwen3-8B consume tiempo anormalmente largo debido a intentos continuos de razonamiento

Trabajo Relacionado

Razonamiento Probabilístico en LLMs

Xie et al. (2022): Enmarca el aprendizaje en contexto como razonamiento bayesiano implícito
Gupta et al. (2025): Demuestra que los LLMs pueden realizar actualizaciones de creencias consistentes con posteriores bayesianos
Sun et al. (2025): Propone un enfoque híbrido que combina estrategias clásicas de máquinas tragamonedas con predicción de recompensas de LLM

Toma de Decisiones Consciente de la Incertidumbre

Felicioni et al. (2024): Explora los beneficios de considerar explícitamente la incertidumbre epistemológica en la toma de decisiones secuencial
La investigación muestra que la incertidumbre puede servir como una señal valiosa para guiar el comportamiento del modelo

Exploración-Explotación en Entornos de Máquinas Tragamonedas

Zhang et al. (2025): Compara estrategias de exploración-explotación entre LLMs y humanos en máquinas tragamonedas multibrazo
Encuentra que la Cadena de Pensamiento mejora significativamente las capacidades de razonamiento, haciendo que el comportamiento de los LLMs sea más cercano a los enfoques humanos

Conclusiones y Discusión

Conclusiones Principales

Emergencia Lingüística del Razonamiento Probabilístico: Demuestra que se puede producir razonamiento probabilístico efectivo basándose únicamente en retroalimentación lingüística
Relación Compleja entre Escala y Desempeño: El tamaño del modelo no siempre se correlaciona positivamente con el desempeño en la toma de decisiones
Importancia de la Optimización Arquitectónica: Las arquitecturas de modelos ligeros y eficientes pueden tener ventajas en entornos de retroalimentación rápida

Limitaciones

Rango de Modelos Limitado: Solo se probaron modelos de código abierto de 2.7B-8B parámetros, sin incluir modelos de escala más grande
Complejidad de la Tarea: Estructura de recompensas estática y simple, sin involucrar entornos no estacionarios o retroalimentación retrasada
Estrategia de Indicación: Evitar la Cadena de Pensamiento puede subestimar las capacidades reales de los LLMs
Limitaciones de Recursos Computacionales: No fue posible probar modelos comerciales grandes como GPT-4

Direcciones Futuras

Pruebas en Entornos Dinámicos: Evaluación en entornos de máquinas tragamonedas no estacionarios o con recompensas retrasadas
Indicaciones Guiadas: Investigación del impacto de la Cadena de Pensamiento en el equilibrio exploración-explotación
Investigación de Efectos de Escala: Estudio sistemático del desempeño de modelos de escala más grande y variantes ajustadas
Planificación Multietapa: Extensión a tareas de decisión complejas que requieren razonamiento multietapa

Evaluación Profunda

Fortalezas

Fuerte Innovación: Primer marco de evaluación de razonamiento probabilístico en entornos puramente lingüísticos
Hallazgos Importantes: Revela la relación contraintuitiva entre el tamaño del modelo y el desempeño en la toma de decisiones
Rigor Experimental: 500 ejecuciones independientes aseguran confiabilidad estadística de los resultados
Líneas Base Completas: La comparación sistemática con algoritmos clásicos proporciona referencias valiosas
Buena Reproducibilidad: Proporciona código completo e instrucciones de implementación detalladas

Deficiencias

Explicación Teórica Insuficiente: La explicación del mecanismo detrás del desempeño excepcional de Qwen3-4B es relativamente débil
Limitaciones en la Selección de Modelos: Falta de pruebas con modelos de escala más grande
Singularidad de la Tarea: Enfoque únicamente en problemas de máquinas tragamonedas, la generalización requiere verificación
Profundidad de Análisis: Falta análisis más profundo del mecanismo del fenómeno de "pensar demasiado"

Impacto

Valor Académico: Proporciona un nuevo marco de evaluación para comprender las capacidades de razonamiento probabilístico de los LLMs
Significado Práctico: Proporciona referencias importantes para el desarrollo de sistemas de decisión basados en lenguaje
Contribución Metodológica: El conjunto de pruebas TextBandit podría convertirse en una herramienta de evaluación estándar en el campo
Impacto Interdisciplinario: Conecta el procesamiento del lenguaje natural, la teoría de decisiones y la ciencia cognitiva

Escenarios Aplicables

Evaluación Educativa: Evaluación de las capacidades de toma de decisiones de sistemas de IA en escenarios educativos
Interacción Humano-Máquina: Diseño de sistemas de apoyo a la decisión más naturales
Asignación de Recursos: Optimización de recursos en entornos donde faltan datos precisos
IA para Juegos: Desarrollo de agentes de juego inteligentes basados en retroalimentación lingüística

Referencias Bibliográficas

Este artículo cita trabajos importantes en los campos del razonamiento probabilístico, toma de decisiones bajo incertidumbre y máquinas tragamonedas multibrazo, incluyendo:

Xie et al. (2022): Marco de razonamiento bayesiano para aprendizaje en contexto
Gupta et al. (2025): Capacidades de actualización de creencias bayesianas de los LLMs
Zhang et al. (2025): Comparación de estrategias de exploración-explotación entre LLMs y humanos
Felicioni et al. (2024): Toma de decisiones secuencial consciente de la incertidumbre

Evaluación General: Este es un artículo con importante valor innovador que proporciona una nueva perspectiva para comprender las capacidades de razonamiento probabilístico de los LLMs a través del conjunto de pruebas TextBandit. Aunque tiene algunas limitaciones, sus hallazgos sobre los efectos de escala contraintuitivos y el razonamiento probabilístico emergente del lenguaje tienen significado teórico y práctico importante para el campo.