Large language models (LLMs) have shown to be increasingly capable of performing reasoning tasks, but their ability to make sequential decisions under uncertainty only using natural language remains underexplored. We introduce a novel benchmark in which LLMs interact with multi-armed bandit environments using purely textual feedback, "you earned a token", without access to numerical cues or explicit probabilities, resulting in the model to infer latent reward structures purely off linguistic cues and to adapt accordingly. We evaluated the performance of four open-source LLMs and compare their performance to standard decision-making algorithms such as Thompson Sampling, Epsilon Greedy, Upper Confidence Bound (UCB), and random choice. While most of the LLMs underperformed compared to the baselines, Qwen3-4B, achieved the best-arm selection rate of 89.2% , which significantly outperformed both the larger LLMs and traditional methods. Our findings suggest that probabilistic reasoning is able to emerge from language alone, and we present this benchmark as a step towards evaluating decision-making capabilities in naturalistic, non-numeric contexts.
TextBandit: Evaluación del Razonamiento Probabilístico en LLMs a Través de Tareas de Decisión Solo en Lenguaje
- ID del Artículo: 2510.13878
- Título: TextBandit: Evaluación del Razonamiento Probabilístico en LLMs a Través de Tareas de Decisión Solo en Lenguaje
- Autores: Jimin Lim (UC Merced), Arjun Damerla (UC Berkeley), Arthur Jiang (Algoverse), Nam Le (Algoverse)
- Clasificación: cs.CL (Lingüística Computacional)
- Fecha de Publicación: 13 de octubre de 2025 (preimpresión en arXiv)
- Enlace del Artículo: https://arxiv.org/abs/2510.13878
Los modelos de lenguaje grandes (LLMs) demuestran capacidades cada vez más sólidas en tareas de razonamiento, pero su capacidad para realizar toma de decisiones secuencial bajo incertidumbre utilizando únicamente lenguaje natural sigue siendo insuficientemente explorada. Este artículo introduce un nuevo conjunto de pruebas en el cual los LLMs interactúan con un entorno de máquinas tragamonedas multibrazo utilizando retroalimentación de texto puro ("obtuviste una moneda"), sin acceso a pistas numéricas o probabilidades explícitas, requiriendo que el modelo infiera la estructura de recompensas subyacente basándose puramente en pistas lingüísticas y se ajuste en consecuencia. El estudio evalúa el desempeño de cuatro LLMs de código abierto y los compara con algoritmos de toma de decisiones estándar como muestreo de Thompson, epsilon-codicioso, límite de confianza superior (UCB) y selección aleatoria. Aunque la mayoría de los LLMs tienen un desempeño inferior al de los métodos de referencia, Qwen3-4B logra una tasa de selección del brazo óptimo del 89.2%, superando significativamente a LLMs más grandes y métodos tradicionales.
La pregunta central que aborda esta investigación es: ¿pueden los modelos de lenguaje grandes realizar razonamiento probabilístico efectivo y toma de decisiones en entornos inciertos únicamente a través de retroalimentación en lenguaje natural?
- Significado Teórico: Explora si los LLMs poseen capacidades intrínsecas de razonamiento bayesiano, lo cual tiene valor importante para comprender los mecanismos cognitivos de los sistemas de IA
- Valor Práctico: En el mundo real, muchos escenarios de decisión carecen de datos numéricos precisos y solo pueden depender de descripciones lingüísticas para el juicio
- Desafío Técnico: Los métodos tradicionales de decisión bajo incertidumbre dependen de cálculos matemáticos complejos, mientras que los métodos basados en lenguaje podrían proporcionar soluciones más flexibles y accesibles
- Dependencia Numérica: Los métodos tradicionales de razonamiento bayesiano y aprendizaje por refuerzo requieren entradas numéricas explícitas e información probabilística
- Evaluación Faltante: Carencia de conjuntos de pruebas especializados para evaluar las capacidades de razonamiento probabilístico de los LLMs en entornos puramente lingüísticos
- Restricciones de Complejidad: La investigación existente se enfoca principalmente en tareas restringidas simples, sin explorar suficientemente escenarios de decisión multietapa
Los autores argumentan que si los LLMs pueden realizar razonamiento probabilístico efectivo únicamente a través de retroalimentación lingüística, esto abriría nuevas posibilidades para la toma de decisiones natural y no numérica, particularmente en escenarios de aplicación práctica donde faltan datos estructurados.
- Propuesta del Conjunto de Pruebas TextBandit: El primer conjunto de pruebas especializado para evaluar las capacidades de razonamiento probabilístico de los LLMs en entornos puramente lingüísticos, utilizando el marco de máquinas tragamonedas multibrazo
- Descubrimiento de Efectos de Escala Contraintuitivios: Demuestra que existe una relación negativa entre el tamaño del modelo y el desempeño en la toma de decisiones, siendo Qwen3-4B significativamente superior a modelos más grandes
- Demostración del Razonamiento Probabilístico Emergente del Lenguaje: Prueba que las capacidades de razonamiento probabilístico pueden emerger de interacciones puramente lingüísticas sin pistas numéricas
- Análisis Comparativo Integral: Proporciona comparación sistemática entre LLMs y algoritmos de decisión clásicos, ofreciendo perspectivas importantes para comprender las ventajas y desventajas de diferentes enfoques
Entrada: Descripción en lenguaje natural del historial de selecciones y resultados (como "la máquina tragamonedas 1 ganó", "la máquina tragamonedas 2 perdió")
Salida: Selección del brazo para la siguiente ronda (ID numérico, como "1" o "2")
Restricciones: Sin pistas numéricas, sin probabilidades explícitas, sin procesos de razonamiento intermedio
- Número de Brazos: 2-5 brazos, cada uno con una probabilidad de éxito fija pero desconocida
- Estructura de Recompensas: En configuraciones de dos brazos, un brazo tiene tasa de éxito del 65% y el otro del 30%
- Mecanismo de Retroalimentación:
- Éxito: "obtuviste una moneda" (recompensa=1)
- Fracaso: "no obtuviste una moneda" (recompensa=0)
Cada LLM utiliza una estructura de indicación consistente:
- Descripción de la Tarea: Instrucciones en lenguaje natural que sitúan la tarea en un contexto de decisión
- Registro del Historial: Descripción puramente lingüística de todas las selecciones y resultados previos
- Solicitud de Acción: Solicitud al modelo de que genere el número correspondiente al brazo
El estudio seleccionó cuatro LLMs de código abierto con diferentes arquitecturas y escalas de parámetros:
| Modelo | Parámetros | Arquitectura | Características |
|---|
| Qwen3-4B | 4B | Transformer solo decodificador | Multilingüe, capacidades de razonamiento sólidas |
| Qwen3-8B | 8B | Transformer solo decodificador | Versión más grande de Qwen3-4B, capacidades mejoradas de uso de herramientas |
| Llama-3.1-8B | 8B | Transformer solo decodificador | Optimizado para seguimiento de instrucciones y multilingüismo |
| Phi-2 | 2.7B | Transformer | Modelo pequeño y eficiente |
Se compararon cuatro algoritmos clásicos de máquinas tragamonedas multibrazo:
- Muestreo de Thompson: Utiliza razonamiento bayesiano para muestrear desde distribuciones de probabilidad
- Límite de Confianza Superior (UCB): Estrategia determinista que equilibra explotación y exploración
- Epsilon-Codicioso: Selecciona la mejor acción con probabilidad 1-ε, de lo contrario selecciona aleatoriamente
- Selección Aleatoria: Método de referencia completamente aleatorio
- Número de Ensayos: 500 ejecuciones independientes para cada modelo
- Rondas de Decisión: 25 rondas de decisión por ejecución
- Configuraciones de Brazos: Pruebas con diferentes configuraciones de 2-5 brazos
- Entorno de Evaluación: Instancias de GPU alojadas en RunPod, basadas en la biblioteca Hugging Face Transformers
- Recompensa Acumulada: Número total de monedas obtenidas en 25 rondas de decisión
- Tasa de Selección del Brazo Óptimo: Porcentaje de frecuencia de selección del brazo óptimo (tasa de éxito del 65%)
- Arrepentimiento Acumulado: Costo de oportunidad de no seleccionar el brazo óptimo
- Eliminación del razonamiento de Cadena de Pensamiento para obtener salidas claras
- Uso del mismo formato y estructura de indicación
- Decisión única en cada paso sin razonamiento intermedio
| Modelo/Algoritmo | Tasa de Selección del Brazo Óptimo | Recompensa Acumulada |
|---|
| Qwen3-4B | 89.2% | 11,150 |
| Muestreo de Thompson | 51.1% | 8,297 |
| UCB | 47.6% | 4,696 |
| Epsilon-Codicioso | 38.1% | 6,029 |
| Qwen3-8B | 37.5% | 4,686 |
| Selección Aleatoria | 31.8% | 5,783 |
| Llama-3.1-8B | 31.6% | 3,946 |
| Phi-2 | 25.4% | 3,181 |
- Qwen3-4B (4B parámetros) supera significativamente a Qwen3-8B (8B parámetros)
- Los modelos más grandes tienden a "pensar demasiado", resultando en degradación del desempeño en la toma de decisiones
- El modelo más pequeño Phi-2 (2.7B) tiene el peor desempeño, indicando que existe un rango de tamaño óptimo
El desempeño de todos los modelos disminuye significativamente con el aumento del número de brazos:
- Llama-3.1-8B: Disminuye de 31.56% (2 brazos) a 7.37% (5 brazos)
- Qwen3-4B: Disminuye de 89.22% (2 brazos) a 6.53% (5 brazos)
- Phi-2: Disminuye de 25.45% (2 brazos) a 17.78% (5 brazos)
- Qwen3-8B: Disminuye de 37.49% (2 brazos) a 17.09% (5 brazos)
- Qwen3-4B muestra reducción rápida del arrepentimiento en configuraciones de 2 brazos
- Los modelos más grandes mantienen arrepentimiento acumulado más alto en todas las configuraciones
- La configuración de 4 brazos produjo inesperadamente el arrepentimiento acumulado más bajo entre todos los modelos
- Estrategia de Exploración-Explotación: Los LLMs exhiben patrones de comportamiento similares al muestreo de Thompson
- Fijación Temprana: Los modelos tienden a determinar la selección "óptima" demasiado pronto basándose en retroalimentación limitada
- Sobrecarga de Razonamiento: Qwen3-8B consume tiempo anormalmente largo debido a intentos continuos de razonamiento
- Xie et al. (2022): Enmarca el aprendizaje en contexto como razonamiento bayesiano implícito
- Gupta et al. (2025): Demuestra que los LLMs pueden realizar actualizaciones de creencias consistentes con posteriores bayesianos
- Sun et al. (2025): Propone un enfoque híbrido que combina estrategias clásicas de máquinas tragamonedas con predicción de recompensas de LLM
- Felicioni et al. (2024): Explora los beneficios de considerar explícitamente la incertidumbre epistemológica en la toma de decisiones secuencial
- La investigación muestra que la incertidumbre puede servir como una señal valiosa para guiar el comportamiento del modelo
- Zhang et al. (2025): Compara estrategias de exploración-explotación entre LLMs y humanos en máquinas tragamonedas multibrazo
- Encuentra que la Cadena de Pensamiento mejora significativamente las capacidades de razonamiento, haciendo que el comportamiento de los LLMs sea más cercano a los enfoques humanos
- Emergencia Lingüística del Razonamiento Probabilístico: Demuestra que se puede producir razonamiento probabilístico efectivo basándose únicamente en retroalimentación lingüística
- Relación Compleja entre Escala y Desempeño: El tamaño del modelo no siempre se correlaciona positivamente con el desempeño en la toma de decisiones
- Importancia de la Optimización Arquitectónica: Las arquitecturas de modelos ligeros y eficientes pueden tener ventajas en entornos de retroalimentación rápida
- Rango de Modelos Limitado: Solo se probaron modelos de código abierto de 2.7B-8B parámetros, sin incluir modelos de escala más grande
- Complejidad de la Tarea: Estructura de recompensas estática y simple, sin involucrar entornos no estacionarios o retroalimentación retrasada
- Estrategia de Indicación: Evitar la Cadena de Pensamiento puede subestimar las capacidades reales de los LLMs
- Limitaciones de Recursos Computacionales: No fue posible probar modelos comerciales grandes como GPT-4
- Pruebas en Entornos Dinámicos: Evaluación en entornos de máquinas tragamonedas no estacionarios o con recompensas retrasadas
- Indicaciones Guiadas: Investigación del impacto de la Cadena de Pensamiento en el equilibrio exploración-explotación
- Investigación de Efectos de Escala: Estudio sistemático del desempeño de modelos de escala más grande y variantes ajustadas
- Planificación Multietapa: Extensión a tareas de decisión complejas que requieren razonamiento multietapa
- Fuerte Innovación: Primer marco de evaluación de razonamiento probabilístico en entornos puramente lingüísticos
- Hallazgos Importantes: Revela la relación contraintuitiva entre el tamaño del modelo y el desempeño en la toma de decisiones
- Rigor Experimental: 500 ejecuciones independientes aseguran confiabilidad estadística de los resultados
- Líneas Base Completas: La comparación sistemática con algoritmos clásicos proporciona referencias valiosas
- Buena Reproducibilidad: Proporciona código completo e instrucciones de implementación detalladas
- Explicación Teórica Insuficiente: La explicación del mecanismo detrás del desempeño excepcional de Qwen3-4B es relativamente débil
- Limitaciones en la Selección de Modelos: Falta de pruebas con modelos de escala más grande
- Singularidad de la Tarea: Enfoque únicamente en problemas de máquinas tragamonedas, la generalización requiere verificación
- Profundidad de Análisis: Falta análisis más profundo del mecanismo del fenómeno de "pensar demasiado"
- Valor Académico: Proporciona un nuevo marco de evaluación para comprender las capacidades de razonamiento probabilístico de los LLMs
- Significado Práctico: Proporciona referencias importantes para el desarrollo de sistemas de decisión basados en lenguaje
- Contribución Metodológica: El conjunto de pruebas TextBandit podría convertirse en una herramienta de evaluación estándar en el campo
- Impacto Interdisciplinario: Conecta el procesamiento del lenguaje natural, la teoría de decisiones y la ciencia cognitiva
- Evaluación Educativa: Evaluación de las capacidades de toma de decisiones de sistemas de IA en escenarios educativos
- Interacción Humano-Máquina: Diseño de sistemas de apoyo a la decisión más naturales
- Asignación de Recursos: Optimización de recursos en entornos donde faltan datos precisos
- IA para Juegos: Desarrollo de agentes de juego inteligentes basados en retroalimentación lingüística
Este artículo cita trabajos importantes en los campos del razonamiento probabilístico, toma de decisiones bajo incertidumbre y máquinas tragamonedas multibrazo, incluyendo:
- Xie et al. (2022): Marco de razonamiento bayesiano para aprendizaje en contexto
- Gupta et al. (2025): Capacidades de actualización de creencias bayesianas de los LLMs
- Zhang et al. (2025): Comparación de estrategias de exploración-explotación entre LLMs y humanos
- Felicioni et al. (2024): Toma de decisiones secuencial consciente de la incertidumbre
Evaluación General: Este es un artículo con importante valor innovador que proporciona una nueva perspectiva para comprender las capacidades de razonamiento probabilístico de los LLMs a través del conjunto de pruebas TextBandit. Aunque tiene algunas limitaciones, sus hallazgos sobre los efectos de escala contraintuitivos y el razonamiento probabilístico emergente del lenguaje tienen significado teórico y práctico importante para el campo.