2025-11-13T17:28:10.587795

TextBandit: Evaluating Probabilistic Reasoning in LLMs Through Language-Only Decision Tasks

Lim, Damerla, Jiang et al.
Large language models (LLMs) have shown to be increasingly capable of performing reasoning tasks, but their ability to make sequential decisions under uncertainty only using natural language remains underexplored. We introduce a novel benchmark in which LLMs interact with multi-armed bandit environments using purely textual feedback, "you earned a token", without access to numerical cues or explicit probabilities, resulting in the model to infer latent reward structures purely off linguistic cues and to adapt accordingly. We evaluated the performance of four open-source LLMs and compare their performance to standard decision-making algorithms such as Thompson Sampling, Epsilon Greedy, Upper Confidence Bound (UCB), and random choice. While most of the LLMs underperformed compared to the baselines, Qwen3-4B, achieved the best-arm selection rate of 89.2% , which significantly outperformed both the larger LLMs and traditional methods. Our findings suggest that probabilistic reasoning is able to emerge from language alone, and we present this benchmark as a step towards evaluating decision-making capabilities in naturalistic, non-numeric contexts.
academic

TextBandit: Evaluación del Razonamiento Probabilístico en LLMs a Través de Tareas de Decisión Solo en Lenguaje

Información Básica

  • ID del Artículo: 2510.13878
  • Título: TextBandit: Evaluación del Razonamiento Probabilístico en LLMs a Través de Tareas de Decisión Solo en Lenguaje
  • Autores: Jimin Lim (UC Merced), Arjun Damerla (UC Berkeley), Arthur Jiang (Algoverse), Nam Le (Algoverse)
  • Clasificación: cs.CL (Lingüística Computacional)
  • Fecha de Publicación: 13 de octubre de 2025 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.13878

Resumen

Los modelos de lenguaje grandes (LLMs) demuestran capacidades cada vez más sólidas en tareas de razonamiento, pero su capacidad para realizar toma de decisiones secuencial bajo incertidumbre utilizando únicamente lenguaje natural sigue siendo insuficientemente explorada. Este artículo introduce un nuevo conjunto de pruebas en el cual los LLMs interactúan con un entorno de máquinas tragamonedas multibrazo utilizando retroalimentación de texto puro ("obtuviste una moneda"), sin acceso a pistas numéricas o probabilidades explícitas, requiriendo que el modelo infiera la estructura de recompensas subyacente basándose puramente en pistas lingüísticas y se ajuste en consecuencia. El estudio evalúa el desempeño de cuatro LLMs de código abierto y los compara con algoritmos de toma de decisiones estándar como muestreo de Thompson, epsilon-codicioso, límite de confianza superior (UCB) y selección aleatoria. Aunque la mayoría de los LLMs tienen un desempeño inferior al de los métodos de referencia, Qwen3-4B logra una tasa de selección del brazo óptimo del 89.2%, superando significativamente a LLMs más grandes y métodos tradicionales.

Antecedentes de Investigación y Motivación

Definición del Problema

La pregunta central que aborda esta investigación es: ¿pueden los modelos de lenguaje grandes realizar razonamiento probabilístico efectivo y toma de decisiones en entornos inciertos únicamente a través de retroalimentación en lenguaje natural?

Importancia

  1. Significado Teórico: Explora si los LLMs poseen capacidades intrínsecas de razonamiento bayesiano, lo cual tiene valor importante para comprender los mecanismos cognitivos de los sistemas de IA
  2. Valor Práctico: En el mundo real, muchos escenarios de decisión carecen de datos numéricos precisos y solo pueden depender de descripciones lingüísticas para el juicio
  3. Desafío Técnico: Los métodos tradicionales de decisión bajo incertidumbre dependen de cálculos matemáticos complejos, mientras que los métodos basados en lenguaje podrían proporcionar soluciones más flexibles y accesibles

Limitaciones de Métodos Existentes

  1. Dependencia Numérica: Los métodos tradicionales de razonamiento bayesiano y aprendizaje por refuerzo requieren entradas numéricas explícitas e información probabilística
  2. Evaluación Faltante: Carencia de conjuntos de pruebas especializados para evaluar las capacidades de razonamiento probabilístico de los LLMs en entornos puramente lingüísticos
  3. Restricciones de Complejidad: La investigación existente se enfoca principalmente en tareas restringidas simples, sin explorar suficientemente escenarios de decisión multietapa

Motivación de la Investigación

Los autores argumentan que si los LLMs pueden realizar razonamiento probabilístico efectivo únicamente a través de retroalimentación lingüística, esto abriría nuevas posibilidades para la toma de decisiones natural y no numérica, particularmente en escenarios de aplicación práctica donde faltan datos estructurados.

Contribuciones Principales

  1. Propuesta del Conjunto de Pruebas TextBandit: El primer conjunto de pruebas especializado para evaluar las capacidades de razonamiento probabilístico de los LLMs en entornos puramente lingüísticos, utilizando el marco de máquinas tragamonedas multibrazo
  2. Descubrimiento de Efectos de Escala Contraintuitivios: Demuestra que existe una relación negativa entre el tamaño del modelo y el desempeño en la toma de decisiones, siendo Qwen3-4B significativamente superior a modelos más grandes
  3. Demostración del Razonamiento Probabilístico Emergente del Lenguaje: Prueba que las capacidades de razonamiento probabilístico pueden emerger de interacciones puramente lingüísticas sin pistas numéricas
  4. Análisis Comparativo Integral: Proporciona comparación sistemática entre LLMs y algoritmos de decisión clásicos, ofreciendo perspectivas importantes para comprender las ventajas y desventajas de diferentes enfoques

Explicación Detallada de la Metodología

Definición de la Tarea

Entrada: Descripción en lenguaje natural del historial de selecciones y resultados (como "la máquina tragamonedas 1 ganó", "la máquina tragamonedas 2 perdió") Salida: Selección del brazo para la siguiente ronda (ID numérico, como "1" o "2") Restricciones: Sin pistas numéricas, sin probabilidades explícitas, sin procesos de razonamiento intermedio

Arquitectura Experimental

Entorno de Máquinas Tragamonedas Multibrazo

  • Número de Brazos: 2-5 brazos, cada uno con una probabilidad de éxito fija pero desconocida
  • Estructura de Recompensas: En configuraciones de dos brazos, un brazo tiene tasa de éxito del 65% y el otro del 30%
  • Mecanismo de Retroalimentación:
    • Éxito: "obtuviste una moneda" (recompensa=1)
    • Fracaso: "no obtuviste una moneda" (recompensa=0)

Protocolo de Indicaciones

Cada LLM utiliza una estructura de indicación consistente:

  1. Descripción de la Tarea: Instrucciones en lenguaje natural que sitúan la tarea en un contexto de decisión
  2. Registro del Historial: Descripción puramente lingüística de todas las selecciones y resultados previos
  3. Solicitud de Acción: Solicitud al modelo de que genere el número correspondiente al brazo

Modelos Evaluados

El estudio seleccionó cuatro LLMs de código abierto con diferentes arquitecturas y escalas de parámetros:

ModeloParámetrosArquitecturaCaracterísticas
Qwen3-4B4BTransformer solo decodificadorMultilingüe, capacidades de razonamiento sólidas
Qwen3-8B8BTransformer solo decodificadorVersión más grande de Qwen3-4B, capacidades mejoradas de uso de herramientas
Llama-3.1-8B8BTransformer solo decodificadorOptimizado para seguimiento de instrucciones y multilingüismo
Phi-22.7BTransformerModelo pequeño y eficiente

Métodos de Referencia

Se compararon cuatro algoritmos clásicos de máquinas tragamonedas multibrazo:

  1. Muestreo de Thompson: Utiliza razonamiento bayesiano para muestrear desde distribuciones de probabilidad
  2. Límite de Confianza Superior (UCB): Estrategia determinista que equilibra explotación y exploración
  3. Epsilon-Codicioso: Selecciona la mejor acción con probabilidad 1-ε, de lo contrario selecciona aleatoriamente
  4. Selección Aleatoria: Método de referencia completamente aleatorio

Configuración Experimental

Configuración del Experimento

  • Número de Ensayos: 500 ejecuciones independientes para cada modelo
  • Rondas de Decisión: 25 rondas de decisión por ejecución
  • Configuraciones de Brazos: Pruebas con diferentes configuraciones de 2-5 brazos
  • Entorno de Evaluación: Instancias de GPU alojadas en RunPod, basadas en la biblioteca Hugging Face Transformers

Métricas de Evaluación

  1. Recompensa Acumulada: Número total de monedas obtenidas en 25 rondas de decisión
  2. Tasa de Selección del Brazo Óptimo: Porcentaje de frecuencia de selección del brazo óptimo (tasa de éxito del 65%)
  3. Arrepentimiento Acumulado: Costo de oportunidad de no seleccionar el brazo óptimo

Control Experimental

  • Eliminación del razonamiento de Cadena de Pensamiento para obtener salidas claras
  • Uso del mismo formato y estructura de indicación
  • Decisión única en cada paso sin razonamiento intermedio

Resultados Experimentales

Resultados Principales

Comparación de Tasas de Selección del Brazo Óptimo

Modelo/AlgoritmoTasa de Selección del Brazo ÓptimoRecompensa Acumulada
Qwen3-4B89.2%11,150
Muestreo de Thompson51.1%8,297
UCB47.6%4,696
Epsilon-Codicioso38.1%6,029
Qwen3-8B37.5%4,686
Selección Aleatoria31.8%5,783
Llama-3.1-8B31.6%3,946
Phi-225.4%3,181

Hallazgos Clave

1. Efectos de Escala Contraintuitivos

  • Qwen3-4B (4B parámetros) supera significativamente a Qwen3-8B (8B parámetros)
  • Los modelos más grandes tienden a "pensar demasiado", resultando en degradación del desempeño en la toma de decisiones
  • El modelo más pequeño Phi-2 (2.7B) tiene el peor desempeño, indicando que existe un rango de tamaño óptimo

2. Impacto del Número de Brazos en el Desempeño

El desempeño de todos los modelos disminuye significativamente con el aumento del número de brazos:

  • Llama-3.1-8B: Disminuye de 31.56% (2 brazos) a 7.37% (5 brazos)
  • Qwen3-4B: Disminuye de 89.22% (2 brazos) a 6.53% (5 brazos)
  • Phi-2: Disminuye de 25.45% (2 brazos) a 17.78% (5 brazos)
  • Qwen3-8B: Disminuye de 37.49% (2 brazos) a 17.09% (5 brazos)

3. Análisis del Arrepentimiento Acumulado

  • Qwen3-4B muestra reducción rápida del arrepentimiento en configuraciones de 2 brazos
  • Los modelos más grandes mantienen arrepentimiento acumulado más alto en todas las configuraciones
  • La configuración de 4 brazos produjo inesperadamente el arrepentimiento acumulado más bajo entre todos los modelos

Análisis Cualitativo

  1. Estrategia de Exploración-Explotación: Los LLMs exhiben patrones de comportamiento similares al muestreo de Thompson
  2. Fijación Temprana: Los modelos tienden a determinar la selección "óptima" demasiado pronto basándose en retroalimentación limitada
  3. Sobrecarga de Razonamiento: Qwen3-8B consume tiempo anormalmente largo debido a intentos continuos de razonamiento

Trabajo Relacionado

Razonamiento Probabilístico en LLMs

  • Xie et al. (2022): Enmarca el aprendizaje en contexto como razonamiento bayesiano implícito
  • Gupta et al. (2025): Demuestra que los LLMs pueden realizar actualizaciones de creencias consistentes con posteriores bayesianos
  • Sun et al. (2025): Propone un enfoque híbrido que combina estrategias clásicas de máquinas tragamonedas con predicción de recompensas de LLM

Toma de Decisiones Consciente de la Incertidumbre

  • Felicioni et al. (2024): Explora los beneficios de considerar explícitamente la incertidumbre epistemológica en la toma de decisiones secuencial
  • La investigación muestra que la incertidumbre puede servir como una señal valiosa para guiar el comportamiento del modelo

Exploración-Explotación en Entornos de Máquinas Tragamonedas

  • Zhang et al. (2025): Compara estrategias de exploración-explotación entre LLMs y humanos en máquinas tragamonedas multibrazo
  • Encuentra que la Cadena de Pensamiento mejora significativamente las capacidades de razonamiento, haciendo que el comportamiento de los LLMs sea más cercano a los enfoques humanos

Conclusiones y Discusión

Conclusiones Principales

  1. Emergencia Lingüística del Razonamiento Probabilístico: Demuestra que se puede producir razonamiento probabilístico efectivo basándose únicamente en retroalimentación lingüística
  2. Relación Compleja entre Escala y Desempeño: El tamaño del modelo no siempre se correlaciona positivamente con el desempeño en la toma de decisiones
  3. Importancia de la Optimización Arquitectónica: Las arquitecturas de modelos ligeros y eficientes pueden tener ventajas en entornos de retroalimentación rápida

Limitaciones

  1. Rango de Modelos Limitado: Solo se probaron modelos de código abierto de 2.7B-8B parámetros, sin incluir modelos de escala más grande
  2. Complejidad de la Tarea: Estructura de recompensas estática y simple, sin involucrar entornos no estacionarios o retroalimentación retrasada
  3. Estrategia de Indicación: Evitar la Cadena de Pensamiento puede subestimar las capacidades reales de los LLMs
  4. Limitaciones de Recursos Computacionales: No fue posible probar modelos comerciales grandes como GPT-4

Direcciones Futuras

  1. Pruebas en Entornos Dinámicos: Evaluación en entornos de máquinas tragamonedas no estacionarios o con recompensas retrasadas
  2. Indicaciones Guiadas: Investigación del impacto de la Cadena de Pensamiento en el equilibrio exploración-explotación
  3. Investigación de Efectos de Escala: Estudio sistemático del desempeño de modelos de escala más grande y variantes ajustadas
  4. Planificación Multietapa: Extensión a tareas de decisión complejas que requieren razonamiento multietapa

Evaluación Profunda

Fortalezas

  1. Fuerte Innovación: Primer marco de evaluación de razonamiento probabilístico en entornos puramente lingüísticos
  2. Hallazgos Importantes: Revela la relación contraintuitiva entre el tamaño del modelo y el desempeño en la toma de decisiones
  3. Rigor Experimental: 500 ejecuciones independientes aseguran confiabilidad estadística de los resultados
  4. Líneas Base Completas: La comparación sistemática con algoritmos clásicos proporciona referencias valiosas
  5. Buena Reproducibilidad: Proporciona código completo e instrucciones de implementación detalladas

Deficiencias

  1. Explicación Teórica Insuficiente: La explicación del mecanismo detrás del desempeño excepcional de Qwen3-4B es relativamente débil
  2. Limitaciones en la Selección de Modelos: Falta de pruebas con modelos de escala más grande
  3. Singularidad de la Tarea: Enfoque únicamente en problemas de máquinas tragamonedas, la generalización requiere verificación
  4. Profundidad de Análisis: Falta análisis más profundo del mecanismo del fenómeno de "pensar demasiado"

Impacto

  1. Valor Académico: Proporciona un nuevo marco de evaluación para comprender las capacidades de razonamiento probabilístico de los LLMs
  2. Significado Práctico: Proporciona referencias importantes para el desarrollo de sistemas de decisión basados en lenguaje
  3. Contribución Metodológica: El conjunto de pruebas TextBandit podría convertirse en una herramienta de evaluación estándar en el campo
  4. Impacto Interdisciplinario: Conecta el procesamiento del lenguaje natural, la teoría de decisiones y la ciencia cognitiva

Escenarios Aplicables

  1. Evaluación Educativa: Evaluación de las capacidades de toma de decisiones de sistemas de IA en escenarios educativos
  2. Interacción Humano-Máquina: Diseño de sistemas de apoyo a la decisión más naturales
  3. Asignación de Recursos: Optimización de recursos en entornos donde faltan datos precisos
  4. IA para Juegos: Desarrollo de agentes de juego inteligentes basados en retroalimentación lingüística

Referencias Bibliográficas

Este artículo cita trabajos importantes en los campos del razonamiento probabilístico, toma de decisiones bajo incertidumbre y máquinas tragamonedas multibrazo, incluyendo:

  • Xie et al. (2022): Marco de razonamiento bayesiano para aprendizaje en contexto
  • Gupta et al. (2025): Capacidades de actualización de creencias bayesianas de los LLMs
  • Zhang et al. (2025): Comparación de estrategias de exploración-explotación entre LLMs y humanos
  • Felicioni et al. (2024): Toma de decisiones secuencial consciente de la incertidumbre

Evaluación General: Este es un artículo con importante valor innovador que proporciona una nueva perspectiva para comprender las capacidades de razonamiento probabilístico de los LLMs a través del conjunto de pruebas TextBandit. Aunque tiene algunas limitaciones, sus hallazgos sobre los efectos de escala contraintuitivos y el razonamiento probabilístico emergente del lenguaje tienen significado teórico y práctico importante para el campo.