2025-11-13T17:28:10.587795

TextBandit: Evaluating Probabilistic Reasoning in LLMs Through Language-Only Decision Tasks

Lim, Damerla, Jiang et al.
Large language models (LLMs) have shown to be increasingly capable of performing reasoning tasks, but their ability to make sequential decisions under uncertainty only using natural language remains underexplored. We introduce a novel benchmark in which LLMs interact with multi-armed bandit environments using purely textual feedback, "you earned a token", without access to numerical cues or explicit probabilities, resulting in the model to infer latent reward structures purely off linguistic cues and to adapt accordingly. We evaluated the performance of four open-source LLMs and compare their performance to standard decision-making algorithms such as Thompson Sampling, Epsilon Greedy, Upper Confidence Bound (UCB), and random choice. While most of the LLMs underperformed compared to the baselines, Qwen3-4B, achieved the best-arm selection rate of 89.2% , which significantly outperformed both the larger LLMs and traditional methods. Our findings suggest that probabilistic reasoning is able to emerge from language alone, and we present this benchmark as a step towards evaluating decision-making capabilities in naturalistic, non-numeric contexts.
academic

TextBandit: Valutazione del Ragionamento Probabilistico negli LLM Attraverso Compiti Decisionali Basati sul Linguaggio

Informazioni Fondamentali

  • ID Articolo: 2510.13878
  • Titolo: TextBandit: Valutazione del Ragionamento Probabilistico negli LLM Attraverso Compiti Decisionali Basati sul Linguaggio
  • Autori: Jimin Lim (UC Merced), Arjun Damerla (UC Berkeley), Arthur Jiang (Algoverse), Nam Le (Algoverse)
  • Classificazione: cs.CL (Linguistica Computazionale)
  • Data di Pubblicazione: 13 ottobre 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2510.13878

Riassunto

I modelli linguistici di grandi dimensioni (LLM) dimostrano capacità sempre più forti nei compiti di ragionamento, tuttavia la loro capacità di prendere decisioni sequenziali sotto incertezza utilizzando esclusivamente il linguaggio naturale rimane ancora insufficientemente esplorata. Questo articolo introduce un nuovo benchmark innovativo in cui gli LLM interagiscono con ambienti multi-armed bandit utilizzando esclusivamente feedback in testo puro ("hai ricevuto un gettone"), senza accesso a indizi numerici o probabilità esplicite, richiedendo ai modelli di inferire la struttura delle ricompense sottostante e adattarsi di conseguenza basandosi esclusivamente su indizi linguistici. Lo studio valuta le prestazioni di quattro LLM open-source e le confronta con algoritmi decisionali standard come il campionamento di Thompson, l'epsilon-greedy, l'Upper Confidence Bound (UCB) e la selezione casuale. Sebbene la maggior parte degli LLM abbia prestazioni inferiori ai metodi di base, Qwen3-4B ha raggiunto il miglior tasso di selezione del braccio ottimale del 89,2%, superando significativamente gli LLM più grandi e i metodi tradizionali.

Contesto di Ricerca e Motivazione

Definizione del Problema

La questione centrale che questa ricerca affronta è: i modelli linguistici di grandi dimensioni sono in grado di condurre un ragionamento probabilistico efficace e un processo decisionale in ambienti incerti utilizzando esclusivamente feedback in linguaggio naturale?

Importanza

  1. Significato Teorico: Esplorare se gli LLM possiedono capacità intrinseche di ragionamento bayesiano, il che ha un valore importante per comprendere i meccanismi cognitivi dei sistemi di IA
  2. Valore Pratico: Nel mondo reale, molti scenari decisionali mancano di dati numerici precisi e possono fare affidamento solo su descrizioni linguistiche per il giudizio
  3. Sfide Tecniche: I metodi tradizionali di decisione sotto incertezza si basano su calcoli matematici complessi, mentre gli approcci basati sul linguaggio potrebbero fornire soluzioni più flessibili e accessibili

Limitazioni dei Metodi Esistenti

  1. Dipendenza Numerica: I metodi tradizionali di ragionamento bayesiano e apprendimento per rinforzo richiedono input numerici espliciti e informazioni probabilistiche
  2. Valutazione Mancante: Mancano benchmark specializzati per valutare le capacità di ragionamento probabilistico degli LLM in ambienti puramente linguistici
  3. Limitazioni di Complessità: La ricerca esistente si concentra principalmente su compiti vincolati semplici, senza esplorare sufficientemente scenari di decisione multi-step

Motivazione della Ricerca

Gli autori ritengono che, se gli LLM fossero in grado di condurre un ragionamento probabilistico efficace basato esclusivamente su feedback linguistico, ciò aprirebbe nuove possibilità per il processo decisionale naturale e non numerato, in particolare in scenari di applicazione reale dove mancano dati strutturati.

Contributi Fondamentali

  1. Proposta del Benchmark TextBandit: Il primo benchmark specializzato per valutare le capacità di ragionamento probabilistico degli LLM in ambienti puramente linguistici, utilizzando il framework multi-armed bandit
  2. Scoperta di Effetti di Scala Controintuitivi: Dimostrazione di una relazione negativa tra la dimensione del modello e le prestazioni decisionali, con il Qwen3-4B più piccolo che supera significativamente i modelli più grandi
  3. Dimostrazione del Ragionamento Probabilistico Emergente dal Linguaggio: Prova che le capacità di ragionamento probabilistico possono emergere dall'interazione puramente linguistica, senza indizi numerici
  4. Analisi Comparativa Completa: Confronto sistematico tra gli LLM e gli algoritmi decisionali classici, fornendo intuizioni importanti per comprendere i vantaggi e gli svantaggi di diversi approcci

Dettagli Metodologici

Definizione del Compito

Input: Descrizione in linguaggio naturale della cronologia delle scelte e dei risultati (ad esempio "la slot machine 1 ha vinto", "la slot machine 2 ha perso") Output: Selezione del braccio per il turno successivo (ID numerico, come "1" o "2") Vincoli: Nessun indizio numerico, nessuna probabilità esplicita, nessun processo di ragionamento intermedio

Architettura Sperimentale

Ambiente Multi-Armed Bandit

  • Numero di Bracci: 2-5 bracci, ciascuno con probabilità di successo fissa ma sconosciuta
  • Struttura delle Ricompense: Nella configurazione a due bracci, un braccio ha tasso di successo del 65%, l'altro del 30%
  • Meccanismo di Feedback:
    • Successo: "hai ricevuto un gettone" (ricompensa=1)
    • Fallimento: "non hai ricevuto un gettone" (ricompensa=0)

Protocollo di Prompt

Ogni LLM utilizza una struttura di prompt coerente:

  1. Descrizione del Compito: Istruzioni in linguaggio naturale che collocano il compito in un contesto decisionale
  2. Registro Storico: Descrizione puramente linguistica di tutte le scelte e i risultati precedenti
  3. Richiesta di Azione: Richiesta al modello di produrre il numero corrispondente al braccio

Modelli Valutati

Lo studio ha selezionato quattro LLM open-source con architetture e scale di parametri diverse:

ModelloParametriArchitetturaCaratteristiche
Qwen3-4B4BTransformer solo decoderSupporto multilingue, forti capacità di ragionamento
Qwen3-8B8BTransformer solo decoderVersione più grande di Qwen3-4B, capacità di utilizzo di strumenti migliorate
Llama-3.1-8B8BTransformer solo decoderCapacità di seguire istruzioni e multilingue ottimizzate
Phi-22.7BTransformerModello piccolo ed efficiente

Metodi di Base

Confronto con quattro algoritmi classici per multi-armed bandit:

  1. Campionamento di Thompson: Utilizza il ragionamento bayesiano per campionare da una distribuzione di probabilità
  2. Upper Confidence Bound (UCB): Strategia deterministica che bilancia sfruttamento ed esplorazione
  3. Epsilon-Greedy: Seleziona l'azione migliore con probabilità 1-ε, altrimenti sceglie casualmente
  4. Selezione Casuale: Metodo di base completamente casuale

Configurazione Sperimentale

Configurazione dell'Esperimento

  • Numero di Prove: 500 esecuzioni indipendenti per ogni modello
  • Turni Decisionali: 25 turni di decisione per ogni esecuzione
  • Configurazioni di Bracci: Test di diverse configurazioni con 2-5 bracci
  • Ambiente di Valutazione: Istanze GPU ospitate su RunPod, basate sulla libreria Hugging Face Transformers

Metriche di Valutazione

  1. Ricompensa Cumulativa: Numero totale di gettoni ottenuti in 25 turni di decisione
  2. Tasso di Selezione del Braccio Ottimale: Percentuale di frequenza della selezione del braccio ottimale (tasso di successo del 65%)
  3. Rimpianto Cumulativo: Costo opportunità della mancata selezione del braccio ottimale

Controlli Sperimentali

  • Rimozione del ragionamento Chain-of-Thought per ottenere output chiari
  • Utilizzo dello stesso formato e struttura di prompt
  • Singolo completamento per ogni fase decisionale, senza ragionamento intermedio

Risultati Sperimentali

Risultati Principali

Confronto del Tasso di Selezione del Braccio Ottimale

Modello/AlgoritmoTasso di Selezione del Braccio OttimaleRicompensa Cumulativa
Qwen3-4B89,2%11.150
Campionamento di Thompson51,1%8.297
UCB47,6%4.696
Epsilon-Greedy38,1%6.029
Qwen3-8B37,5%4.686
Selezione Casuale31,8%5.783
Llama-3.1-8B31,6%3.946
Phi-225,4%3.181

Scoperte Chiave

1. Effetti di Scala Controintuitivi

  • Qwen3-4B (4B parametri) supera significativamente Qwen3-8B (8B parametri)
  • I modelli più grandi tendono a "pensare troppo", causando un calo nelle prestazioni decisionali
  • Il modello più piccolo Phi-2 (2,7B) ha le prestazioni peggiori, indicando l'esistenza di un intervallo di dimensione ottimale

2. Impatto del Numero di Bracci sulle Prestazioni

Le prestazioni di tutti i modelli diminuiscono significativamente all'aumentare del numero di bracci:

  • Llama-3.1-8B: Calo dal 31,56% (2 bracci) al 7,37% (5 bracci)
  • Qwen3-4B: Calo dall'89,22% (2 bracci) al 6,53% (5 bracci)
  • Phi-2: Calo dal 25,45% (2 bracci) al 17,78% (5 bracci)
  • Qwen3-8B: Calo dal 37,49% (2 bracci) al 17,09% (5 bracci)

3. Analisi del Rimpianto Cumulativo

  • Qwen3-4B mostra una rapida riduzione del rimpianto nella configurazione a 2 bracci
  • I modelli più grandi mantengono un rimpianto cumulativo più elevato in tutte le configurazioni
  • La configurazione a 4 bracci ha inaspettatamente prodotto il rimpianto cumulativo più basso tra tutti i modelli

Analisi Qualitativa

  1. Strategie di Esplorazione-Sfruttamento: Gli LLM mostrano pattern di comportamento simili al campionamento di Thompson
  2. Fissazione Precoce: I modelli tendono a determinare prematuramente la scelta "ottimale" basandosi su feedback limitato
  3. Sovraccarico di Ragionamento: Qwen3-8B impiega un tempo insolitamente lungo a causa dei continui tentativi di ragionamento

Lavori Correlati

Ragionamento Probabilistico negli LLM

  • Xie et al. (2022): Formalizzazione dell'apprendimento in contesto come ragionamento bayesiano implicito
  • Gupta et al. (2025): Dimostrazione che gli LLM possono condurre aggiornamenti di credenze coerenti con l'aggiornamento della posteriore bayesiana
  • Sun et al. (2025): Proposta di un approccio ibrido che combina strategie classiche di bandit e previsione di ricompense da LLM

Decisione Consapevole dell'Incertezza

  • Felicioni et al. (2024): Esplorazione dei benefici della considerazione esplicita dell'incertezza epistemica nel processo decisionale sequenziale
  • La ricerca mostra che l'incertezza può essere un segnale prezioso per guidare il comportamento del modello

Esplorazione-Sfruttamento in Ambienti Bandit

  • Zhang et al. (2025): Confronto tra gli LLM e gli umani nelle strategie di esplorazione-sfruttamento nel multi-armed bandit
  • Scoperta che il Chain-of-Thought migliora significativamente le capacità di ragionamento, rendendo il comportamento degli LLM più simile agli approcci umani

Conclusioni e Discussione

Conclusioni Principali

  1. Ragionamento Probabilistico Emergente dal Linguaggio: Dimostrazione che il ragionamento probabilistico efficace può emergere basandosi esclusivamente su feedback linguistico
  2. Relazione Complessa tra Scala e Prestazioni: La dimensione del modello non è sempre positivamente correlata alle prestazioni decisionali
  3. Importanza dell'Ottimizzazione dell'Architettura: Le architetture di modelli leggeri ed efficienti potrebbero avere vantaggi in ambienti con feedback rapido

Limitazioni

  1. Limitazioni nell'Intervallo di Modelli: Test limitato a modelli open-source con 2,7B-8B parametri, escludendo modelli di scala più grande
  2. Complessità del Compito: Strutture di ricompensa statiche e semplici, senza coinvolgere ambienti non stazionari o feedback ritardato
  3. Strategia di Prompt: L'evitamento del Chain-of-Thought potrebbe sottostimare le vere capacità degli LLM
  4. Limitazioni di Risorse Computazionali: Impossibilità di testare modelli commerciali di grandi dimensioni come GPT-4

Direzioni Future

  1. Test in Ambienti Dinamici: Valutazione in ambienti bandit non stazionari o con ricompense ritardate
  2. Prompt Guidato: Combinazione del Chain-of-Thought per studiare l'impatto dello scaffolding sul bilancio esplorazione-sfruttamento
  3. Ricerca sugli Effetti di Scala: Studio sistematico delle prestazioni di modelli di scala più grande e varianti fine-tuned
  4. Pianificazione Multi-Step: Estensione a compiti decisionali complessi che richiedono ragionamento multi-step

Valutazione Approfondita

Punti di Forza

  1. Forte Innovatività: Prima proposta di un framework di valutazione del ragionamento probabilistico in ambienti puramente linguistici
  2. Scoperte Importanti: Rivelazione della relazione controintuitiva tra la dimensione del modello e le prestazioni decisionali
  3. Rigore Sperimentale: 500 esecuzioni indipendenti garantiscono l'affidabilità statistica dei risultati
  4. Baseline Completo: Il confronto sistematico con algoritmi classici fornisce un riferimento prezioso
  5. Buona Riproducibilità: Fornitura di codice completo e istruzioni di implementazione dettagliate

Insufficienze

  1. Spiegazione Teorica Insufficiente: Spiegazione relativamente debole del meccanismo dietro le eccellenti prestazioni di Qwen3-4B
  2. Limitazioni nella Selezione dei Modelli: Mancanza di test su modelli di scala più grande
  3. Unicità del Compito: Focalizzazione esclusiva sul problema dei bandit, con generalizzabilità da verificare
  4. Profondità di Analisi: Analisi insufficiente del meccanismo del fenomeno di "pensare troppo"

Impatto

  1. Valore Accademico: Fornisce un nuovo framework di valutazione per comprendere le capacità di ragionamento probabilistico degli LLM
  2. Significato Pratico: Fornisce riferimenti importanti per lo sviluppo di sistemi decisionali basati sul linguaggio
  3. Contributo Metodologico: Il benchmark TextBandit potrebbe diventare uno strumento di valutazione standard nel campo
  4. Impatto Interdisciplinare: Connessione tra l'elaborazione del linguaggio naturale, la teoria delle decisioni e la scienza cognitiva

Scenari Applicabili

  1. Valutazione Educativa: Valutazione delle capacità decisionali dei sistemi di IA in contesti educativi
  2. Interazione Uomo-Macchina: Progettazione di sistemi di supporto decisionale più naturali
  3. Allocazione di Risorse: Ottimizzazione delle risorse in ambienti dove mancano dati precisi
  4. IA per Giochi: Sviluppo di agenti intelligenti per giochi basati su feedback linguistico

Bibliografia

Questo articolo cita lavori importanti nei campi del ragionamento probabilistico, della decisione sotto incertezza e del multi-armed bandit, inclusi:

  • Xie et al. (2022): Framework di ragionamento bayesiano per l'apprendimento in contesto
  • Gupta et al. (2025): Capacità di aggiornamento delle credenze bayesiane negli LLM
  • Zhang et al. (2025): Confronto tra strategie di esplorazione-sfruttamento di LLM e umani
  • Felicioni et al. (2024): Processo decisionale sequenziale consapevole dell'incertezza

Valutazione Complessiva: Questo è un articolo di notevole valore innovativo che fornisce una nuova prospettiva per comprendere le capacità di ragionamento probabilistico degli LLM attraverso il benchmark TextBandit. Sebbene presenti alcune limitazioni, le sue scoperte riguardanti gli effetti di scala controintuitivi e il ragionamento probabilistico emergente dal linguaggio hanno un significato teorico e pratico importante per il campo.