2025-11-13T17:28:10.587795

TextBandit: Evaluating Probabilistic Reasoning in LLMs Through Language-Only Decision Tasks

Lim, Damerla, Jiang et al.

Large language models (LLMs) have shown to be increasingly capable of performing reasoning tasks, but their ability to make sequential decisions under uncertainty only using natural language remains underexplored. We introduce a novel benchmark in which LLMs interact with multi-armed bandit environments using purely textual feedback, "you earned a token", without access to numerical cues or explicit probabilities, resulting in the model to infer latent reward structures purely off linguistic cues and to adapt accordingly. We evaluated the performance of four open-source LLMs and compare their performance to standard decision-making algorithms such as Thompson Sampling, Epsilon Greedy, Upper Confidence Bound (UCB), and random choice. While most of the LLMs underperformed compared to the baselines, Qwen3-4B, achieved the best-arm selection rate of 89.2% , which significantly outperformed both the larger LLMs and traditional methods. Our findings suggest that probabilistic reasoning is able to emerge from language alone, and we present this benchmark as a step towards evaluating decision-making capabilities in naturalistic, non-numeric contexts.

academic

TextBandit: Valutazione del Ragionamento Probabilistico negli LLM Attraverso Compiti Decisionali Basati sul Linguaggio

Informazioni Fondamentali

ID Articolo: 2510.13878
Titolo: TextBandit: Valutazione del Ragionamento Probabilistico negli LLM Attraverso Compiti Decisionali Basati sul Linguaggio
Autori: Jimin Lim (UC Merced), Arjun Damerla (UC Berkeley), Arthur Jiang (Algoverse), Nam Le (Algoverse)
Classificazione: cs.CL (Linguistica Computazionale)
Data di Pubblicazione: 13 ottobre 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2510.13878

Riassunto

I modelli linguistici di grandi dimensioni (LLM) dimostrano capacità sempre più forti nei compiti di ragionamento, tuttavia la loro capacità di prendere decisioni sequenziali sotto incertezza utilizzando esclusivamente il linguaggio naturale rimane ancora insufficientemente esplorata. Questo articolo introduce un nuovo benchmark innovativo in cui gli LLM interagiscono con ambienti multi-armed bandit utilizzando esclusivamente feedback in testo puro ("hai ricevuto un gettone"), senza accesso a indizi numerici o probabilità esplicite, richiedendo ai modelli di inferire la struttura delle ricompense sottostante e adattarsi di conseguenza basandosi esclusivamente su indizi linguistici. Lo studio valuta le prestazioni di quattro LLM open-source e le confronta con algoritmi decisionali standard come il campionamento di Thompson, l'epsilon-greedy, l'Upper Confidence Bound (UCB) e la selezione casuale. Sebbene la maggior parte degli LLM abbia prestazioni inferiori ai metodi di base, Qwen3-4B ha raggiunto il miglior tasso di selezione del braccio ottimale del 89,2%, superando significativamente gli LLM più grandi e i metodi tradizionali.

Contesto di Ricerca e Motivazione

Definizione del Problema

La questione centrale che questa ricerca affronta è: i modelli linguistici di grandi dimensioni sono in grado di condurre un ragionamento probabilistico efficace e un processo decisionale in ambienti incerti utilizzando esclusivamente feedback in linguaggio naturale?

Importanza

Significato Teorico: Esplorare se gli LLM possiedono capacità intrinseche di ragionamento bayesiano, il che ha un valore importante per comprendere i meccanismi cognitivi dei sistemi di IA
Valore Pratico: Nel mondo reale, molti scenari decisionali mancano di dati numerici precisi e possono fare affidamento solo su descrizioni linguistiche per il giudizio
Sfide Tecniche: I metodi tradizionali di decisione sotto incertezza si basano su calcoli matematici complessi, mentre gli approcci basati sul linguaggio potrebbero fornire soluzioni più flessibili e accessibili

Limitazioni dei Metodi Esistenti

Dipendenza Numerica: I metodi tradizionali di ragionamento bayesiano e apprendimento per rinforzo richiedono input numerici espliciti e informazioni probabilistiche
Valutazione Mancante: Mancano benchmark specializzati per valutare le capacità di ragionamento probabilistico degli LLM in ambienti puramente linguistici
Limitazioni di Complessità: La ricerca esistente si concentra principalmente su compiti vincolati semplici, senza esplorare sufficientemente scenari di decisione multi-step

Motivazione della Ricerca

Gli autori ritengono che, se gli LLM fossero in grado di condurre un ragionamento probabilistico efficace basato esclusivamente su feedback linguistico, ciò aprirebbe nuove possibilità per il processo decisionale naturale e non numerato, in particolare in scenari di applicazione reale dove mancano dati strutturati.

Contributi Fondamentali

Proposta del Benchmark TextBandit: Il primo benchmark specializzato per valutare le capacità di ragionamento probabilistico degli LLM in ambienti puramente linguistici, utilizzando il framework multi-armed bandit
Scoperta di Effetti di Scala Controintuitivi: Dimostrazione di una relazione negativa tra la dimensione del modello e le prestazioni decisionali, con il Qwen3-4B più piccolo che supera significativamente i modelli più grandi
Dimostrazione del Ragionamento Probabilistico Emergente dal Linguaggio: Prova che le capacità di ragionamento probabilistico possono emergere dall'interazione puramente linguistica, senza indizi numerici
Analisi Comparativa Completa: Confronto sistematico tra gli LLM e gli algoritmi decisionali classici, fornendo intuizioni importanti per comprendere i vantaggi e gli svantaggi di diversi approcci

Dettagli Metodologici

Definizione del Compito

Input: Descrizione in linguaggio naturale della cronologia delle scelte e dei risultati (ad esempio "la slot machine 1 ha vinto", "la slot machine 2 ha perso") Output: Selezione del braccio per il turno successivo (ID numerico, come "1" o "2") Vincoli: Nessun indizio numerico, nessuna probabilità esplicita, nessun processo di ragionamento intermedio

Architettura Sperimentale

Ambiente Multi-Armed Bandit

Numero di Bracci: 2-5 bracci, ciascuno con probabilità di successo fissa ma sconosciuta
Struttura delle Ricompense: Nella configurazione a due bracci, un braccio ha tasso di successo del 65%, l'altro del 30%
Meccanismo di Feedback:
- Successo: "hai ricevuto un gettone" (ricompensa=1)
- Fallimento: "non hai ricevuto un gettone" (ricompensa=0)

Protocollo di Prompt

Ogni LLM utilizza una struttura di prompt coerente:

Descrizione del Compito: Istruzioni in linguaggio naturale che collocano il compito in un contesto decisionale
Registro Storico: Descrizione puramente linguistica di tutte le scelte e i risultati precedenti
Richiesta di Azione: Richiesta al modello di produrre il numero corrispondente al braccio

Modelli Valutati

Lo studio ha selezionato quattro LLM open-source con architetture e scale di parametri diverse:

Modello	Parametri	Architettura	Caratteristiche
Qwen3-4B	4B	Transformer solo decoder	Supporto multilingue, forti capacità di ragionamento
Qwen3-8B	8B	Transformer solo decoder	Versione più grande di Qwen3-4B, capacità di utilizzo di strumenti migliorate
Llama-3.1-8B	8B	Transformer solo decoder	Capacità di seguire istruzioni e multilingue ottimizzate
Phi-2	2.7B	Transformer	Modello piccolo ed efficiente

Metodi di Base

Confronto con quattro algoritmi classici per multi-armed bandit:

Campionamento di Thompson: Utilizza il ragionamento bayesiano per campionare da una distribuzione di probabilità
Upper Confidence Bound (UCB): Strategia deterministica che bilancia sfruttamento ed esplorazione
Epsilon-Greedy: Seleziona l'azione migliore con probabilità 1-ε, altrimenti sceglie casualmente
Selezione Casuale: Metodo di base completamente casuale

Configurazione Sperimentale

Configurazione dell'Esperimento

Numero di Prove: 500 esecuzioni indipendenti per ogni modello
Turni Decisionali: 25 turni di decisione per ogni esecuzione
Configurazioni di Bracci: Test di diverse configurazioni con 2-5 bracci
Ambiente di Valutazione: Istanze GPU ospitate su RunPod, basate sulla libreria Hugging Face Transformers

Metriche di Valutazione

Ricompensa Cumulativa: Numero totale di gettoni ottenuti in 25 turni di decisione
Tasso di Selezione del Braccio Ottimale: Percentuale di frequenza della selezione del braccio ottimale (tasso di successo del 65%)
Rimpianto Cumulativo: Costo opportunità della mancata selezione del braccio ottimale

Controlli Sperimentali

Rimozione del ragionamento Chain-of-Thought per ottenere output chiari
Utilizzo dello stesso formato e struttura di prompt
Singolo completamento per ogni fase decisionale, senza ragionamento intermedio

Risultati Sperimentali

Risultati Principali

Confronto del Tasso di Selezione del Braccio Ottimale

Modello/Algoritmo	Tasso di Selezione del Braccio Ottimale	Ricompensa Cumulativa
Qwen3-4B	89,2%	11.150
Campionamento di Thompson	51,1%	8.297
UCB	47,6%	4.696
Epsilon-Greedy	38,1%	6.029
Qwen3-8B	37,5%	4.686
Selezione Casuale	31,8%	5.783
Llama-3.1-8B	31,6%	3.946
Phi-2	25,4%	3.181

Scoperte Chiave

1. Effetti di Scala Controintuitivi

Qwen3-4B (4B parametri) supera significativamente Qwen3-8B (8B parametri)
I modelli più grandi tendono a "pensare troppo", causando un calo nelle prestazioni decisionali
Il modello più piccolo Phi-2 (2,7B) ha le prestazioni peggiori, indicando l'esistenza di un intervallo di dimensione ottimale

2. Impatto del Numero di Bracci sulle Prestazioni

Le prestazioni di tutti i modelli diminuiscono significativamente all'aumentare del numero di bracci:

Llama-3.1-8B: Calo dal 31,56% (2 bracci) al 7,37% (5 bracci)
Qwen3-4B: Calo dall'89,22% (2 bracci) al 6,53% (5 bracci)
Phi-2: Calo dal 25,45% (2 bracci) al 17,78% (5 bracci)
Qwen3-8B: Calo dal 37,49% (2 bracci) al 17,09% (5 bracci)

3. Analisi del Rimpianto Cumulativo

Qwen3-4B mostra una rapida riduzione del rimpianto nella configurazione a 2 bracci
I modelli più grandi mantengono un rimpianto cumulativo più elevato in tutte le configurazioni
La configurazione a 4 bracci ha inaspettatamente prodotto il rimpianto cumulativo più basso tra tutti i modelli

Analisi Qualitativa

Strategie di Esplorazione-Sfruttamento: Gli LLM mostrano pattern di comportamento simili al campionamento di Thompson
Fissazione Precoce: I modelli tendono a determinare prematuramente la scelta "ottimale" basandosi su feedback limitato
Sovraccarico di Ragionamento: Qwen3-8B impiega un tempo insolitamente lungo a causa dei continui tentativi di ragionamento

Lavori Correlati

Ragionamento Probabilistico negli LLM

Xie et al. (2022): Formalizzazione dell'apprendimento in contesto come ragionamento bayesiano implicito
Gupta et al. (2025): Dimostrazione che gli LLM possono condurre aggiornamenti di credenze coerenti con l'aggiornamento della posteriore bayesiana
Sun et al. (2025): Proposta di un approccio ibrido che combina strategie classiche di bandit e previsione di ricompense da LLM

Decisione Consapevole dell'Incertezza

Felicioni et al. (2024): Esplorazione dei benefici della considerazione esplicita dell'incertezza epistemica nel processo decisionale sequenziale
La ricerca mostra che l'incertezza può essere un segnale prezioso per guidare il comportamento del modello

Esplorazione-Sfruttamento in Ambienti Bandit

Zhang et al. (2025): Confronto tra gli LLM e gli umani nelle strategie di esplorazione-sfruttamento nel multi-armed bandit
Scoperta che il Chain-of-Thought migliora significativamente le capacità di ragionamento, rendendo il comportamento degli LLM più simile agli approcci umani

Conclusioni e Discussione

Conclusioni Principali

Ragionamento Probabilistico Emergente dal Linguaggio: Dimostrazione che il ragionamento probabilistico efficace può emergere basandosi esclusivamente su feedback linguistico
Relazione Complessa tra Scala e Prestazioni: La dimensione del modello non è sempre positivamente correlata alle prestazioni decisionali
Importanza dell'Ottimizzazione dell'Architettura: Le architetture di modelli leggeri ed efficienti potrebbero avere vantaggi in ambienti con feedback rapido

Limitazioni

Limitazioni nell'Intervallo di Modelli: Test limitato a modelli open-source con 2,7B-8B parametri, escludendo modelli di scala più grande
Complessità del Compito: Strutture di ricompensa statiche e semplici, senza coinvolgere ambienti non stazionari o feedback ritardato
Strategia di Prompt: L'evitamento del Chain-of-Thought potrebbe sottostimare le vere capacità degli LLM
Limitazioni di Risorse Computazionali: Impossibilità di testare modelli commerciali di grandi dimensioni come GPT-4

Direzioni Future

Test in Ambienti Dinamici: Valutazione in ambienti bandit non stazionari o con ricompense ritardate
Prompt Guidato: Combinazione del Chain-of-Thought per studiare l'impatto dello scaffolding sul bilancio esplorazione-sfruttamento
Ricerca sugli Effetti di Scala: Studio sistematico delle prestazioni di modelli di scala più grande e varianti fine-tuned
Pianificazione Multi-Step: Estensione a compiti decisionali complessi che richiedono ragionamento multi-step

Valutazione Approfondita

Punti di Forza

Forte Innovatività: Prima proposta di un framework di valutazione del ragionamento probabilistico in ambienti puramente linguistici
Scoperte Importanti: Rivelazione della relazione controintuitiva tra la dimensione del modello e le prestazioni decisionali
Rigore Sperimentale: 500 esecuzioni indipendenti garantiscono l'affidabilità statistica dei risultati
Baseline Completo: Il confronto sistematico con algoritmi classici fornisce un riferimento prezioso
Buona Riproducibilità: Fornitura di codice completo e istruzioni di implementazione dettagliate

Insufficienze

Spiegazione Teorica Insufficiente: Spiegazione relativamente debole del meccanismo dietro le eccellenti prestazioni di Qwen3-4B
Limitazioni nella Selezione dei Modelli: Mancanza di test su modelli di scala più grande
Unicità del Compito: Focalizzazione esclusiva sul problema dei bandit, con generalizzabilità da verificare
Profondità di Analisi: Analisi insufficiente del meccanismo del fenomeno di "pensare troppo"

Impatto

Valore Accademico: Fornisce un nuovo framework di valutazione per comprendere le capacità di ragionamento probabilistico degli LLM
Significato Pratico: Fornisce riferimenti importanti per lo sviluppo di sistemi decisionali basati sul linguaggio
Contributo Metodologico: Il benchmark TextBandit potrebbe diventare uno strumento di valutazione standard nel campo
Impatto Interdisciplinare: Connessione tra l'elaborazione del linguaggio naturale, la teoria delle decisioni e la scienza cognitiva

Scenari Applicabili

Valutazione Educativa: Valutazione delle capacità decisionali dei sistemi di IA in contesti educativi
Interazione Uomo-Macchina: Progettazione di sistemi di supporto decisionale più naturali
Allocazione di Risorse: Ottimizzazione delle risorse in ambienti dove mancano dati precisi
IA per Giochi: Sviluppo di agenti intelligenti per giochi basati su feedback linguistico

Bibliografia

Questo articolo cita lavori importanti nei campi del ragionamento probabilistico, della decisione sotto incertezza e del multi-armed bandit, inclusi:

Xie et al. (2022): Framework di ragionamento bayesiano per l'apprendimento in contesto
Gupta et al. (2025): Capacità di aggiornamento delle credenze bayesiane negli LLM
Zhang et al. (2025): Confronto tra strategie di esplorazione-sfruttamento di LLM e umani
Felicioni et al. (2024): Processo decisionale sequenziale consapevole dell'incertezza

Valutazione Complessiva: Questo è un articolo di notevole valore innovativo che fornisce una nuova prospettiva per comprendere le capacità di ragionamento probabilistico degli LLM attraverso il benchmark TextBandit. Sebbene presenti alcune limitazioni, le sue scoperte riguardanti gli effetti di scala controintuitivi e il ragionamento probabilistico emergente dal linguaggio hanno un significato teorico e pratico importante per il campo.