Large language models (LLMs) have shown to be increasingly capable of performing reasoning tasks, but their ability to make sequential decisions under uncertainty only using natural language remains underexplored. We introduce a novel benchmark in which LLMs interact with multi-armed bandit environments using purely textual feedback, "you earned a token", without access to numerical cues or explicit probabilities, resulting in the model to infer latent reward structures purely off linguistic cues and to adapt accordingly. We evaluated the performance of four open-source LLMs and compare their performance to standard decision-making algorithms such as Thompson Sampling, Epsilon Greedy, Upper Confidence Bound (UCB), and random choice. While most of the LLMs underperformed compared to the baselines, Qwen3-4B, achieved the best-arm selection rate of 89.2% , which significantly outperformed both the larger LLMs and traditional methods. Our findings suggest that probabilistic reasoning is able to emerge from language alone, and we present this benchmark as a step towards evaluating decision-making capabilities in naturalistic, non-numeric contexts.
TextBandit: Valutazione del Ragionamento Probabilistico negli LLM Attraverso Compiti Decisionali Basati sul Linguaggio
- ID Articolo: 2510.13878
- Titolo: TextBandit: Valutazione del Ragionamento Probabilistico negli LLM Attraverso Compiti Decisionali Basati sul Linguaggio
- Autori: Jimin Lim (UC Merced), Arjun Damerla (UC Berkeley), Arthur Jiang (Algoverse), Nam Le (Algoverse)
- Classificazione: cs.CL (Linguistica Computazionale)
- Data di Pubblicazione: 13 ottobre 2025 (preprint arXiv)
- Link Articolo: https://arxiv.org/abs/2510.13878
I modelli linguistici di grandi dimensioni (LLM) dimostrano capacità sempre più forti nei compiti di ragionamento, tuttavia la loro capacità di prendere decisioni sequenziali sotto incertezza utilizzando esclusivamente il linguaggio naturale rimane ancora insufficientemente esplorata. Questo articolo introduce un nuovo benchmark innovativo in cui gli LLM interagiscono con ambienti multi-armed bandit utilizzando esclusivamente feedback in testo puro ("hai ricevuto un gettone"), senza accesso a indizi numerici o probabilità esplicite, richiedendo ai modelli di inferire la struttura delle ricompense sottostante e adattarsi di conseguenza basandosi esclusivamente su indizi linguistici. Lo studio valuta le prestazioni di quattro LLM open-source e le confronta con algoritmi decisionali standard come il campionamento di Thompson, l'epsilon-greedy, l'Upper Confidence Bound (UCB) e la selezione casuale. Sebbene la maggior parte degli LLM abbia prestazioni inferiori ai metodi di base, Qwen3-4B ha raggiunto il miglior tasso di selezione del braccio ottimale del 89,2%, superando significativamente gli LLM più grandi e i metodi tradizionali.
La questione centrale che questa ricerca affronta è: i modelli linguistici di grandi dimensioni sono in grado di condurre un ragionamento probabilistico efficace e un processo decisionale in ambienti incerti utilizzando esclusivamente feedback in linguaggio naturale?
- Significato Teorico: Esplorare se gli LLM possiedono capacità intrinseche di ragionamento bayesiano, il che ha un valore importante per comprendere i meccanismi cognitivi dei sistemi di IA
- Valore Pratico: Nel mondo reale, molti scenari decisionali mancano di dati numerici precisi e possono fare affidamento solo su descrizioni linguistiche per il giudizio
- Sfide Tecniche: I metodi tradizionali di decisione sotto incertezza si basano su calcoli matematici complessi, mentre gli approcci basati sul linguaggio potrebbero fornire soluzioni più flessibili e accessibili
- Dipendenza Numerica: I metodi tradizionali di ragionamento bayesiano e apprendimento per rinforzo richiedono input numerici espliciti e informazioni probabilistiche
- Valutazione Mancante: Mancano benchmark specializzati per valutare le capacità di ragionamento probabilistico degli LLM in ambienti puramente linguistici
- Limitazioni di Complessità: La ricerca esistente si concentra principalmente su compiti vincolati semplici, senza esplorare sufficientemente scenari di decisione multi-step
Gli autori ritengono che, se gli LLM fossero in grado di condurre un ragionamento probabilistico efficace basato esclusivamente su feedback linguistico, ciò aprirebbe nuove possibilità per il processo decisionale naturale e non numerato, in particolare in scenari di applicazione reale dove mancano dati strutturati.
- Proposta del Benchmark TextBandit: Il primo benchmark specializzato per valutare le capacità di ragionamento probabilistico degli LLM in ambienti puramente linguistici, utilizzando il framework multi-armed bandit
- Scoperta di Effetti di Scala Controintuitivi: Dimostrazione di una relazione negativa tra la dimensione del modello e le prestazioni decisionali, con il Qwen3-4B più piccolo che supera significativamente i modelli più grandi
- Dimostrazione del Ragionamento Probabilistico Emergente dal Linguaggio: Prova che le capacità di ragionamento probabilistico possono emergere dall'interazione puramente linguistica, senza indizi numerici
- Analisi Comparativa Completa: Confronto sistematico tra gli LLM e gli algoritmi decisionali classici, fornendo intuizioni importanti per comprendere i vantaggi e gli svantaggi di diversi approcci
Input: Descrizione in linguaggio naturale della cronologia delle scelte e dei risultati (ad esempio "la slot machine 1 ha vinto", "la slot machine 2 ha perso")
Output: Selezione del braccio per il turno successivo (ID numerico, come "1" o "2")
Vincoli: Nessun indizio numerico, nessuna probabilità esplicita, nessun processo di ragionamento intermedio
- Numero di Bracci: 2-5 bracci, ciascuno con probabilità di successo fissa ma sconosciuta
- Struttura delle Ricompense: Nella configurazione a due bracci, un braccio ha tasso di successo del 65%, l'altro del 30%
- Meccanismo di Feedback:
- Successo: "hai ricevuto un gettone" (ricompensa=1)
- Fallimento: "non hai ricevuto un gettone" (ricompensa=0)
Ogni LLM utilizza una struttura di prompt coerente:
- Descrizione del Compito: Istruzioni in linguaggio naturale che collocano il compito in un contesto decisionale
- Registro Storico: Descrizione puramente linguistica di tutte le scelte e i risultati precedenti
- Richiesta di Azione: Richiesta al modello di produrre il numero corrispondente al braccio
Lo studio ha selezionato quattro LLM open-source con architetture e scale di parametri diverse:
| Modello | Parametri | Architettura | Caratteristiche |
|---|
| Qwen3-4B | 4B | Transformer solo decoder | Supporto multilingue, forti capacità di ragionamento |
| Qwen3-8B | 8B | Transformer solo decoder | Versione più grande di Qwen3-4B, capacità di utilizzo di strumenti migliorate |
| Llama-3.1-8B | 8B | Transformer solo decoder | Capacità di seguire istruzioni e multilingue ottimizzate |
| Phi-2 | 2.7B | Transformer | Modello piccolo ed efficiente |
Confronto con quattro algoritmi classici per multi-armed bandit:
- Campionamento di Thompson: Utilizza il ragionamento bayesiano per campionare da una distribuzione di probabilità
- Upper Confidence Bound (UCB): Strategia deterministica che bilancia sfruttamento ed esplorazione
- Epsilon-Greedy: Seleziona l'azione migliore con probabilità 1-ε, altrimenti sceglie casualmente
- Selezione Casuale: Metodo di base completamente casuale
- Numero di Prove: 500 esecuzioni indipendenti per ogni modello
- Turni Decisionali: 25 turni di decisione per ogni esecuzione
- Configurazioni di Bracci: Test di diverse configurazioni con 2-5 bracci
- Ambiente di Valutazione: Istanze GPU ospitate su RunPod, basate sulla libreria Hugging Face Transformers
- Ricompensa Cumulativa: Numero totale di gettoni ottenuti in 25 turni di decisione
- Tasso di Selezione del Braccio Ottimale: Percentuale di frequenza della selezione del braccio ottimale (tasso di successo del 65%)
- Rimpianto Cumulativo: Costo opportunità della mancata selezione del braccio ottimale
- Rimozione del ragionamento Chain-of-Thought per ottenere output chiari
- Utilizzo dello stesso formato e struttura di prompt
- Singolo completamento per ogni fase decisionale, senza ragionamento intermedio
| Modello/Algoritmo | Tasso di Selezione del Braccio Ottimale | Ricompensa Cumulativa |
|---|
| Qwen3-4B | 89,2% | 11.150 |
| Campionamento di Thompson | 51,1% | 8.297 |
| UCB | 47,6% | 4.696 |
| Epsilon-Greedy | 38,1% | 6.029 |
| Qwen3-8B | 37,5% | 4.686 |
| Selezione Casuale | 31,8% | 5.783 |
| Llama-3.1-8B | 31,6% | 3.946 |
| Phi-2 | 25,4% | 3.181 |
- Qwen3-4B (4B parametri) supera significativamente Qwen3-8B (8B parametri)
- I modelli più grandi tendono a "pensare troppo", causando un calo nelle prestazioni decisionali
- Il modello più piccolo Phi-2 (2,7B) ha le prestazioni peggiori, indicando l'esistenza di un intervallo di dimensione ottimale
Le prestazioni di tutti i modelli diminuiscono significativamente all'aumentare del numero di bracci:
- Llama-3.1-8B: Calo dal 31,56% (2 bracci) al 7,37% (5 bracci)
- Qwen3-4B: Calo dall'89,22% (2 bracci) al 6,53% (5 bracci)
- Phi-2: Calo dal 25,45% (2 bracci) al 17,78% (5 bracci)
- Qwen3-8B: Calo dal 37,49% (2 bracci) al 17,09% (5 bracci)
- Qwen3-4B mostra una rapida riduzione del rimpianto nella configurazione a 2 bracci
- I modelli più grandi mantengono un rimpianto cumulativo più elevato in tutte le configurazioni
- La configurazione a 4 bracci ha inaspettatamente prodotto il rimpianto cumulativo più basso tra tutti i modelli
- Strategie di Esplorazione-Sfruttamento: Gli LLM mostrano pattern di comportamento simili al campionamento di Thompson
- Fissazione Precoce: I modelli tendono a determinare prematuramente la scelta "ottimale" basandosi su feedback limitato
- Sovraccarico di Ragionamento: Qwen3-8B impiega un tempo insolitamente lungo a causa dei continui tentativi di ragionamento
- Xie et al. (2022): Formalizzazione dell'apprendimento in contesto come ragionamento bayesiano implicito
- Gupta et al. (2025): Dimostrazione che gli LLM possono condurre aggiornamenti di credenze coerenti con l'aggiornamento della posteriore bayesiana
- Sun et al. (2025): Proposta di un approccio ibrido che combina strategie classiche di bandit e previsione di ricompense da LLM
- Felicioni et al. (2024): Esplorazione dei benefici della considerazione esplicita dell'incertezza epistemica nel processo decisionale sequenziale
- La ricerca mostra che l'incertezza può essere un segnale prezioso per guidare il comportamento del modello
- Zhang et al. (2025): Confronto tra gli LLM e gli umani nelle strategie di esplorazione-sfruttamento nel multi-armed bandit
- Scoperta che il Chain-of-Thought migliora significativamente le capacità di ragionamento, rendendo il comportamento degli LLM più simile agli approcci umani
- Ragionamento Probabilistico Emergente dal Linguaggio: Dimostrazione che il ragionamento probabilistico efficace può emergere basandosi esclusivamente su feedback linguistico
- Relazione Complessa tra Scala e Prestazioni: La dimensione del modello non è sempre positivamente correlata alle prestazioni decisionali
- Importanza dell'Ottimizzazione dell'Architettura: Le architetture di modelli leggeri ed efficienti potrebbero avere vantaggi in ambienti con feedback rapido
- Limitazioni nell'Intervallo di Modelli: Test limitato a modelli open-source con 2,7B-8B parametri, escludendo modelli di scala più grande
- Complessità del Compito: Strutture di ricompensa statiche e semplici, senza coinvolgere ambienti non stazionari o feedback ritardato
- Strategia di Prompt: L'evitamento del Chain-of-Thought potrebbe sottostimare le vere capacità degli LLM
- Limitazioni di Risorse Computazionali: Impossibilità di testare modelli commerciali di grandi dimensioni come GPT-4
- Test in Ambienti Dinamici: Valutazione in ambienti bandit non stazionari o con ricompense ritardate
- Prompt Guidato: Combinazione del Chain-of-Thought per studiare l'impatto dello scaffolding sul bilancio esplorazione-sfruttamento
- Ricerca sugli Effetti di Scala: Studio sistematico delle prestazioni di modelli di scala più grande e varianti fine-tuned
- Pianificazione Multi-Step: Estensione a compiti decisionali complessi che richiedono ragionamento multi-step
- Forte Innovatività: Prima proposta di un framework di valutazione del ragionamento probabilistico in ambienti puramente linguistici
- Scoperte Importanti: Rivelazione della relazione controintuitiva tra la dimensione del modello e le prestazioni decisionali
- Rigore Sperimentale: 500 esecuzioni indipendenti garantiscono l'affidabilità statistica dei risultati
- Baseline Completo: Il confronto sistematico con algoritmi classici fornisce un riferimento prezioso
- Buona Riproducibilità: Fornitura di codice completo e istruzioni di implementazione dettagliate
- Spiegazione Teorica Insufficiente: Spiegazione relativamente debole del meccanismo dietro le eccellenti prestazioni di Qwen3-4B
- Limitazioni nella Selezione dei Modelli: Mancanza di test su modelli di scala più grande
- Unicità del Compito: Focalizzazione esclusiva sul problema dei bandit, con generalizzabilità da verificare
- Profondità di Analisi: Analisi insufficiente del meccanismo del fenomeno di "pensare troppo"
- Valore Accademico: Fornisce un nuovo framework di valutazione per comprendere le capacità di ragionamento probabilistico degli LLM
- Significato Pratico: Fornisce riferimenti importanti per lo sviluppo di sistemi decisionali basati sul linguaggio
- Contributo Metodologico: Il benchmark TextBandit potrebbe diventare uno strumento di valutazione standard nel campo
- Impatto Interdisciplinare: Connessione tra l'elaborazione del linguaggio naturale, la teoria delle decisioni e la scienza cognitiva
- Valutazione Educativa: Valutazione delle capacità decisionali dei sistemi di IA in contesti educativi
- Interazione Uomo-Macchina: Progettazione di sistemi di supporto decisionale più naturali
- Allocazione di Risorse: Ottimizzazione delle risorse in ambienti dove mancano dati precisi
- IA per Giochi: Sviluppo di agenti intelligenti per giochi basati su feedback linguistico
Questo articolo cita lavori importanti nei campi del ragionamento probabilistico, della decisione sotto incertezza e del multi-armed bandit, inclusi:
- Xie et al. (2022): Framework di ragionamento bayesiano per l'apprendimento in contesto
- Gupta et al. (2025): Capacità di aggiornamento delle credenze bayesiane negli LLM
- Zhang et al. (2025): Confronto tra strategie di esplorazione-sfruttamento di LLM e umani
- Felicioni et al. (2024): Processo decisionale sequenziale consapevole dell'incertezza
Valutazione Complessiva: Questo è un articolo di notevole valore innovativo che fornisce una nuova prospettiva per comprendere le capacità di ragionamento probabilistico degli LLM attraverso il benchmark TextBandit. Sebbene presenti alcune limitazioni, le sue scoperte riguardanti gli effetti di scala controintuitivi e il ragionamento probabilistico emergente dal linguaggio hanno un significato teorico e pratico importante per il campo.