We show that human players' gameplay in the game of Wordle is influenced by the semantics, orthography, and phonology of the player's previous guesses. We compare actual human players' guesses with near-optimal guesses using NLP techniques. We study human language use in the constrained environment of Wordle, which is situated between natural language use and the artificial word association task
- ID Articolo: 2411.18634
- Titolo: Semantic, Orthographic, and Phonological Biases in Humans' Wordle Gameplay
- Autori: Jiadong Liang, Adam Kabbara, Jiaying Liu, Ronaldo Luo, Kina Kim, Michael Guerzhoy (Università di Toronto)
- Classificazione: cs.CL (Linguistica Computazionale)
- Data di Pubblicazione: 13 novembre 2025 (arXiv v2)
- Link dell'Articolo: https://arxiv.org/abs/2411.18634
Questo studio analizza il comportamento dei giocatori umani nel gioco Wordle, rivelando come il processo di indovinamento delle parole sia sistematicamente influenzato da caratteristiche semantiche, ortografiche e fonologiche delle congetture precedenti. La ricerca confronta le congetture di giocatori umani reali con strategie quasi-ottimali basate su euristiche di massima entropia, evidenziando i modelli di distorsione cognitiva nell'uso del linguaggio umano in un ambiente vincolato che si colloca tra l'uso naturale del linguaggio e i compiti di associazione verbale artificiali.
Lo studio esamina se il comportamento di indovinamento delle parole degli umani nel gioco Wordle si discosti sistematicamente dalla strategia ottimale, e se questi scostamenti siano influenzati da distorsioni cognitive, in particolare dall'effetto priming.
- Valore per le Scienze Cognitive: Wordle fornisce un ambiente di ricerca unico, situato tra l'uso completamente libero del linguaggio naturale e i compiti di associazione verbale altamente controllati, offrendo un nuovo scenario ecologico per lo studio della cognizione linguistica umana
- Significato Teorico: Verifica l'applicabilità della teoria dell'effetto priming della psicologia in scenari di gioco reali
- Contributo Metodologico: Dimostra come utilizzare tecniche di NLP per quantificare le distorsioni cognitive umane
- Gli studi tradizionali di associazione verbale si conducono principalmente in compiti artificiali di laboratorio, mancando di validità ecologica
- Gli scenari di uso del linguaggio naturale sono troppo complessi per controllare le variabili
- Manca una ricerca sistematica sulle distorsioni cognitive nei compiti di generazione verbale vincolata
I ricercatori ipotizzano che:
- L'effetto priming influenzi le scelte di indovinamento nel gioco Wordle
- Gli umani tendano a selezionare parole simili alle congetture precedenti per ridurre il carico cognitivo
- Queste distorsioni possono essere quantificate attraverso il confronto con strategie quasi-ottimali
- Prima Dimostrazione Sistematica: Prova che gli umani nel gioco Wordle presentano distorsioni cognitive su tre dimensioni: semantica, ortografia e fonologia
- Metodologia di Quantificazione: Propone un insieme completo di metodologie utilizzando molteplici tecniche di NLP (embedding GloVe, distanza di editing, trascrizione fonetica, ecc.) per quantificare le differenze tra il comportamento umano e la strategia ottimale
- Analisi su Larga Scala: Conduce uno studio empirico basato su 83.000 dati di gioco reali raccolti da Reddit
- Scoperte Dipendenti dal Contesto: Rivela la relazione tra l'intensità della distorsione cognitiva e il grado di vincolo dello stato di gioco—maggiore libertà corrisponde a distorsioni più evidenti
- Contributo Interdisciplinare: Fornisce un paradigma di ricerca cross-disciplinare per la psicologia cognitiva, la linguistica computazionale e gli studi sui giochi
Input: Sequenza di congetture consecutive nel gioco Wordle
Output: Quantificazione delle differenze tra le congetture umane e la strategia quasi-ottimale su molteplici dimensioni
Vincoli:
- Ogni congettura deve essere una parola inglese valida di 5 lettere
- I giocatori adattano le congetture successive in base al feedback (verde/giallo/grigio)
- L'obiettivo è indovinare la parola target entro 6 tentativi
Lo studio utilizza il risolutore euristico basato sull'entropia di Doddle come strategia quasi-ottimale:
- Soluzione Ottimale (Bertsimas & Paskov 2024): Metodo di programmazione dinamica, media 3.421 congetture
- Euristica Minimax di Profondità 1: Caso peggiore 5, media 3.482 congetture
- Euristica dell'Entropia (adottata in questo studio): Garantisce completamento in 6 tentativi, media 3.432 congetture
La scelta dell'euristica rispetto alla soluzione esatta è motivata dall'efficienza computazionale, ma la differenza di prestazioni è minima (solo 0.011 congetture).
- Definizione: Numero minimo di operazioni di editing (inserimento, cancellazione, sostituzione) necessarie per trasformare una parola in un'altra
- Significato Cognitivo: Una distanza minore indica che i giocatori tendono a selezionare parole con struttura simile, potenzialmente riflettendo una tendenza a ridurre lo sforzo cognitivo
- Calcolo: Confronto della distanza di editing tra congetture consecutive
- Definizione: Similarità coseno negativa utilizzando embedding di parole GloVe
- Formula: dsemantica=1−cos(va,vb), dove va,vb sono vettori di parole
- Significato Cognitivo: Verifica se gli umani tendono a indovinare parole semanticamente correlate (ad es., "BREAD" seguito da "TOAST")
- Definizione: Numero di caratteri in posizioni corrispondenti che differiscono tra due stringhe di uguale lunghezza
- Significato Cognitivo: Più rigorosa di Levenshtein, considera solo differenze in posizioni fisse, più coerente con il meccanismo di feedback di Wordle
- Implementazione: Utilizzo del CMU Pronouncing Dictionary per la trascrizione fonetica
- Criterio di Giudizio: Rima perfetta—corrispondenza della terminazione fonetica e inclusione di vocale accentata
- Significato Cognitivo: Verifica se la similarità fonetica influenzi la selezione lessicale
Utilizza il simbolo (cg, cy, cb) per rappresentare lo stato di gioco:
- cg: Numero di quadrati verdi (lettera corretta in posizione corretta)
- cy: Numero di quadrati gialli (lettera corretta in posizione sbagliata)
- cb: Numero di quadrati grigi (lettera sbagliata)
Ad esempio: (2, 0, 3) rappresenta 2 verdi, 0 gialli, 3 grigi.
- Ampiezza dell'Effetto: Utilizzo di Cohen's d per misurare le differenze tra le distribuzioni della strategia umana e quella ottimale
d=σraggruppatoμumano−μottimale
- Test di Significatività: Calcolo del valore p basato sulla statistica t
- Analisi Stratificata: Analisi separata per stato di gioco, rivelando l'impatto del grado di vincolo sulla distorsione
Fonte: Subreddit r/Wordle di Reddit
Dimensione: 83.000 record di gioco
Metodo di Raccolta: Utilizzo di espressioni regolari per estrarre dati di gioco condivisi dagli utenti in formato standard
Fornitore di Dati: Reddit Data Dump di Watchful1 (2023)
Intervallo Temporale: Giugno 2005 - Dicembre 2023
Caratteristiche dei Dati:
- Comportamento di giocatori reali in ambiente di gioco naturale
- Condivisione volontaria, potenziale bias di selezione
- Limitato al gioco Wordle in lingua inglese
- Cohen's d: Quantificazione della dimensione dell'effetto
- |d| < 0.2: Effetto piccolo
- 0.2 ≤ |d| < 0.5: Effetto medio
- |d| ≥ 0.5: Effetto grande
- Valore p: Significatività statistica (soglia p < 0.001)
- Visualizzazione della Distribuzione: Istogrammi, grafici a violino, box plot
Benchmark Unico: Risolutore euristico basato sull'entropia di Doddle
- Questo metodo rappresenta la strategia quasi-ottimale
- Le prestazioni sono vicine all'ottimale teorico (differenza di soli 0.011 congetture)
- Computazionalmente fattibile, può generare congetture ottimali corrispondenti per tutti gli 83.000 dati
- Modello GloVe: Vettori di parole pre-addestrati (Pennington et al. 2014)
- Libreria di Pronuncia: CMU Pronouncing Dictionary
- Distanza di Editing: Algoritmo standard di Levenshtein
- Analisi di Correlazione: Coefficiente di correlazione di Pearson
- Visualizzazione: Utilizzo di matplotlib e seaborn di Python
- Strategia Ottimale: 7.3% delle congetture rimano con la precedente
- Giocatori Umani: 9.3% delle congetture rimano con la precedente
- Significatività: p < 0.001
- Interpretazione: Gli umani mostrano una tendenza significativa a selezionare parole foneticamente simili
Caso 1: (0, 0, 5) - Stato Completamente Non Informativo
- Cohen's d = -0.0854 (Levenshtein)
- Sia gli umani che la strategia ottimale tendono a selezionare parole con distanza 5 (completamente diverse)
- Tuttavia, gli umani in modo subottimale ripetono lettere già note come errate (vedi Figura 1a)
Caso 2: (2, 0, 3) - Stato Parzialmente Vincolato
- Cohen's d = -1.13 (Levenshtein, effetto grande)
- p < 10^-12
- Gli umani sottovalutano significativamente l'esplorazione: tendono a selezionare parole simili alla precedente (vedi Figura 1b)
- Questo è uno dei segnali di distorsione più forti
Caso 1: (0, 0, 5) - Non Vincolato
- Cohen's d = -0.437 (distanza GloVe)
- p = 1.07×10^-189
- Gli umani tendono a selezionare parole semanticamente più vicine (vedi Figura 1c)
Caso 2: (3, 2, 0) - Altamente Vincolato
- Cohen's d = 0.00451
- p = 0.318 (non significativo)
- Quando il vincolo è forte, la distorsione semantica scompare (vedi Figura 1d)
Caso 1: (0, 0, 5)
- Cohen's d = 0.157
- Gli umani in modo subottimale riutilizzano caratteri già noti come errati (vedi Figura 1e)
Caso 2: (2, 2, 1)
- Cohen's d = 0.289
- Gli umani in modo subottimale utilizzano caratteri nuovi piuttosto che ottimizzare le informazioni già note (vedi Figura 1f)
Numero di Quadrati Verdi e Distorsione:
- Più verdi (vincolo più forte), minore la distorsione semantica
- 0 verdi: Cohen's d circa -0.4 a -0.6
- 4 verdi: Cohen's d vicino a 0
Numero di Quadrati Grigi e Distorsione:
- Più grigi (più informazioni di esclusione), minore la distorsione
- Indica che quando il vincolo aumenta, gli umani si avvicinano alla strategia ottimale
Scoperta Chiave:
"Gli umani mostrano distorsioni cognitive più forti quando hanno maggiore libertà, mentre si avvicinano alla strategia ottimale quando sono altamente vincolati"
Levenshtein e Hamming:
- Tutte le coppie di parole: Pearson r = 0.95 (correlazione forte)
- Differenza di caratteri < 5: Pearson r = 0.81
- Interpretazione: Entrambi misurano la similarità ortografica, altamente correlati
Levenshtein e Distanza Semantica GloVe:
- Pearson r = 0.06 (correlazione debole)
- Interpretazione: La similarità ortografica e la similarità semantica sono sostanzialmente indipendenti
- Significato: La distorsione semantica e ortografica operano come meccanismi cognitivi indipendenti (vedi Figura 2)
Sebbene l'articolo non fornisca casi specifici di coppie di parole, dai risultati si possono dedurre:
Esempio di Distorsione Semantica:
- La sequenza di congetture potrebbe includere: "BREAD" → "TOAST" → "ROAST"
- Il campo semantico rimane nell'ambito del cibo/cucina
Esempio di Distorsione Ortografica:
- Nello stato (2,0,3): "CRANE" → "CRATE" → "CRAZE"
- Mantiene il prefisso, adatta gradualmente
Esempio di Distorsione Fonetica:
- Sequenza rimata: "LIGHT" → "FIGHT" → "SIGHT"
Schacter & Buckner (1998):
- Definisce il priming come il fenomeno per cui esperienze passate influenzano il comportamento in modo inconscio
- Questo studio applica questa teoria al contesto dei giochi
Nelson et al. (1987):
- Ricerca l'influenza della rima sulla memoria e l'associazione verbale
- Scoperta: L'effetto di rima si manifesta solo quando i soggetti prestano attenzione consapevolmente alla rima
- Corrisponde alla distorsione fonetica del 9.3% vs 7.3% di questo studio
Deese (1962), De Deyne & Storms (2008):
- Ricerca l'influenza della categoria grammaticale sull'associazione verbale
- Fornisce la base teorica per la distorsione semantica di questo studio
Steyvers & Tenenbaum (2005):
- Analizza la sparsità delle reti di associazione verbale (ogni parola si connette solo allo 0.44% delle altre parole)
- Le reti lessicali mostrano proprietà di piccolo mondo e distribuzione secondo la legge di potenza
- Supporta l'ipotesi di questo studio sulla distorsione semantica
Bertsimas & Paskov (2024):
- Utilizza la programmazione dinamica per trovare la soluzione esatta ottimale
- Parola di inizio migliore: "SALET"
- Numero minimo medio di congetture: 3.421
Cross (2022) - Doddle:
- Euristica minimax di profondità 1: media 3.482 congetture
- Euristica dell'entropia: media 3.432 congetture
- Metodo di benchmark adottato da questo studio
Underwood et al. (1994):
- Ricerca la capacità di recupero lessicale degli esperti di cruciverba
- Scoperta: Gli esperti sono più forti nel recupero di parole, manipolazione di morfemi
- Indica che il recupero lessicale e la consapevolezza fonetica sono cruciali per compiti di generazione verbale vincolata
- Fornisce evidenza per meccanismi simili in Wordle
Matusevych & Stevenson (2018):
- Ricerca l'associazione verbale umana basata su proprietà lessicali
- Questo studio estende il lavoro al contesto dei giochi
Luo et al. (2025):
- Predice le risposte di intrattenimento nel gioco Wordle
- Utilizza caratteristiche simili, ma si concentra sull'emozione piuttosto che sulla distorsione cognitiva
Distinzioni dal lavoro correlato:
- Validità Ecologica: Dati di gioco reali vs. compiti di laboratorio
- Multidimensionalità: Considera simultaneamente tre dimensioni: semantica, ortografia, fonologia
- Dipendenza dal Contesto: Rivela come il grado di vincolo modula la distorsione
- Metodo Computazionale: Utilizza tecniche di NLP per quantificare le distorsioni cognitive
- Esistenza di Distorsioni Sistematiche: Le congetture umane in Wordle si discostano sistematicamente dalla strategia ottimale, manifestandosi in:
- Dimensione Semantica: Tendenza a selezionare parole semanticamente correlate alle congetture precedenti
- Dimensione Ortografica: Tendenza a selezionare parole con distanza di editing minore
- Dimensione Fonetica: Selezione più frequente di parole rimanti (9.3% vs 7.3%)
- Le Distorsioni Non Sono Casuali: Queste distorsioni non sono errori casuali, ma riflettono la regolarità dell'elaborazione cognitiva
- Ruolo Modulante del Vincolo:
- Quando la libertà è alta (ad es., 0g0y5b), le distorsioni sono più evidenti
- Quando il vincolo è alto (ad es., 3g2y0b), gli umani si avvicinano alla strategia ottimale
- Indica che le distorsioni cognitive sono più evidenti nei compiti creativi
- Meccanismi Indipendenti: La correlazione tra distorsione semantica e ortografica è estremamente debole (r=0.06), indicando processi cognitivi indipendenti
- Valore del Paradigma di Ricerca: Wordle fornisce un ambiente di ricerca ideale situato tra l'uso naturale del linguaggio e i compiti sperimentali artificiali
L'articolo discute esplicitamente nella Sezione 8 i seguenti vincoli:
- Bias della Fonte di Dati:
- Dipende da dati volontariamente condivisi su Reddit
- Potenziale effetto di selezione (i giocatori con prestazioni migliori potrebbero essere più propensi a condividere)
- La comunità di Reddit potrebbe non rappresentare la popolazione generale
- Fattori Demografici:
- Mancanza di informazioni su età, background educativo, background linguistico dei giocatori
- Impossibilità di controllare queste variabili confondenti
- Limitazioni Linguistiche:
- Ricerca limitata a Wordle in lingua inglese
- I risultati potrebbero non applicarsi ad altre lingue
- Approssimazione Computazionale:
- Utilizzo di euristica piuttosto che soluzione esatta (sebbene la differenza sia minima)
- Inferenza Causale:
- Studio osservazionale, impossibile stabilire completamente relazioni causali
- Impossibile escludere spiegazioni alternative (ad es., i giocatori potrebbero deliberatamente scegliere parole interessanti)
Sebbene l'articolo non le elenchi esplicitamente, le direzioni di ricerca deducibili sono:
- Ricerca Multilingue: Verificare i risultati in Wordle di altre lingue
- Verifica Sperimentale: Progettare esperimenti controllati che manipolano direttamente gli stimoli di priming
- Differenze Individuali: Ricercare le differenze tra giocatori di diversi livelli di abilità e stili cognitivi
- Dinamica Temporale: Analizzare come le distorsioni evolvono durante il corso del gioco
- Estensione Applicativa: Applicare il metodo ad altri compiti di creazione vincolata
- Integrazione Interdisciplinare: Combina abilmente la teoria della psicologia cognitiva con le tecniche di NLP
- Validità Ecologica Elevata: Utilizza dati di gioco reali piuttosto che compiti di laboratorio
- Misurazione Multidimensionale: Considera simultaneamente tre dimensioni indipendenti: semantica, ortografia, fonologia
- Sensibilità al Contesto: Scopre il ruolo modulante del grado di vincolo, aumentando il potere esplicativo
- Campione Ampio: 83.000 dati forniscono potenza statistica sufficiente
- Rapporto dell'Ampiezza dell'Effetto: Non solo riporta valori p, ma anche Cohen's d
- Analisi Sistematica: Analisi stratificata per stato di gioco (Figure 3, 4)
- Verifica di Indipendenza: Verifica l'indipendenza degli indicatori (r=0.06)
- Nuova Evidenza dell'Effetto Priming: Verifica la teoria classica in uno scenario di gioco naturale
- Vincolo e Creatività: Rivela il fenomeno per cui il vincolo riduce la distorsione cognitiva
- Meccanismi Indipendenti: Dimostra che la distorsione semantica e ortografica operano indipendentemente
- Struttura chiara, logica coerente dal background ai metodi ai risultati
- Visualizzazione efficace (i confronti nella Figura 1 sono intuitivi)
- Sistema di simboli chiaro (cg, cy, cb)
- Studio osservazionale impossibile stabilire relazioni causali
- Impossibile escludere spiegazioni alternative:
- I giocatori potrebbero deliberatamente scegliere parole interessanti/rimanti per aumentare il divertimento del gioco
- La disponibilità lessicale (alcune parole sono più facili da pensare) potrebbe confondere l'effetto priming
- Gli utenti di Reddit potrebbero essere più giovani e più esperti di tecnologia
- La condivisione volontaria potrebbe escludere selettivamente i giochi falliti
- La mancanza di informazioni demografiche impedisce di valutare la generalizzabilità
- Non approfondisce il perché il vincolo riduce la distorsione
- È dovuto a un cambiamento nell'allocazione delle risorse cognitive?
- O è il risultato naturale della riduzione dello spazio lessicale disponibile?
- Non discute le differenze individuali (tutti i giocatori sono trattati come un gruppo omogeneo)
- Non riporta come sono stati gestiti i dati mancanti o i valori anomali
- Non specifica come sono stati affrontati i problemi di confronti multipli (sono stati condotti molti test di ipotesi)
- I parametri specifici del modello GloVe (dimensione, corpus di addestramento) non sono specificati
- Confronta solo due congetture consecutive, non considera l'influenza della storia più lunga
- Non controlla l'effetto della parola iniziale (parole iniziali diverse potrebbero provocare distorsioni diverse)
- Non analizza la difficoltà del gioco (alcune parole target potrebbero essere intrinsecamente più difficili)
- Con campioni grandi, quasi qualsiasi differenza diventa significativa (p<0.001)
- L'ampiezza dell'effetto è più importante, ma alcune ampiezze sono piccole (ad es., -0.0854)
- Non è stata eseguita la correzione per confronti multipli (Bonferroni o FDR)
- Scienze Cognitive: Fornisce nuova evidenza ecologica per l'effetto priming
- Linguistica Computazionale: Dimostra l'applicazione delle tecniche di NLP nella ricerca cognitiva
- Ricerca sui Giochi: Inaugura il paradigma dei giochi come laboratorio cognitivo
- Fornisce un processo di analisi riproducibile
- Lo strumento open-source (Doddle) facilita la ricerca successiva
- I dati sono pubblicamente disponibili (dati di Reddit)
- Progettazione di Giochi: Comprendere il comportamento dei giocatori può ottimizzare la difficoltà del gioco
- Applicazioni Educative: Wordle può essere utilizzato per l'insegnamento del vocabolario; comprendere le distorsioni cognitive aiuta a progettare interventi
- Assistenza AI: Può sviluppare sistemi di suggerimento intelligenti che considerano le distorsioni umane
- Il bias dei dati potrebbe limitare la generalizzabilità
- L'inferenza causale debole riduce il valore applicativo
- È necessaria la ricerca sperimentale per verificare i meccanismi causali
- Analizzare altri giochi di parole (come Spelling Bee, Scrabble)
- Ricercare le distorsioni cognitive nei compiti di creazione verbale vincolata
- Progettare AI di gioco che considerano le distorsioni umane
- Tecnologia Educativa: Progettazione di software per l'apprendimento del vocabolario
- Interazione Uomo-Macchina: Comprendere il comportamento degli utenti in scenari di input limitato
- Valutazione Cognitiva: Wordle come strumento di test della funzione cognitiva
- Scrittura creativa completamente libera (troppo poco vincolo)
- Lingue non inglesi (richiede nuova verifica)
- Compiti non lessicali (come giochi numerici)
Alta:
- I dati sono pubblicamente disponibili (Reddit)
- Utilizza strumenti open-source (Doddle)
- La metodologia è chiaramente descritta
- I metodi statistici sono standard
Ostacoli Potenziali:
- La versione del modello GloVe non è chiaramente specificata
- I dettagli della pulizia dei dati sono insufficienti
- Requisiti di risorse computazionali (83.000 dati)
- Bertsimas & Paskov (2024): Soluzione ottimale di Wordle mediante programmazione dinamica
- Schacter & Buckner (1998): Fondamenti neuroscientifico dell'effetto priming
- Nelson et al. (1987): Influenza della rima sull'associazione verbale e memoria
- Steyvers & Tenenbaum (2005): Struttura su larga scala delle reti semantiche
- Pennington et al. (2014): Metodo di embedding di parole GloVe
- Underwood et al. (1994): Recupero lessicale degli esperti di cruciverba
- Levelt (1989): Modello di estrazione lessicale nella produzione del linguaggio
Questo è un articolo di ricerca eccellente con forte innovazione metodologica, rigore empirico e significato interdisciplinare. Il suo valore fondamentale risiede in:
- Inaugurazione Innovativa di Wordle come "quasi-laboratorio naturale" per la ricerca cognitiva
- Quantificazione Sistematica delle distorsioni cognitive su tre dimensioni
- Scoperta del modello importante del ruolo modulante del grado di vincolo sulla distorsione
Le principali insufficienze risiedono nelle limitazioni dell'inferenza causale e nei problemi di rappresentatività dei dati, ma questi sono vincoli intrinseci della ricerca osservazionale e non compromettono il valore dello studio come ricerca esplorativa.
L'articolo fornisce una base solida per la ricerca successiva, in particolare nel gioco cognitivo e nella ricerca NLP ecologica, con valore esemplare.
Pubblico di Lettura Consigliato: Ricercatori e studenti nei campi della scienza cognitiva, linguistica computazionale, ricerca sui giochi e interazione uomo-macchina.