2025-11-24T22:34:17.172236

Exploring Compositional Generalization (in COGS/ReCOGS_pos) by Transformers using Restricted Access Sequence Processing (RASP)

Bruns

Humans understand new combinations of words encountered if they are combinations of words recognized from different contexts, an ability called Compositional Generalization. The COGS benchmark (Kim and Linzen, 2020) arXiv:2010.05465 reports 0% accuracy for Transformer models on some structural generalizations. We use (Weiss et al., 2021) arXiv:2106.06981's Restricted Access Sequence Processing (RASP), a Transformer-equivalent programming language, to demonstrate that a Transformer Encoder-Decoder can perform COGS and the semantically equivalent ReCOGS_pos (Wu et al., 2024) arXiv:2303.13716 systematically and compositionally: Our RASP models attain near perfect scores on structural generalization splits on COGS (exact match) and ReCOGS_pos (semantic exact match). Our RASP models show the (Re)COGS tasks do not require a hierarchical or tree-structured solution (contrary to (Kim and Linzen, 2020) arXiv:2010.05465, (Yao and Koller, 2022) arXiv:2210.13050, (Murty et al., 2022) arXiv:2211.01288, (Liu et al., 2021) arXiv:2107.06516): we use word-level tokens with an "embedding" layer that tags with possible part of speech, applying just once per encoder pass 19 attention-head compatible flat pattern-matching rules (easily identified with specific training examples), shown using grammar coverage (Zeller et al., 2023) to cover the non-recursive aspects of the input grammar, plus masking out prepositional phrases ("pp noun") and/or sentential complements (cp) when recognizing grammar patterns and extracting nouns related to the main verb in the sentence, and output the next logical form (LF) token (repeating until the LF is complete). The models do not apply recursive, tree-structured rules like "np_det pp np -> np_pp -> np", but score near perfect semantic and string exact match on both COGS and ReCOGS pp recursion, cp recursion using the decoder loop.

academic

Esplorare la Generalizzazione Composizionale (in COGS/ReCOGS_pos) mediante Transformer utilizzando l'Elaborazione di Sequenze con Accesso Limitato (RASP)

Informazioni Fondamentali

ID Articolo: 2504.15349
Titolo: Exploring Compositional Generalization (in COGS/ReCOGS_pos) by Transformers using Restricted Access Sequence Processing (RASP)
Autore: William Bruns
Classificazione: cs.CL (Linguistica Computazionale)
Data di Pubblicazione: 14 ottobre 2025 (arXiv v3)
Link Articolo: https://arxiv.org/abs/2504.15349v3

Riassunto

Gli esseri umani sono in grado di comprendere nuove combinazioni di vocaboli identificati in contesti diversi, una capacità denominata generalizzazione composizionale (Compositional Generalization). Il benchmark COGS riporta che i modelli Transformer raggiungono un'accuratezza dello 0% in alcune generalizzazioni strutturali. Questo articolo utilizza il linguaggio RASP (Restricted Access Sequence Processing) per dimostrare che un encoder-decoder Transformer può eseguire sistematicamente e composizionalmente i compiti COGS e semanticamente equivalenti ReCOGS_pos: il modello RASP raggiunge punteggi quasi perfetti sulla divisione di generalizzazione strutturale. La ricerca dimostra che i compiti (Re)COGS non richiedono soluzioni gerarchiche o strutturate ad albero, bensì utilizzano 19 regole di pattern matching piatte compatibili con teste di attenzione, identificando modelli grammaticali attraverso il mascheramento di sintagmi preposizionali e proposizioni subordinate.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il problema centrale affrontato da questa ricerca è la limitazione della capacità dei modelli Transformer nei compiti di generalizzazione composizionale, in particolare la scarsa performance nel benchmark COGS (Compositional Generalization Challenge based on Semantic Interpretation).

Importanza

Significato Teorico: La generalizzazione composizionale è una capacità fondamentale della comprensione linguistica umana; comprendere come le reti neurali implementano questa capacità è cruciale per far progredire la comprensione del linguaggio nell'IA
Significato Pratico: L'accuratezza quasi dello 0% dei modelli Transformer attuali nei compiti di generalizzazione strutturale indica limitazioni fondamentali che richiedono soluzioni

Limitazioni dei Metodi Esistenti

Limitazioni delle Reti Superficiali: L'Encoder-Decoder a 2 strati utilizzato da Kim e Linzen (2020) mostra prestazioni estremamente scarse nella generalizzazione strutturale
Ipotesi Gerarchica Errata: La ricerca esistente presuppone che siano necessarie strutture ad albero o rappresentazioni gerarchiche per risolvere i compiti COGS
Inefficacia della Profondità: Petty et al. (2024) scoprono che anche aumentando fino a 32 strati, il Transformer non mostra miglioramenti nella generalizzazione strutturale COGS

Motivazione della Ricerca

L'autore è stato ispirato da Zhou et al. (2023) che utilizzano RASP per analizzare la capacità di generalizzazione dei Transformer, tentando di dimostrare attraverso una prova costruttiva che i Transformer possono teoricamente risolvere i compiti COGS e analizzare le ragioni del fallimento dei modelli esistenti.

Contributi Principali

Prova Costruttiva: Utilizzo del linguaggio RASP per dimostrare che un Encoder-Decoder Transformer può teoricamente risolvere sistematicamente i compiti COGS e ReCOGS_pos
Soluzione Piatta: Proposta di una soluzione non gerarchica basata su 19 regole di pattern matching piatte, senza necessità di regole ricorsive strutturate ad albero
Analisi degli Errori: Previsione e verifica dei modelli di errore specifici del Transformer di base attraverso la teoria degli "errori di attrazione" (attraction errors)
Breakthrough Prestazionale: Il modello RASP raggiunge il 99,89% di corrispondenza esatta di stringhe su COGS e il 99,63% di corrispondenza semantica esatta su ReCOGS_pos
Nuova Divisione di Generalizzazione: Scoperta e verifica di una nuova divisione di generalizzazione difficile "v_dat_p2_pp_moved_to_recipient"

Spiegazione Dettagliata del Metodo

Definizione del Compito

I compiti COGS/ReCOGS richiedono la conversione di frasi con grammatica inglese semplificata in forma logica (LF):

Input: Frase in inglese (ad es. "A scientist lended a cat a donut")
Output: Forma logica (ad es. "scientist(1); cat(4); donut(6); lend(2) AND agent(2,1) AND recipient(2,4) AND theme(2,6)")
Valutazione: Corrispondenza esatta di stringhe (COGS) o corrispondenza semantica esatta (ReCOGS)

Architettura del Modello

Framework di Programmazione RASP

RASP è un linguaggio di programmazione compilabile in pesi Transformer, utilizzato in questo articolo per costruire un modello Encoder-Decoder:

Strato di Embedding: Mappatura di token a livello di parola in etichette di parte del discorso e tipo di verbo
Encoder: Utilizzo di 19 matcher di pattern piatti compatibili con teste di attenzione
Ciclo del Decoder: Generazione autoregressiva di token di forma logica

Progettazione dei Componenti Principali

1. Mappatura di Embedding della Parte del Discorso

Vocabolo → {det: 1, common_noun: 7, proper_noun: 8, v_dat: 18, ...}

2. Matcher di Pattern Piatti 19 modelli che coprono tutte le regole grammaticali non ricorsive, ad esempio:

np v_dat_p2 np np (ad es. "Liam forwarded the girl the donut")
np was v_trans_omissible_pp_p2 by np (voce passiva)

3. Meccanismo di Mascheramento Innovazione chiave: mascheramento dei nomi dei sintagmi preposizionali nell'estrazione delle relazioni nome-verbo:

no_pp_np_mask = 1 - aggregate((pp_one_after_mask and np_prop_diag_mask) or 
                              (pp_two_after_mask and np_det_diag_mask), 1)

Punti di Innovazione Tecnica

1. Soluzione Non Ricorsiva

Contrariamente alle ipotesi tradizionali, il modello non utilizza regole ricorsive come np_det pp np → np_pp → np, bensì:

Identifica i modelli grammaticali principali nell'encoder
Espande le strutture ricorsive nel decoder

2. Evitamento degli Errori di Attrazione

Attraverso il meccanismo di mascheramento si evita che i nomi nei sintagmi preposizionali "attraggano" relazioni grammaticali errate:

Errore: The cake on the plate burned → theme(burn, plate)  # errore di attrazione
Corretto: The cake on the plate burned → theme(burn, cake)   # dopo mascheramento

3. Espansione del Ciclo del Decoder

Le strutture ricorsive vengono elaborate attraverso il ciclo del decoder, supportando annidamenti arbitrari di sintagmi preposizionali e proposizioni subordinate.

Configurazione Sperimentale

Dataset

COGS: 24.155 esempi di addestramento, 3.000 esempi di test, 21.000 esempi di generalizzazione
ReCOGS_pos: Versione di ReCOGS con indici di posizione, semanticamente equivalente ma che consente corrispondenza semantica esatta
Copertura Grammaticale: Utilizzo del metodo di Zeller et al. (2023) per verificare che 19 regole coprano il 100% della grammatica non ricorsiva

Metriche di Valutazione

Corrispondenza Esatta di Stringhe: Stringhe di forma logica completamente identiche
Corrispondenza Semantica Esatta: Forme logiche semanticamente equivalenti ma con indici e ordine potenzialmente diversi
Tasso di Copertura Grammaticale: Proporzione dell'estensione grammaticale supportata dal modello rispetto alla grammatica totale

Metodi di Confronto

Baseline di Wu et al. (2024): Transformer Encoder-Decoder a 2 strati
Varianti di Profondità: Versioni a 3 e 4 strati
Versioni con Aumento dei Dati: Aggiunta di esempi con modifiche di sintagmi preposizionali specifici

Dettagli di Implementazione

Utilizzo dell'interprete RASP ufficiale per la valutazione dei programmi
Mappatura del vocabolario basata su tutto il vocabolario nel set di addestramento COGS
Programmi deterministici utilizzano intervalli di confidenza di Clopper-Pearson

Risultati Sperimentali

Risultati Principali

Prestazioni del Modello RASP

COGS (Corrispondenza Esatta di Stringhe)

Set di test: 99,97% (99,81-99,99%)
obj_pp_to_subj_pp: 100,00% (99,63-100,00%)
pp_recursion: 98,40% (97,41-99,08%)
cp_recursion: 99,90% (99,44-99,997%)
Generalizzazione totale: 99,89% (99,83-99,93%)

ReCOGS_pos (Corrispondenza Semantica Esatta)

Set di test: 100,00% (99,88-100,00%)
obj_pp_to_subj_pp: 92,20% (90,36-93,79%)
pp_recursion: 100,00% (99,63-100,00%)
cp_recursion: 100,00% (99,63-100,00%)
Generalizzazione totale: 99,63% (99,54-99,71%)

Confronto delle Prestazioni del Transformer di Base

Baseline di Wu et al. (2024) (ReCOGS_pos)

pp_recursion: 40,2% ± 9,3%
cp_recursion: 52,4% ± 1,4%
obj_pp_to_subj_pp: 19,7% ± 6,1%

Analisi degli Errori di Attrazione

L'analisi degli errori del Transformer di base verifica le previsioni teoriche:

Il 96,73% degli errori di relazione singola si conforma al modello di errore di attrazione
Il 100% degli errori di sintagmi preposizionali di profondità 2 punta al nome preposizionale più vicino
Conferma l'ipotesi di elaborazione lineare non gerarchica

Verifica della Nuova Divisione di Generalizzazione

Divisione "v_dat_p2_pp_moved_to_recipient":

Prestazioni della baseline: 13% ± 15,6% (paragonabile alle divisioni più difficili)
Supporta l'ipotesi di elaborazione piatta piuttosto che l'ipotesi di struttura ad albero

Inefficacia dell'Aumento della Profondità

L'aumento della profondità del Transformer (3-4 strati) non migliora le prestazioni su obj_pp_to_subj_pp, coerente con i risultati di Petty et al. (2024).

Lavori Correlati

Ricerca sulla Generalizzazione Composizionale

Benchmark COGS: Proposto da Kim e Linzen (2020), riporta accuratezza di generalizzazione strutturale del Transformer prossima allo 0%
Miglioramento ReCOGS: Wu et al. (2024) ottengono accuratezza non nulla ma ancora bassa attraverso corrispondenza semantica esatta
Metodi Gerarchici: Liu et al. (2021), Weißenhorn et al. (2022) ottengono prestazioni elevate utilizzando strutture ad albero esplicite

Applicazioni Correlate a RASP

RASP Originale: Weiss et al. (2021) per analizzare la capacità dell'encoder Transformer
Estensione del Decoder: Zhou et al. (2023) estendono al decoder autoregressivo, analizzando la generalizzazione di lunghezza
Applicazioni Specifiche del Compito: Questo articolo applica RASP per la prima volta a compiti complessi di analisi semantica

Ricerca sugli Errori di Attrazione

Fondamenti Linguistici: Descritti da Jespersen (1954) negli errori di concordanza soggetto-verbo per attrazione
Attrazione nelle Reti Neurali: Osservata da van Schijndel et al. (2019), Goldberg (2019) nei Transformer

Conclusioni e Discussione

Conclusioni Principali

Fattibilità Teorica: I Transformer possono teoricamente risolvere i compiti COGS attraverso pattern matching piatto, senza necessità di rappresentazioni gerarchiche
Meccanismo Chiave: Il mascheramento dei nomi dei sintagmi preposizionali è cruciale per evitare errori di attrazione
Problema di Apprendimento: Il fallimento dei Transformer attuali è un problema di apprendimento piuttosto che una limitazione di capacità
Errori Prevedibili: Gli errori specifici del modello di base possono essere previsti accuratamente basandosi sull'ipotesi di elaborazione piatta

Limitazioni

Costruzione Manuale: Il modello RASP è progettato manualmente, non appreso
Limitazioni Lessicali: Presuppone che la mappatura della parte del discorso e del tipo di verbo sia nota, non affronta la generalizzazione lessicale
Specifico della Lingua: Riguarda solo l'inglese, l'applicabilità ad altre lingue è sconosciuta
Specifico del Compito: Il modello è progettato specificamente per COGS, non è un modello linguistico generico

Direzioni Future

Algoritmi di Apprendimento: Ricerca su come far apprendere ai Transformer regole di mascheramento simili
Obiettivi di Addestramento: Esplorazione di aumento dei dati, apprendimento per curriculum, apprendimento per rinforzo
Miglioramenti Architetturali: Progettazione di migliori bias induttivi per promuovere la generalizzazione composizionale
Estensione Multilingue: Verifica dell'efficacia del metodo in altre lingue

Valutazione Approfondita

Punti di Forza

Contributo Teorico: La prova costruttiva chiarisce i confini teorici della capacità dei Transformer
Innovazione Metodologica: La soluzione piatta proposta sfida l'ipotesi della necessità di rappresentazioni gerarchiche
Rigore Empirico: L'analisi dettagliata degli errori e la verifica delle previsioni rafforzano la credibilità delle conclusioni
Completezza Ingegneristica: Fornisce codice completamente riproducibile e documentazione dettagliata dell'implementazione
Intuizioni Profonde: La teoria degli errori di attrazione fornisce una nuova prospettiva per comprendere i fallimenti dei Transformer

Carenze

Limitazioni Pratiche: Il modello RASP è estremamente lento nell'esecuzione, adatto solo alla ricerca piuttosto che all'applicazione pratica
Mancanza di Apprendimento: Non affronta il problema centrale di come far apprendere automaticamente ai Transformer queste regole
Ambito di Valutazione: Si concentra principalmente sulla generalizzazione strutturale, con attenzione insufficiente alla generalizzazione lessicale
Intensità delle Ipotesi: L'ipotesi che la mappatura della parte del discorso sia nota potrebbe non essere realistica nelle applicazioni pratiche

Impatto

Impatto Teorico: Fornisce un nuovo framework teorico e strumenti di analisi per la ricerca sulla generalizzazione composizionale
Impatto Metodologico: Il metodo di analisi RASP potrebbe essere ampiamente applicato ad altri studi sulla capacità dei Transformer
Guida Pratica: Fornisce direzioni tecniche specifiche per migliorare l'addestramento dei Transformer

Scenari Applicabili

Strumento di Ricerca: Come strumento teorico per analizzare la capacità dei Transformer
Benchmark di Riferimento: Fornisce un'implementazione di riferimento per valutare la capacità di generalizzazione composizionale
Risorsa Didattica: Aiuta a comprendere i meccanismi interni di funzionamento dei Transformer
Ispirazione Algoritmica: Fornisce intuizioni per la progettazione di algoritmi migliori per la generalizzazione composizionale

Bibliografia

Kim, N., & Linzen, T. (2020). COGS: A compositional generalization challenge based on semantic interpretation. EMNLP 2020.
Wu, Z., Manning, C. D., & Potts, C. (2024). ReCOGS: How incidental details of a logical form overshadow an evaluation of semantic interpretation. TACL.
Weiss, G., Goldberg, Y., & Yahav, E. (2021). Thinking like transformers. NeurIPS 2021.
Zhou, H., et al. (2023). What algorithms can transformers learn? A study in length generalization. arXiv preprint.
Zeller, A., et al. (2023). Grammar coverage. In The Fuzzing Book.

Questo articolo, attraverso un'analisi teorica rigorosa e una verifica empirica, fornisce intuizioni importanti per comprendere la capacità e i limiti dei Transformer nei compiti di generalizzazione composizionale. Sebbene presenti alcune limitazioni pratiche, i suoi contributi teorici e le innovazioni metodologiche hanno un valore significativo per far progredire la ricerca correlata.