2025-11-24T22:34:17.172236

Exploring Compositional Generalization (in COGS/ReCOGS_pos) by Transformers using Restricted Access Sequence Processing (RASP)

Bruns
Humans understand new combinations of words encountered if they are combinations of words recognized from different contexts, an ability called Compositional Generalization. The COGS benchmark (Kim and Linzen, 2020) arXiv:2010.05465 reports 0% accuracy for Transformer models on some structural generalizations. We use (Weiss et al., 2021) arXiv:2106.06981's Restricted Access Sequence Processing (RASP), a Transformer-equivalent programming language, to demonstrate that a Transformer Encoder-Decoder can perform COGS and the semantically equivalent ReCOGS_pos (Wu et al., 2024) arXiv:2303.13716 systematically and compositionally: Our RASP models attain near perfect scores on structural generalization splits on COGS (exact match) and ReCOGS_pos (semantic exact match). Our RASP models show the (Re)COGS tasks do not require a hierarchical or tree-structured solution (contrary to (Kim and Linzen, 2020) arXiv:2010.05465, (Yao and Koller, 2022) arXiv:2210.13050, (Murty et al., 2022) arXiv:2211.01288, (Liu et al., 2021) arXiv:2107.06516): we use word-level tokens with an "embedding" layer that tags with possible part of speech, applying just once per encoder pass 19 attention-head compatible flat pattern-matching rules (easily identified with specific training examples), shown using grammar coverage (Zeller et al., 2023) to cover the non-recursive aspects of the input grammar, plus masking out prepositional phrases ("pp noun") and/or sentential complements (cp) when recognizing grammar patterns and extracting nouns related to the main verb in the sentence, and output the next logical form (LF) token (repeating until the LF is complete). The models do not apply recursive, tree-structured rules like "np_det pp np -> np_pp -> np", but score near perfect semantic and string exact match on both COGS and ReCOGS pp recursion, cp recursion using the decoder loop.
academic

Esplorare la Generalizzazione Composizionale (in COGS/ReCOGS_pos) mediante Transformer utilizzando l'Elaborazione di Sequenze con Accesso Limitato (RASP)

Informazioni Fondamentali

  • ID Articolo: 2504.15349
  • Titolo: Exploring Compositional Generalization (in COGS/ReCOGS_pos) by Transformers using Restricted Access Sequence Processing (RASP)
  • Autore: William Bruns
  • Classificazione: cs.CL (Linguistica Computazionale)
  • Data di Pubblicazione: 14 ottobre 2025 (arXiv v3)
  • Link Articolo: https://arxiv.org/abs/2504.15349v3

Riassunto

Gli esseri umani sono in grado di comprendere nuove combinazioni di vocaboli identificati in contesti diversi, una capacità denominata generalizzazione composizionale (Compositional Generalization). Il benchmark COGS riporta che i modelli Transformer raggiungono un'accuratezza dello 0% in alcune generalizzazioni strutturali. Questo articolo utilizza il linguaggio RASP (Restricted Access Sequence Processing) per dimostrare che un encoder-decoder Transformer può eseguire sistematicamente e composizionalmente i compiti COGS e semanticamente equivalenti ReCOGS_pos: il modello RASP raggiunge punteggi quasi perfetti sulla divisione di generalizzazione strutturale. La ricerca dimostra che i compiti (Re)COGS non richiedono soluzioni gerarchiche o strutturate ad albero, bensì utilizzano 19 regole di pattern matching piatte compatibili con teste di attenzione, identificando modelli grammaticali attraverso il mascheramento di sintagmi preposizionali e proposizioni subordinate.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il problema centrale affrontato da questa ricerca è la limitazione della capacità dei modelli Transformer nei compiti di generalizzazione composizionale, in particolare la scarsa performance nel benchmark COGS (Compositional Generalization Challenge based on Semantic Interpretation).

Importanza

  1. Significato Teorico: La generalizzazione composizionale è una capacità fondamentale della comprensione linguistica umana; comprendere come le reti neurali implementano questa capacità è cruciale per far progredire la comprensione del linguaggio nell'IA
  2. Significato Pratico: L'accuratezza quasi dello 0% dei modelli Transformer attuali nei compiti di generalizzazione strutturale indica limitazioni fondamentali che richiedono soluzioni

Limitazioni dei Metodi Esistenti

  1. Limitazioni delle Reti Superficiali: L'Encoder-Decoder a 2 strati utilizzato da Kim e Linzen (2020) mostra prestazioni estremamente scarse nella generalizzazione strutturale
  2. Ipotesi Gerarchica Errata: La ricerca esistente presuppone che siano necessarie strutture ad albero o rappresentazioni gerarchiche per risolvere i compiti COGS
  3. Inefficacia della Profondità: Petty et al. (2024) scoprono che anche aumentando fino a 32 strati, il Transformer non mostra miglioramenti nella generalizzazione strutturale COGS

Motivazione della Ricerca

L'autore è stato ispirato da Zhou et al. (2023) che utilizzano RASP per analizzare la capacità di generalizzazione dei Transformer, tentando di dimostrare attraverso una prova costruttiva che i Transformer possono teoricamente risolvere i compiti COGS e analizzare le ragioni del fallimento dei modelli esistenti.

Contributi Principali

  1. Prova Costruttiva: Utilizzo del linguaggio RASP per dimostrare che un Encoder-Decoder Transformer può teoricamente risolvere sistematicamente i compiti COGS e ReCOGS_pos
  2. Soluzione Piatta: Proposta di una soluzione non gerarchica basata su 19 regole di pattern matching piatte, senza necessità di regole ricorsive strutturate ad albero
  3. Analisi degli Errori: Previsione e verifica dei modelli di errore specifici del Transformer di base attraverso la teoria degli "errori di attrazione" (attraction errors)
  4. Breakthrough Prestazionale: Il modello RASP raggiunge il 99,89% di corrispondenza esatta di stringhe su COGS e il 99,63% di corrispondenza semantica esatta su ReCOGS_pos
  5. Nuova Divisione di Generalizzazione: Scoperta e verifica di una nuova divisione di generalizzazione difficile "v_dat_p2_pp_moved_to_recipient"

Spiegazione Dettagliata del Metodo

Definizione del Compito

I compiti COGS/ReCOGS richiedono la conversione di frasi con grammatica inglese semplificata in forma logica (LF):

  • Input: Frase in inglese (ad es. "A scientist lended a cat a donut")
  • Output: Forma logica (ad es. "scientist(1); cat(4); donut(6); lend(2) AND agent(2,1) AND recipient(2,4) AND theme(2,6)")
  • Valutazione: Corrispondenza esatta di stringhe (COGS) o corrispondenza semantica esatta (ReCOGS)

Architettura del Modello

Framework di Programmazione RASP

RASP è un linguaggio di programmazione compilabile in pesi Transformer, utilizzato in questo articolo per costruire un modello Encoder-Decoder:

  1. Strato di Embedding: Mappatura di token a livello di parola in etichette di parte del discorso e tipo di verbo
  2. Encoder: Utilizzo di 19 matcher di pattern piatti compatibili con teste di attenzione
  3. Ciclo del Decoder: Generazione autoregressiva di token di forma logica

Progettazione dei Componenti Principali

1. Mappatura di Embedding della Parte del Discorso

Vocabolo → {det: 1, common_noun: 7, proper_noun: 8, v_dat: 18, ...}

2. Matcher di Pattern Piatti 19 modelli che coprono tutte le regole grammaticali non ricorsive, ad esempio:

  • np v_dat_p2 np np (ad es. "Liam forwarded the girl the donut")
  • np was v_trans_omissible_pp_p2 by np (voce passiva)

3. Meccanismo di Mascheramento Innovazione chiave: mascheramento dei nomi dei sintagmi preposizionali nell'estrazione delle relazioni nome-verbo:

no_pp_np_mask = 1 - aggregate((pp_one_after_mask and np_prop_diag_mask) or 
                              (pp_two_after_mask and np_det_diag_mask), 1)

Punti di Innovazione Tecnica

1. Soluzione Non Ricorsiva

Contrariamente alle ipotesi tradizionali, il modello non utilizza regole ricorsive come np_det pp np → np_pp → np, bensì:

  • Identifica i modelli grammaticali principali nell'encoder
  • Espande le strutture ricorsive nel decoder

2. Evitamento degli Errori di Attrazione

Attraverso il meccanismo di mascheramento si evita che i nomi nei sintagmi preposizionali "attraggano" relazioni grammaticali errate:

Errore: The cake on the plate burned → theme(burn, plate)  # errore di attrazione
Corretto: The cake on the plate burned → theme(burn, cake)   # dopo mascheramento

3. Espansione del Ciclo del Decoder

Le strutture ricorsive vengono elaborate attraverso il ciclo del decoder, supportando annidamenti arbitrari di sintagmi preposizionali e proposizioni subordinate.

Configurazione Sperimentale

Dataset

  • COGS: 24.155 esempi di addestramento, 3.000 esempi di test, 21.000 esempi di generalizzazione
  • ReCOGS_pos: Versione di ReCOGS con indici di posizione, semanticamente equivalente ma che consente corrispondenza semantica esatta
  • Copertura Grammaticale: Utilizzo del metodo di Zeller et al. (2023) per verificare che 19 regole coprano il 100% della grammatica non ricorsiva

Metriche di Valutazione

  • Corrispondenza Esatta di Stringhe: Stringhe di forma logica completamente identiche
  • Corrispondenza Semantica Esatta: Forme logiche semanticamente equivalenti ma con indici e ordine potenzialmente diversi
  • Tasso di Copertura Grammaticale: Proporzione dell'estensione grammaticale supportata dal modello rispetto alla grammatica totale

Metodi di Confronto

  • Baseline di Wu et al. (2024): Transformer Encoder-Decoder a 2 strati
  • Varianti di Profondità: Versioni a 3 e 4 strati
  • Versioni con Aumento dei Dati: Aggiunta di esempi con modifiche di sintagmi preposizionali specifici

Dettagli di Implementazione

  • Utilizzo dell'interprete RASP ufficiale per la valutazione dei programmi
  • Mappatura del vocabolario basata su tutto il vocabolario nel set di addestramento COGS
  • Programmi deterministici utilizzano intervalli di confidenza di Clopper-Pearson

Risultati Sperimentali

Risultati Principali

Prestazioni del Modello RASP

COGS (Corrispondenza Esatta di Stringhe)

  • Set di test: 99,97% (99,81-99,99%)
  • obj_pp_to_subj_pp: 100,00% (99,63-100,00%)
  • pp_recursion: 98,40% (97,41-99,08%)
  • cp_recursion: 99,90% (99,44-99,997%)
  • Generalizzazione totale: 99,89% (99,83-99,93%)

ReCOGS_pos (Corrispondenza Semantica Esatta)

  • Set di test: 100,00% (99,88-100,00%)
  • obj_pp_to_subj_pp: 92,20% (90,36-93,79%)
  • pp_recursion: 100,00% (99,63-100,00%)
  • cp_recursion: 100,00% (99,63-100,00%)
  • Generalizzazione totale: 99,63% (99,54-99,71%)

Confronto delle Prestazioni del Transformer di Base

Baseline di Wu et al. (2024) (ReCOGS_pos)

  • pp_recursion: 40,2% ± 9,3%
  • cp_recursion: 52,4% ± 1,4%
  • obj_pp_to_subj_pp: 19,7% ± 6,1%

Analisi degli Errori di Attrazione

L'analisi degli errori del Transformer di base verifica le previsioni teoriche:

  • Il 96,73% degli errori di relazione singola si conforma al modello di errore di attrazione
  • Il 100% degli errori di sintagmi preposizionali di profondità 2 punta al nome preposizionale più vicino
  • Conferma l'ipotesi di elaborazione lineare non gerarchica

Verifica della Nuova Divisione di Generalizzazione

Divisione "v_dat_p2_pp_moved_to_recipient":

  • Prestazioni della baseline: 13% ± 15,6% (paragonabile alle divisioni più difficili)
  • Supporta l'ipotesi di elaborazione piatta piuttosto che l'ipotesi di struttura ad albero

Inefficacia dell'Aumento della Profondità

L'aumento della profondità del Transformer (3-4 strati) non migliora le prestazioni su obj_pp_to_subj_pp, coerente con i risultati di Petty et al. (2024).

Lavori Correlati

Ricerca sulla Generalizzazione Composizionale

  • Benchmark COGS: Proposto da Kim e Linzen (2020), riporta accuratezza di generalizzazione strutturale del Transformer prossima allo 0%
  • Miglioramento ReCOGS: Wu et al. (2024) ottengono accuratezza non nulla ma ancora bassa attraverso corrispondenza semantica esatta
  • Metodi Gerarchici: Liu et al. (2021), Weißenhorn et al. (2022) ottengono prestazioni elevate utilizzando strutture ad albero esplicite

Applicazioni Correlate a RASP

  • RASP Originale: Weiss et al. (2021) per analizzare la capacità dell'encoder Transformer
  • Estensione del Decoder: Zhou et al. (2023) estendono al decoder autoregressivo, analizzando la generalizzazione di lunghezza
  • Applicazioni Specifiche del Compito: Questo articolo applica RASP per la prima volta a compiti complessi di analisi semantica

Ricerca sugli Errori di Attrazione

  • Fondamenti Linguistici: Descritti da Jespersen (1954) negli errori di concordanza soggetto-verbo per attrazione
  • Attrazione nelle Reti Neurali: Osservata da van Schijndel et al. (2019), Goldberg (2019) nei Transformer

Conclusioni e Discussione

Conclusioni Principali

  1. Fattibilità Teorica: I Transformer possono teoricamente risolvere i compiti COGS attraverso pattern matching piatto, senza necessità di rappresentazioni gerarchiche
  2. Meccanismo Chiave: Il mascheramento dei nomi dei sintagmi preposizionali è cruciale per evitare errori di attrazione
  3. Problema di Apprendimento: Il fallimento dei Transformer attuali è un problema di apprendimento piuttosto che una limitazione di capacità
  4. Errori Prevedibili: Gli errori specifici del modello di base possono essere previsti accuratamente basandosi sull'ipotesi di elaborazione piatta

Limitazioni

  1. Costruzione Manuale: Il modello RASP è progettato manualmente, non appreso
  2. Limitazioni Lessicali: Presuppone che la mappatura della parte del discorso e del tipo di verbo sia nota, non affronta la generalizzazione lessicale
  3. Specifico della Lingua: Riguarda solo l'inglese, l'applicabilità ad altre lingue è sconosciuta
  4. Specifico del Compito: Il modello è progettato specificamente per COGS, non è un modello linguistico generico

Direzioni Future

  1. Algoritmi di Apprendimento: Ricerca su come far apprendere ai Transformer regole di mascheramento simili
  2. Obiettivi di Addestramento: Esplorazione di aumento dei dati, apprendimento per curriculum, apprendimento per rinforzo
  3. Miglioramenti Architetturali: Progettazione di migliori bias induttivi per promuovere la generalizzazione composizionale
  4. Estensione Multilingue: Verifica dell'efficacia del metodo in altre lingue

Valutazione Approfondita

Punti di Forza

  1. Contributo Teorico: La prova costruttiva chiarisce i confini teorici della capacità dei Transformer
  2. Innovazione Metodologica: La soluzione piatta proposta sfida l'ipotesi della necessità di rappresentazioni gerarchiche
  3. Rigore Empirico: L'analisi dettagliata degli errori e la verifica delle previsioni rafforzano la credibilità delle conclusioni
  4. Completezza Ingegneristica: Fornisce codice completamente riproducibile e documentazione dettagliata dell'implementazione
  5. Intuizioni Profonde: La teoria degli errori di attrazione fornisce una nuova prospettiva per comprendere i fallimenti dei Transformer

Carenze

  1. Limitazioni Pratiche: Il modello RASP è estremamente lento nell'esecuzione, adatto solo alla ricerca piuttosto che all'applicazione pratica
  2. Mancanza di Apprendimento: Non affronta il problema centrale di come far apprendere automaticamente ai Transformer queste regole
  3. Ambito di Valutazione: Si concentra principalmente sulla generalizzazione strutturale, con attenzione insufficiente alla generalizzazione lessicale
  4. Intensità delle Ipotesi: L'ipotesi che la mappatura della parte del discorso sia nota potrebbe non essere realistica nelle applicazioni pratiche

Impatto

  1. Impatto Teorico: Fornisce un nuovo framework teorico e strumenti di analisi per la ricerca sulla generalizzazione composizionale
  2. Impatto Metodologico: Il metodo di analisi RASP potrebbe essere ampiamente applicato ad altri studi sulla capacità dei Transformer
  3. Guida Pratica: Fornisce direzioni tecniche specifiche per migliorare l'addestramento dei Transformer

Scenari Applicabili

  1. Strumento di Ricerca: Come strumento teorico per analizzare la capacità dei Transformer
  2. Benchmark di Riferimento: Fornisce un'implementazione di riferimento per valutare la capacità di generalizzazione composizionale
  3. Risorsa Didattica: Aiuta a comprendere i meccanismi interni di funzionamento dei Transformer
  4. Ispirazione Algoritmica: Fornisce intuizioni per la progettazione di algoritmi migliori per la generalizzazione composizionale

Bibliografia

  1. Kim, N., & Linzen, T. (2020). COGS: A compositional generalization challenge based on semantic interpretation. EMNLP 2020.
  2. Wu, Z., Manning, C. D., & Potts, C. (2024). ReCOGS: How incidental details of a logical form overshadow an evaluation of semantic interpretation. TACL.
  3. Weiss, G., Goldberg, Y., & Yahav, E. (2021). Thinking like transformers. NeurIPS 2021.
  4. Zhou, H., et al. (2023). What algorithms can transformers learn? A study in length generalization. arXiv preprint.
  5. Zeller, A., et al. (2023). Grammar coverage. In The Fuzzing Book.

Questo articolo, attraverso un'analisi teorica rigorosa e una verifica empirica, fornisce intuizioni importanti per comprendere la capacità e i limiti dei Transformer nei compiti di generalizzazione composizionale. Sebbene presenti alcune limitazioni pratiche, i suoi contributi teorici e le innovazioni metodologiche hanno un valore significativo per far progredire la ricerca correlata.