Exploring Compositional Generalization (in COGS/ReCOGS_pos) by Transformers using Restricted Access Sequence Processing (RASP)
Bruns
Humans understand new combinations of words encountered if they are combinations of words recognized from different contexts, an ability called Compositional Generalization. The COGS benchmark (Kim and Linzen, 2020) arXiv:2010.05465 reports 0% accuracy for Transformer models on some structural generalizations. We use (Weiss et al., 2021) arXiv:2106.06981's Restricted Access Sequence Processing (RASP), a Transformer-equivalent programming language, to demonstrate that a Transformer Encoder-Decoder can perform COGS and the semantically equivalent ReCOGS_pos (Wu et al., 2024) arXiv:2303.13716 systematically and compositionally: Our RASP models attain near perfect scores on structural generalization splits on COGS (exact match) and ReCOGS_pos (semantic exact match). Our RASP models show the (Re)COGS tasks do not require a hierarchical or tree-structured solution (contrary to (Kim and Linzen, 2020) arXiv:2010.05465, (Yao and Koller, 2022) arXiv:2210.13050, (Murty et al., 2022) arXiv:2211.01288, (Liu et al., 2021) arXiv:2107.06516): we use word-level tokens with an "embedding" layer that tags with possible part of speech, applying just once per encoder pass 19 attention-head compatible flat pattern-matching rules (easily identified with specific training examples), shown using grammar coverage (Zeller et al., 2023) to cover the non-recursive aspects of the input grammar, plus masking out prepositional phrases ("pp noun") and/or sentential complements (cp) when recognizing grammar patterns and extracting nouns related to the main verb in the sentence, and output the next logical form (LF) token (repeating until the LF is complete). The models do not apply recursive, tree-structured rules like "np_det pp np -> np_pp -> np", but score near perfect semantic and string exact match on both COGS and ReCOGS pp recursion, cp recursion using the decoder loop.
academic
Esplorare la Generalizzazione Composizionale (in COGS/ReCOGS_pos) mediante Transformer utilizzando l'Elaborazione di Sequenze con Accesso Limitato (RASP)
Gli esseri umani sono in grado di comprendere nuove combinazioni di vocaboli identificati in contesti diversi, una capacità denominata generalizzazione composizionale (Compositional Generalization). Il benchmark COGS riporta che i modelli Transformer raggiungono un'accuratezza dello 0% in alcune generalizzazioni strutturali. Questo articolo utilizza il linguaggio RASP (Restricted Access Sequence Processing) per dimostrare che un encoder-decoder Transformer può eseguire sistematicamente e composizionalmente i compiti COGS e semanticamente equivalenti ReCOGS_pos: il modello RASP raggiunge punteggi quasi perfetti sulla divisione di generalizzazione strutturale. La ricerca dimostra che i compiti (Re)COGS non richiedono soluzioni gerarchiche o strutturate ad albero, bensì utilizzano 19 regole di pattern matching piatte compatibili con teste di attenzione, identificando modelli grammaticali attraverso il mascheramento di sintagmi preposizionali e proposizioni subordinate.
Il problema centrale affrontato da questa ricerca è la limitazione della capacità dei modelli Transformer nei compiti di generalizzazione composizionale, in particolare la scarsa performance nel benchmark COGS (Compositional Generalization Challenge based on Semantic Interpretation).
Significato Teorico: La generalizzazione composizionale è una capacità fondamentale della comprensione linguistica umana; comprendere come le reti neurali implementano questa capacità è cruciale per far progredire la comprensione del linguaggio nell'IA
Significato Pratico: L'accuratezza quasi dello 0% dei modelli Transformer attuali nei compiti di generalizzazione strutturale indica limitazioni fondamentali che richiedono soluzioni
Limitazioni delle Reti Superficiali: L'Encoder-Decoder a 2 strati utilizzato da Kim e Linzen (2020) mostra prestazioni estremamente scarse nella generalizzazione strutturale
Ipotesi Gerarchica Errata: La ricerca esistente presuppone che siano necessarie strutture ad albero o rappresentazioni gerarchiche per risolvere i compiti COGS
Inefficacia della Profondità: Petty et al. (2024) scoprono che anche aumentando fino a 32 strati, il Transformer non mostra miglioramenti nella generalizzazione strutturale COGS
L'autore è stato ispirato da Zhou et al. (2023) che utilizzano RASP per analizzare la capacità di generalizzazione dei Transformer, tentando di dimostrare attraverso una prova costruttiva che i Transformer possono teoricamente risolvere i compiti COGS e analizzare le ragioni del fallimento dei modelli esistenti.
Prova Costruttiva: Utilizzo del linguaggio RASP per dimostrare che un Encoder-Decoder Transformer può teoricamente risolvere sistematicamente i compiti COGS e ReCOGS_pos
Soluzione Piatta: Proposta di una soluzione non gerarchica basata su 19 regole di pattern matching piatte, senza necessità di regole ricorsive strutturate ad albero
Analisi degli Errori: Previsione e verifica dei modelli di errore specifici del Transformer di base attraverso la teoria degli "errori di attrazione" (attraction errors)
Breakthrough Prestazionale: Il modello RASP raggiunge il 99,89% di corrispondenza esatta di stringhe su COGS e il 99,63% di corrispondenza semantica esatta su ReCOGS_pos
Nuova Divisione di Generalizzazione: Scoperta e verifica di una nuova divisione di generalizzazione difficile "v_dat_p2_pp_moved_to_recipient"
Attraverso il meccanismo di mascheramento si evita che i nomi nei sintagmi preposizionali "attraggano" relazioni grammaticali errate:
Errore: The cake on the plate burned → theme(burn, plate) # errore di attrazione
Corretto: The cake on the plate burned → theme(burn, cake) # dopo mascheramento
Le strutture ricorsive vengono elaborate attraverso il ciclo del decoder, supportando annidamenti arbitrari di sintagmi preposizionali e proposizioni subordinate.
L'aumento della profondità del Transformer (3-4 strati) non migliora le prestazioni su obj_pp_to_subj_pp, coerente con i risultati di Petty et al. (2024).
Fattibilità Teorica: I Transformer possono teoricamente risolvere i compiti COGS attraverso pattern matching piatto, senza necessità di rappresentazioni gerarchiche
Meccanismo Chiave: Il mascheramento dei nomi dei sintagmi preposizionali è cruciale per evitare errori di attrazione
Problema di Apprendimento: Il fallimento dei Transformer attuali è un problema di apprendimento piuttosto che una limitazione di capacità
Errori Prevedibili: Gli errori specifici del modello di base possono essere previsti accuratamente basandosi sull'ipotesi di elaborazione piatta
Kim, N., & Linzen, T. (2020). COGS: A compositional generalization challenge based on semantic interpretation. EMNLP 2020.
Wu, Z., Manning, C. D., & Potts, C. (2024). ReCOGS: How incidental details of a logical form overshadow an evaluation of semantic interpretation. TACL.
Weiss, G., Goldberg, Y., & Yahav, E. (2021). Thinking like transformers. NeurIPS 2021.
Zhou, H., et al. (2023). What algorithms can transformers learn? A study in length generalization. arXiv preprint.
Zeller, A., et al. (2023). Grammar coverage. In The Fuzzing Book.
Questo articolo, attraverso un'analisi teorica rigorosa e una verifica empirica, fornisce intuizioni importanti per comprendere la capacità e i limiti dei Transformer nei compiti di generalizzazione composizionale. Sebbene presenti alcune limitazioni pratiche, i suoi contributi teorici e le innovazioni metodologiche hanno un valore significativo per far progredire la ricerca correlata.