Exploring Compositional Generalization (in COGS/ReCOGS_pos) by Transformers using Restricted Access Sequence Processing (RASP)
Bruns
Humans understand new combinations of words encountered if they are combinations of words recognized from different contexts, an ability called Compositional Generalization. The COGS benchmark (Kim and Linzen, 2020) arXiv:2010.05465 reports 0% accuracy for Transformer models on some structural generalizations. We use (Weiss et al., 2021) arXiv:2106.06981's Restricted Access Sequence Processing (RASP), a Transformer-equivalent programming language, to demonstrate that a Transformer Encoder-Decoder can perform COGS and the semantically equivalent ReCOGS_pos (Wu et al., 2024) arXiv:2303.13716 systematically and compositionally: Our RASP models attain near perfect scores on structural generalization splits on COGS (exact match) and ReCOGS_pos (semantic exact match). Our RASP models show the (Re)COGS tasks do not require a hierarchical or tree-structured solution (contrary to (Kim and Linzen, 2020) arXiv:2010.05465, (Yao and Koller, 2022) arXiv:2210.13050, (Murty et al., 2022) arXiv:2211.01288, (Liu et al., 2021) arXiv:2107.06516): we use word-level tokens with an "embedding" layer that tags with possible part of speech, applying just once per encoder pass 19 attention-head compatible flat pattern-matching rules (easily identified with specific training examples), shown using grammar coverage (Zeller et al., 2023) to cover the non-recursive aspects of the input grammar, plus masking out prepositional phrases ("pp noun") and/or sentential complements (cp) when recognizing grammar patterns and extracting nouns related to the main verb in the sentence, and output the next logical form (LF) token (repeating until the LF is complete). The models do not apply recursive, tree-structured rules like "np_det pp np -> np_pp -> np", but score near perfect semantic and string exact match on both COGS and ReCOGS pp recursion, cp recursion using the decoder loop.
academic
Исследование композиционной генерализации (в COGS/ReCOGS_pos) трансформаторами с использованием обработки последовательностей с ограниченным доступом (RASP)
Люди способны понимать новые комбинации слов, распознанных в различных контекстах — способность, называемая композиционной генерализацией. Тестовый набор COGS сообщает о точности 0% моделей трансформаторов при некоторых структурных обобщениях. В данной работе используется язык RASP (обработка последовательностей с ограниченным доступом) для доказательства того, что кодировщик-декодировщик трансформатора может систематически и композиционно выполнять задачи COGS и семантически эквивалентные ReCOGS_pos: модель RASP достигает почти идеальных результатов на разделе структурной генерализации. Исследование показывает, что задачи (Re)COGS не требуют иерархических или древовидных решений, а вместо этого используют 19 совместимых с вниманием правил плоского сопоставления шаблонов путём маскирования предложных фраз и придаточных предложений для идентификации грамматических шаблонов.
Основная проблема, которую решает данное исследование, — это ограничения способности моделей трансформаторов в задачах композиционной генерализации, в частности плохая производительность на тестовом наборе COGS (задача композиционной генерализации на основе семантической интерпретации).
Теоретическое значение: Композиционная генерализация является ключевой способностью понимания языка человеком; понимание того, как нейронные сети реализуют эту способность, имеет решающее значение для продвижения понимания языка ИИ
Практическое значение: Точность близкая к 0% текущих моделей трансформаторов в задачах структурной генерализации указывает на фундаментальные ограничения, требующие решения
Ограничения мелких сетей: 2-слойный кодировщик-декодировщик Kim и Linzen (2020) показывает крайне плохую производительность при структурной генерализации
Ошибочное предположение об иерархии: Существующие исследования предполагают, что для решения задач COGS необходимы древовидные структуры или иерархические представления
Неэффективность глубины: Petty и др. (2024) обнаружили, что даже увеличение до 32 слоёв не улучшает производительность трансформатора при структурной генерализации COGS
Автор вдохновлён работой Zhou и др. (2023) по использованию RASP для анализа способности трансформаторов к генерализации и стремится через конструктивное доказательство продемонстрировать, что трансформаторы теоретически могут решать задачи COGS, и проанализировать причины отказа существующих моделей.
Конструктивное доказательство: Использование языка RASP для доказательства того, что кодировщик-декодировщик трансформатора теоретически может систематически решать задачи COGS и ReCOGS_pos
Плоское решение: Предложение неиерархического решения на основе 19 правил плоского сопоставления шаблонов без необходимости в рекурсивных древовидных правилах
Анализ ошибок: Предсказание и проверка конкретных ошибочных паттернов базовых трансформаторов через теорию «ошибок притяжения»
Прорыв в производительности: Модель RASP достигает 99,89% точного совпадения строк на COGS и 99,63% семантического точного совпадения на ReCOGS_pos
Новый раздел генерализации: Обнаружение и проверка нового сложного раздела генерализации "v_dat_p2_pp_moved_to_recipient"
Механизм маскирования предотвращает «притяжение» существительных из предложных фраз к неправильным грамматическим отношениям:
Ошибка: The cake on the plate burned → theme(burn, plate) # ошибка притяжения
Правильно: The cake on the plate burned → theme(burn, cake) # после маскирования
Увеличение количества слоёв трансформатора (3-4 слоя) не улучшает производительность на obj_pp_to_subj_pp, что согласуется с выводами Petty и др. (2024).
Теоретическая осуществимость: Трансформаторы теоретически могут решать задачи COGS через плоское сопоставление шаблонов без необходимости в иерархических представлениях
Ключевой механизм: Маскирование существительных предложных фраз является ключом к избежанию ошибок притяжения
Проблема обучения: Отказ текущих трансформаторов является проблемой обучения, а не ограничением способностей
Предсказуемость ошибок: На основе гипотезы плоской обработки можно точно предсказать конкретные ошибки базовых моделей
Kim, N., & Linzen, T. (2020). COGS: A compositional generalization challenge based on semantic interpretation. EMNLP 2020.
Wu, Z., Manning, C. D., & Potts, C. (2024). ReCOGS: How incidental details of a logical form overshadow an evaluation of semantic interpretation. TACL.
Weiss, G., Goldberg, Y., & Yahav, E. (2021). Thinking like transformers. NeurIPS 2021.
Zhou, H., et al. (2023). What algorithms can transformers learn? A study in length generalization. arXiv preprint.
Zeller, A., et al. (2023). Grammar coverage. In The Fuzzing Book.
Данная статья посредством строгого теоретического анализа и эмпирической проверки предоставляет важные инсайты для понимания способностей и ограничений трансформаторов в задачах композиционной генерализации. Хотя существуют некоторые ограничения практичности, её теоретический вклад и методологические инновации имеют значительную ценность для продвижения соответствующих исследований.