Position Information Emerges in Causal Transformers Without Positional Encodings via Similarity of Nearby Embeddings
Zuo, Guerzhoy, Guerzhoy
Transformers with causal attention can solve tasks that require positional information without using positional encodings. In this work, we propose and investigate a new hypothesis about how positional information can be stored without using explicit positional encoding. We observe that nearby embeddings are more similar to each other than faraway embeddings, allowing the transformer to potentially reconstruct the positions of tokens. We show that this pattern can occur in both the trained and the randomly initialized Transformer models with causal attention and no positional encodings over a common range of hyperparameters.
academic
Информация о Позиции Возникает в Причинных Трансформерах Без Позиционных Кодировок через Сходство Соседних Встраиваний
Данное исследование изучает, как трансформеры с причинным вниманием решают задачи, требующие информации о позиции, без использования позиционных кодировок. Авторы предлагают и проверяют новую гипотезу: информация о позиции может храниться через сходство между соседними векторами встраивания. Исследование показывает, что соседние векторы встраивания более похожи друг на друга, чем векторы на больших расстояниях, что позволяет трансформеру восстанавливать информацию о позиции токена. Этот паттерн наблюдается как в обученных, так и в случайно инициализированных моделях причинных трансформеров.
Традиционное понимание предполагает, что трансформеры требуют явных позиционных кодировок для обработки информации о позиции токенов в последовательности. Однако недавние исследования (Haviv et al. 2022; Kazemnejad et al. 2024; Chi et al. 2023) показывают, что декодер-только трансформеры, использующие только причинное внимание, могут изучать информацию о позиции без позиционных кодировок.
Теоретический пробел: Существующие исследования не дают глубокого понимания того, как причинные трансформеры хранят информацию о позиции
Исследование механизмов: Chi et al. (2023) предложили, что информация о позиции хранится в дисперсии встраивания, но это объяснение может быть неполным
Необходимость новой перспективы: Требуется новый угол зрения для понимания механизмов представления информации о позиции
Предложение гипотезы соседнего паттерна: Обнаружение того, что векторы встраивания соседних позиций имеют более высокое косинусное сходство, образуя "соседний паттерн"
Теоретический анализ: Математическое объяснение причин появления соседнего паттерна в первом слое причинного внимания
Обширная экспериментальная верификация: Проверка существования соседнего паттерна на различных задачах, конфигурациях моделей и схемах инициализации
Метод количественной оценки: Предложение оценки вероятности соседства (adjacency probability score) для количественного определения силы информации о позиции
Сравнительный анализ: Доказательство через зондирующие эксперименты того, что косинусное сходство более эффективно кодирует информацию о позиции, чем дисперсия встраивания
Исследование того, как причинные трансформеры представляют и используют информацию о позиции без явных позиционных кодировок, с акцентом на паттерны сходства между векторами встраивания.
Соседний паттерн означает, что матрица автокосинусного сходства имеет характеристику с более высокими значениями вблизи диагонали и более низкими значениями вдали от диагонали, указывая на то, что векторы встраивания соседних позиций более похожи.
Авторы разработали четыре синтетические задачи, требующие информации о позиции:
Задача сложения (Addition): Генерация ответа для "123+456=", максимальная длина входа 9
Задача разворота (Reversal): Для "rev(1234)=" генерация "4321", максимальная длина входа 22
Задача индексирования (Indexing): Для "wherex(134504392,4)=" вывод первой позиции появления "2", максимальная длина входа 20
Задача сортировки (Ordering): Для исходной последовательности и переупорядоченной последовательности вывод нового порядка индексов, максимальная длина входа 18
Ограничения набора данных: Верификация проводилась в основном на синтетических задачах, обобщаемость на реальные наборы данных требует дальнейшего исследования
Зависимость от архитектуры: Выводы основаны на конкретной архитектуре трансформера, применимость к другим вариантам неизвестна
Проблема полноты: Ни соседний паттерн, ни дисперсия не могут полностью объяснить 100% производительности задачи
Данная работа в основном ссылается на следующие важные исследования:
Haviv et al. (2022): Первое доказательство возможности обучения без позиционного кодирования
Chi et al. (2023): Предложение гипотезы убывающей дисперсии для информации о позиции
Tsai et al. (2019): Анализ свойств перестановочности механизма внимания
Vaswani et al. (2017): Оригинальная статья о трансформерах
Данное исследование предоставляет важную новую перспективу для понимания того, как трансформеры обрабатывают информацию о позиции. Хотя в полноте все еще есть недостатки, его теоретические идеи и экспериментальные выводы создают прочную основу для дальнейшего развития в этой области.