2025-11-14T08:19:11.556995

Position Information Emerges in Causal Transformers Without Positional Encodings via Similarity of Nearby Embeddings

Zuo, Guerzhoy, Guerzhoy
Transformers with causal attention can solve tasks that require positional information without using positional encodings. In this work, we propose and investigate a new hypothesis about how positional information can be stored without using explicit positional encoding. We observe that nearby embeddings are more similar to each other than faraway embeddings, allowing the transformer to potentially reconstruct the positions of tokens. We show that this pattern can occur in both the trained and the randomly initialized Transformer models with causal attention and no positional encodings over a common range of hyperparameters.
academic

Информация о Позиции Возникает в Причинных Трансформерах Без Позиционных Кодировок через Сходство Соседних Встраиваний

Основная информация

  • ID статьи: 2501.00073
  • Название: Position Information Emerges in Causal Transformers Without Positional Encodings via Similarity of Nearby Embeddings
  • Авторы: Chunsheng Zuo (Johns Hopkins University), Pavel Guerzhoy (University of Hawai'i at Mānoa), Michael Guerzhoy (University of Toronto)
  • Классификация: cs.CL (Вычислительная лингвистика), cs.LG (Машинное обучение)
  • Дата публикации: 30 декабря 2024 г.
  • Ссылка на статью: https://arxiv.org/abs/2501.00073

Аннотация

Данное исследование изучает, как трансформеры с причинным вниманием решают задачи, требующие информации о позиции, без использования позиционных кодировок. Авторы предлагают и проверяют новую гипотезу: информация о позиции может храниться через сходство между соседними векторами встраивания. Исследование показывает, что соседние векторы встраивания более похожи друг на друга, чем векторы на больших расстояниях, что позволяет трансформеру восстанавливать информацию о позиции токена. Этот паттерн наблюдается как в обученных, так и в случайно инициализированных моделях причинных трансформеров.

Предпосылки и мотивация исследования

Определение проблемы

Традиционное понимание предполагает, что трансформеры требуют явных позиционных кодировок для обработки информации о позиции токенов в последовательности. Однако недавние исследования (Haviv et al. 2022; Kazemnejad et al. 2024; Chi et al. 2023) показывают, что декодер-только трансформеры, использующие только причинное внимание, могут изучать информацию о позиции без позиционных кодировок.

Мотивация исследования

  1. Теоретический пробел: Существующие исследования не дают глубокого понимания того, как причинные трансформеры хранят информацию о позиции
  2. Исследование механизмов: Chi et al. (2023) предложили, что информация о позиции хранится в дисперсии встраивания, но это объяснение может быть неполным
  3. Необходимость новой перспективы: Требуется новый угол зрения для понимания механизмов представления информации о позиции

Ограничения существующих методов

  • Механизмы некаузального внимания инвариантны к перестановкам входных токенов и не могут обрабатывать информацию о позиции
  • Теория дисперсии Chi et al. показывает неудовлетворительные результаты в некоторых экспериментах и не полностью объясняет наблюдаемые явления

Основные вклады

  1. Предложение гипотезы соседнего паттерна: Обнаружение того, что векторы встраивания соседних позиций имеют более высокое косинусное сходство, образуя "соседний паттерн"
  2. Теоретический анализ: Математическое объяснение причин появления соседнего паттерна в первом слое причинного внимания
  3. Обширная экспериментальная верификация: Проверка существования соседнего паттерна на различных задачах, конфигурациях моделей и схемах инициализации
  4. Метод количественной оценки: Предложение оценки вероятности соседства (adjacency probability score) для количественного определения силы информации о позиции
  5. Сравнительный анализ: Доказательство через зондирующие эксперименты того, что косинусное сходство более эффективно кодирует информацию о позиции, чем дисперсия встраивания

Подробное описание методики

Определение задачи

Исследование того, как причинные трансформеры представляют и используют информацию о позиции без явных позиционных кодировок, с акцентом на паттерны сходства между векторами встраивания.

Основные концепции

Матрица автокосинусного сходства

Для последовательности встраиваний токенов длины n и размерности d, X ∈ R^(n×d), матрица автокосинусного сходства C определяется как:

C_ij = cos θ(X_i, X_j) = (X_i · X_j) / (||X_i|| ||X_j||)

Соседний паттерн (Adjacency Pattern)

Соседний паттерн означает, что матрица автокосинусного сходства имеет характеристику с более высокими значениями вблизи диагонали и более низкими значениями вдали от диагонали, указывая на то, что векторы встраивания соседних позиций более похожи.

Оценка вероятности соседства

Для количественного определения силы соседнего паттерна авторы предлагают оценку вероятности соседства:

Для k-й строки оценка вероятности соседства на уровне строки определяется как:

P_Adjacency = P(C_ki < C_kj if i < j) = 1/C(k,2) * Σ I(C_ki < C_kj)

Оценка вероятности соседства для всей матрицы является средним значением всех строк.

Теоретический анализ

Эффект усреднения

На первом слое встраивание позиции k вычисляется как линейная комбинация предыдущих k-1 встраиваний:

  • Встраивание позиции k+t: Σ(i=1 to k+t) α_i * e_i
  • Встраивание позиции k+t+1: Σ(i=1 to k+t+1) β_i * e_i

Поскольку соседние позиции имеют больше общих входных встраиваний, их скалярное произведение различается положительно:

(Σ α_i * v_i) · (Σ β_i * v_i) - (Σ α_i * v_i) · (Σ β'_i * v_i) > 0

Это математически объясняет появление соседнего паттерна.

Экспериментальная установка

Наборы данных и задачи

Авторы разработали четыре синтетические задачи, требующие информации о позиции:

  1. Задача сложения (Addition): Генерация ответа для "123+456=", максимальная длина входа 9
  2. Задача разворота (Reversal): Для "rev(1234)=" генерация "4321", максимальная длина входа 22
  3. Задача индексирования (Indexing): Для "wherex(134504392,4)=" вывод первой позиции появления "2", максимальная длина входа 20
  4. Задача сортировки (Ordering): Для исходной последовательности и переупорядоченной последовательности вывод нового порядка индексов, максимальная длина входа 18

Конфигурация модели

  • Базовая модель: 6-слойный NanoGPT, 10,6 млн параметров
  • Варианты конфигурации: 6/12/24 слоя, 192/384/768 скрытых размерностей
  • Инициализация: По умолчанию N(0, 0.02), тестирование различных средних значений и дисперсий
  • Параметры обучения: 20000 обучающих и 20000 тестовых образцов на задачу, 5 случайных начальных значений

Метрики оценки

  1. Оценка вероятности соседства: Количественное определение силы соседнего паттерна
  2. Точность задачи: Производительность модели на различных задачах
  3. Зондирующие эксперименты: Использование 4-слойного MLP для зондирования информации о позиции, оценка NRMSE и Pearson-R

Результаты экспериментов

Основные выводы

1. Универсальное существование соседнего паттерна

  • На уровне встраивания токенов оценка вероятности соседства составляет примерно 0,5 (случайный уровень)
  • После первого слоя причинного внимания оценка скачком возрастает до 0,8-1,0
  • Этот паттерн остается стабильным до и после обучения, на различных задачах и конфигурациях моделей

2. Результаты анализа по слоям

СлойИнициализированная модельОбученная модель
Слой встраивания0,480,54
Слой 10,980,89
Слой 20,990,97
Слой 30,990,98
Слой 60,990,82

3. Чувствительность к гиперпараметрам

  • Влияние количества слоев: Модели с 6-24 слоями показывают соседний паттерн
  • Влияние размерности: Конфигурации с размерностью 192-768 сохраняют паттерн
  • Влияние инициализации: Паттерн стабилен при стандартных схемах инициализации (σ ≤ 0,02)

Абляционные эксперименты

Тестирование схем инициализации

Тестирование различных средних значений (μ ∈ {0,4,8}) и стандартных отклонений (σ ∈ {0,002,0,02,0,2}):

  • Малая дисперсия (σ ≤ 0,02): Соседний паттерн стабилен
  • Большая дисперсия (σ = 0,2): Паттерн исчезает
  • Большое среднее значение оказывает незначительное влияние на паттерн

Сравнение с теорией дисперсии

Сравнение косинусного сходства и дисперсии встраивания как признаков позиции через зондирующие эксперименты:

Тип признакаPearson-RNRMSE
Вектор встраивания0,710,20
Дисперсия встраивания0,490,23
Косинусное сходство0,930,11

Анализ конкретных случаев

На рисунке 1 показана визуализация матрицы автокосинусного сходства в задаче разворота:

  • Инициализированная модель: Четкий диагональный паттерн появляется начиная с первого слоя
  • Обученная модель: Первые несколько слоев сохраняют сильный соседний паттерн, последующие слои постепенно его ослабляют

Связанные работы

Исследования позиционного кодирования

  • Традиционные методы: Абсолютное позиционное кодирование, относительное позиционное кодирование
  • Последние открытия: Haviv et al. (2022) впервые доказали возможность обучения причинных трансформеров без позиционного кодирования

Механизмы причинного внимания

  • Инвариантность к перестановкам: Tsai et al. (2019) доказали инвариантность некаузального внимания к перестановкам
  • Хранение информации о позиции: Chi et al. (2023) предложили гипотезу убывающей дисперсии

Вклад данной работы

По сравнению с теорией дисперсии Chi et al., гипотеза соседнего паттерна в данной работе:

  1. Предоставляет более интуитивное геометрическое объяснение
  2. Показывает лучшую производительность в зондирующих экспериментах
  3. Применима к более широкому спектру конфигураций моделей

Выводы и обсуждение

Основные выводы

  1. Универсальность соседнего паттерна: Причинные трансформеры естественным образом формируют соседний паттерн после первого слоя внимания
  2. Кодирование информации о позиции: Высокое сходство соседних встраиваний обеспечивает возможность восстановления позиции
  3. Объяснение механизма: Эффект усреднения математически объясняет причины появления паттерна
  4. Практическая ценность: Косинусное сходство более подходит в качестве признака позиции, чем дисперсия встраивания

Ограничения

  1. Ограничения набора данных: Верификация проводилась в основном на синтетических задачах, обобщаемость на реальные наборы данных требует дальнейшего исследования
  2. Зависимость от архитектуры: Выводы основаны на конкретной архитектуре трансформера, применимость к другим вариантам неизвестна
  3. Проблема полноты: Ни соседний паттерн, ни дисперсия не могут полностью объяснить 100% производительности задачи

Направления будущих исследований

  1. Крупномасштабная верификация: Проверка соседнего паттерна на реальных задачах языкового моделирования
  2. Интеграция механизмов: Исследование комбинирования соседнего паттерна с другими механизмами позиционного кодирования
  3. Совершенствование теории: Построение более полной теоретической базы для представления информации о позиции

Глубокая оценка

Преимущества

  1. Инновационная перспектива: Понимание информации о позиции с точки зрения геометрического сходства предоставляет новые теоретические идеи
  2. Строгая верификация: Комплексная проверка гипотезы на различных задачах, конфигурациях и методах анализа
  3. Математическая основа: Предоставление теоретического объяснения причин появления соседнего паттерна
  4. Практический инструмент: Оценка вероятности соседства предоставляет эффективный метод количественного определения информации о позиции

Недостатки

  1. Ограничения задач: Синтетические задачи могут не полностью отражать сложность реальных сценариев применения
  2. Неполнота механизма: Признание того, что существующая теория не может полностью объяснить производительность модели
  3. Вычислительные затраты: Вычисление матрицы автокосинусного сходства может быть дорогостоящим на длинных последовательностях

Влияние

  1. Теоретический вклад: Предоставление новой перспективы для понимания представления позиции в трансформерах
  2. Практическое руководство: Теоретическая поддержка для проектирования моделей без позиционного кодирования
  3. Исследовательское вдохновение: Открытие нового направления анализа внутренних механизмов трансформеров с геометрической точки зрения

Применимые сценарии

  1. Облегченные модели: Проектирование моделей, снижающих параметры позиционного кодирования
  2. Обработка длинных последовательностей: Моделирование последовательностей без ограничений позиционного кодирования
  3. Анализ моделей: Понимание и отладка внутренних представлений трансформеров

Библиография

Данная работа в основном ссылается на следующие важные исследования:

  • Haviv et al. (2022): Первое доказательство возможности обучения без позиционного кодирования
  • Chi et al. (2023): Предложение гипотезы убывающей дисперсии для информации о позиции
  • Tsai et al. (2019): Анализ свойств перестановочности механизма внимания
  • Vaswani et al. (2017): Оригинальная статья о трансформерах

Данное исследование предоставляет важную новую перспективу для понимания того, как трансформеры обрабатывают информацию о позиции. Хотя в полноте все еще есть недостатки, его теоретические идеи и экспериментальные выводы создают прочную основу для дальнейшего развития в этой области.