2025-11-21T23:25:16.078828

Translution: Unifying Self-attention and Convolution for Adaptive and Relative Modeling

Fan, Yang, Kankanhalli et al.

When modeling a given type of data, we consider it to involve two key aspects: 1) identifying relevant elements (e.g., image pixels or textual words) to a central element, as in a convolutional receptive field, or to a query element, as in self-attention, and 2) encoding these tokens effectively. Self-attention can adaptively identify these elements but relies on absolute positional embedding for structural representation learning. In contrast, convolution encodes elements in a relative manner, yet their fixed kernel size limits their ability to adaptively select the relevant elements. In this paper, we introduce Translution, an operation that unifies the adaptive identification capability of self-attention and the relative encoding advantage of convolution. However, this integration leads to a substantial increase in the number of parameters, exceeding most currently available computational resources. Therefore, we propose a lightweight variant of Translution, named Î±-Translution. Experiments on computer vision and natural language processing tasks show that Translution (including Î±-Translution) achieves superior accuracy compared to self-attention. The code is available at https://github.com/hehefan/Translution.

academic

Translution: Объединение самовнимания и свертки для адаптивного и относительного моделирования

Основная информация

ID статьи: 2510.10060
Название: Translution: Unifying Self-attention and Convolution for Adaptive and Relative Modeling
Авторы: Hehe Fan (Чжэцзянский университет), Yi Yang (Чжэцзянский университет), Mohan Kankanhalli (Национальный университет Сингапура), Fei Wu (Чжэцзянский университет)
Категория: cs.LG cs.AI cs.CL cs.CV
Дата публикации: 11 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.10060v1

Аннотация

При моделировании данных авторы выделяют два ключевых аспекта: 1) определение элементов, связанных с центральным элементом (как в свертке) или элементом запроса (как в самовнимании); 2) эффективное кодирование этих токенов. Самовнимание может адаптивно определять эти элементы, но полагается на абсолютные позиционные вложения для обучения представлению структуры. Напротив, свертка кодирует элементы относительным способом, но фиксированный размер ядра ограничивает её способность адаптивно выбирать релевантные элементы. В данной работе предлагается операция Translution, которая объединяет адаптивные возможности самовнимания с преимуществами относительного кодирования свертки. Однако такая интеграция приводит к значительному увеличению количества параметров, превышающему возможности большинства современных вычислительных ресурсов. Поэтому авторы предлагают облегченный вариант α-Translution. Экспериментальные результаты показывают, что Translution превосходит самовнимание как в задачах компьютерного зрения, так и в обработке естественного языка.

Исследовательский контекст и мотивация

Определение проблемы

Основной вызов современного глубокого обучения заключается в том, как эффективно моделировать данные. Авторы разлагают моделирование данных на два ключевых аспекта:

Определение релевантных элементов: определение того, какие элементы данных связаны с текущим обрабатываемым элементом
Эффективное кодирование: кодирование этих релевантных элементов в эффективное представление

Ограничения существующих методов

Ограничения сверточных нейронных сетей:

Использование ядер фиксированного размера для определения локального рецептивного поля
Невозможность избежать включения нерелевантных пикселей, особенно на границах объектов или в фоновых областях
Хотя способны кодировать локальную структуру относительным образом, им не хватает адаптивности

Ограничения механизма самовнимания:

Способны адаптивно определять релевантные области без ограничений предопределенной локальности
Полагаются на абсолютные позиционные вложения для захвата информации о структуре
Могут испытывать трудности при распознавании одного и того же объекта, перемещающегося в разные позиции

Исследовательская мотивация

По мере того как прямые расширения моделей, таких как Transformer, сталкиваются с убывающей отдачей, лаборатории искусственного интеллекта отмечают, что темпы улучшения моделей следующего поколения ниже ожидаемых. При насыщении данных и ограничениях текущих законов масштабирования разработка инновационных архитектур нейронных сетей становится критически важной.

Основные вклады

Предложение операции Translution: объединение адаптивных возможностей самовнимания с преимуществами относительного кодирования свертки
Разработка облегченного варианта α-Translution: значительное сокращение количества параметров, делающее метод практически применимым с современными вычислительными ресурсами
Теоретическое объединение: доказательство того, что свертка и самовнимание могут рассматриваться как частные случаи Translution
Экспериментальная проверка: валидация метода на задачах компьютерного зрения и обработки естественного языка
Открытая реализация: предоставление полной реализации кода для использования сообществом

Подробное описание метода

Определение задачи

Для входных данных (блоков изображения или текстовых токенов) целью является обучение операции, которая может:

Адаптивно определять элементы, связанные с элементом запроса
Кодировать структурные отношения этих элементов относительным способом
Генерировать эффективное представление на выходе

Архитектура модели

Операция Translution

Translution использует подход в стиле свертки, назначая различные матрицы параметров для каждого расстояния и направления:

Относительное кодирование запроса: qi,j = fi · W^q_{δx,δy}, δx = xi - xj, δy = yi - yj
Относительное кодирование ключа: kj,i = fj · W^k_{-δx,-δy}
Относительное внимание: ai,j = (qi,j · k^T_{j,i})/√C', αi,j = e^{ai,j}/∑e^{ai,n}
Относительное кодирование значения: vi,j = fj · W^v_{δx,δy}
Взвешенная сумма: f'i = ∑αi,j × vi,j

где W^q_{δx,δy}, W^k_{δx,δy}, W^v_{δx,δy} ∈ R^{C×C'} — матрицы обучаемых параметров для соответствующего смещения (δx,δy).

Облегченный вариант α-Translution

Поскольку Translution требует (2H-1)×(2W-1)×C×C' параметров, α-Translution снижает параметры путем уменьшения входных и выходных размерностей:

W^q_{δx,δy} ⇒ W^q_1 · W^q_{δx,δy}
W^k_{δx,δy} ⇒ W^k_1 · W^k_{δx,δy}
W^v_{δx,δy} ⇒ W^v_1 · W^v_{δx,δy} · W^v_2

где C1 ≪ C, C2 ≪ C'.

Технические инновации

1. Теоретическое объединение

Авторы доказывают, что свертка и самовнимание являются частными случаями Translution:

Свертка: веса внимания равны 1 в рецептивном поле и 0 вне его
Самовнимание: использование общих параметров W^q, W^k, W^v, игнорирование кодирования направления и расстояния
Translution: объединение преимуществ обоих подходов

2. Кодирование относительной позиции

В отличие от существующих методов (скалярные смещения или векторное сложение), Translution использует матрицы на основе смещений для относительного кодирования, лучше захватывая информацию о направлении и расстоянии.

3. Оптимизированная реализация памяти

Для α-Translution разработана реализация, эффективная по памяти, снижающая пиковое использование памяти с N×N×C' до N×C'+N×N×C2.

Экспериментальная установка

Наборы данных

Задачи компьютерного зрения:

Dynamic MNIST: синтетический набор данных с цифрами, движущимися в области 84×84 пикселя
Static MNIST: контрольный набор данных с цифрами, зафиксированными в центре изображения
ImageNet-1K: крупномасштабный набор данных классификации изображений с 1000 классами

Задачи обработки естественного языка:

OpenWebText: 9 миллиардов токенов обучения, 4 миллиона токенов валидации, словарь из 50K

Метрики оценки

Классификация изображений: точность Top-1 и Top-5
Моделирование языка: недоумение (Perplexity)

Методы сравнения

Стандартное самовнимание (базовая модель Transformer)
Варианты с относительным кодированием позиции (Shaw et al., Swin Transformer, ConViT, RoFormer и др.)
Варианты с абсолютным кодированием (для исследования влияния)

Детали реализации

Конфигурация архитектуры: глубина 6-12 слоев, размер вложения 192-384, количество голов внимания 3-6
Размеры сжатия α-Translution по умолчанию: C1 = C2 = 8
Размер батча: 256 (ImageNet), 8 (OpenWebText)
Все обучение начинается с нуля без предварительного обучения

Результаты экспериментов

Основные результаты

Эксперименты на Dynamic MNIST

Метод	Параметры	Static→Static	Dynamic→Dynamic	Static→Dynamic
Self-attention	2.7M	98.48%	92.64%	18.18%
α-Translution	4.6M	98.48%	97.31%	34.90%
Translution	116.2M	98.60%	97.35%	36.40%

Ключевые находки: Translution показывает значительно лучшие результаты в сценариях с изменением позиции, доказывая преимущества относительного кодирования.

Эксперименты на ImageNet-1K

На примере ViT-A/56:

Метод	Параметры	Top-1	Top-5
Self-attention	4.7M	46.28%	71.17%
α-Translution	5.3M	48.36%	73.31%
Translution	38.5M	52.41%	76.50%

Эксперименты по моделированию языка

Метод	Параметры	Недоумение
Self-attention	22.0M	60.40
α-Translution	23.7M	57.97
Translution	127.5M	56.26

Исследование влияния компонентов

1. Влияние увеличения параметров vs относительного кодирования

Эксперименты показывают, что простое увеличение параметров (абсолютное кодирование) не приводит к улучшению производительности, доказывая эффективность самого метода относительного кодирования.

2. Влияние размерности относительного кодирования

По мере увеличения C1 и C2 производительность α-Translution улучшается, но также увеличивается количество параметров, создавая компромисс между эффективностью и производительностью.

3. Сравнение методов позиционного кодирования

Метод	Параметры	Top-1	Top-5
Без позиционного вложения	4.69M	42.49%	67.39%
Стандартное позиционное вложение	4.69M	46.28%	71.17%
Swin Transformer	4.69M	46.36%	71.31%
RoFormer	4.69M	46.65%	71.51%
α-Translution	5.33M	48.36%	73.31%
Translution	38.53M	52.41%	76.50%

Экспериментальные находки

Важность относительного кодирования: в сценариях с изменением позиции относительное кодирование значительно превосходит абсолютное
Параметрическая эффективность: α-Translution достигает значительного улучшения производительности при небольшом увеличении параметров
Кроссмодальная эффективность: метод эффективен как на задачах зрения, так и на задачах языка
Ограничения памяти: текущие ограничения памяти GPU требуют 2-3 ТБ памяти для более крупномасштабных оценок

Связанные работы

Исследования позиционного кодирования

Авторы классифицируют связанные работы на три категории:

Векторы относительной позиции: Shaw et al., BoTNet, HaloNet и др.
Скаляры относительной позиции: Swin Transformer, CoAtNet, ConViT и др.
Вращающиеся позиционные вложения: RoFormer и др.

Объединение свертки и внимания

Объединение на уровне архитектуры: Conformer, CeiT и др. используют свертку и внимание в разных слоях
Объединение на уровне модуля: Translution объединяет оба подхода на уровне базовой операции

Заключение и обсуждение

Основные выводы

Translution успешно объединяет адаптивные возможности самовнимания с преимуществами относительного кодирования свертки
α-Translution обеспечивает хороший баланс между параметрической эффективностью и производительностью
Относительное кодирование значительно превосходит абсолютное при обработке изменений позиции
Метод показывает улучшения на нескольких задачах и модальностях

Ограничения

Требования к вычислительным ресурсам: полный Translution требует большого количества параметров и памяти
Ограничения масштаба оценки: из-за ограничений ресурсов основная оценка проводилась на архитектурах малого и среднего размера
Оптимизация для конкретных сценариев: некоторые относительные позиции могут совместно использовать параметры, особенно на больших расстояниях

Будущие направления

Исследование оптимизированных вариантов: разработка более эффективных вариантов Translution
Расширение на мультимодальность: расширение на 3D, видео, молекулы и другие модальности
Проектирование архитектуры: разработка более эффективных специализированных архитектур для Translution
Крупномасштабная оценка: валидация на более крупных фреймворках и наборах данных

Глубокая оценка

Преимущества

Теоретический вклад: предоставляет унифицированную перспективу на свертку и самовнимание, теоретически элегантно
Практическая ценность: α-Translution обеспечивает улучшение производительности даже при ограниченных ресурсах
Полные эксперименты: охватывают несколько задач, наборов данных и исследования влияния компонентов
Четкая проблема: ясно определяет и решает основные ограничения существующих методов
Открытый вклад: предоставляет полную реализацию, способствуя исследованиям сообщества

Недостатки

Требования к ресурсам: вычислительные требования полного метода могут ограничить практическое применение
Масштаб оценки: отсутствие оценки крупномасштабных моделей из-за ограничений ресурсов
Теоретический анализ: отсутствие глубокого теоретического анализа сходимости и свойств оптимизации
Справедливость сравнения: значительные различия в количестве параметров с базовыми методами могут влиять на справедливость сравнения

Влияние

Академическая ценность: предоставляет новые идеи для объединения механизмов внимания и свертки
Практические перспективы: практичность α-Translution позволяет надеяться на его применение в реальных приложениях
Вдохновляющее значение: может вдохновить дальнейшие исследования объединения базовых операций

Применимые сценарии

Задачи, чувствительные к позиции: особенно подходит для задач, требующих обработки изменений позиции
Структурированные данные: хорошие результаты на данных с пространственной или последовательной структурой (изображения, текст)
Среды с достаточными ресурсами: полный Translution подходит для сценариев с достаточными вычислительными ресурсами
Исследовательское изучение: предоставляет новые направления для исследований базовых архитектур

Библиография

Статья цитирует важные работы в области глубокого обучения, включая:

Оригинальная статья Transformer (Vaswani et al., 2017)
Vision Transformer (Dosovitskiy et al., 2021)
Связанные работы по относительному кодированию позиции (Shaw et al., 2018; Liu et al., 2021 и др.)
Классические работы по сверточным нейронным сетям (LeCun et al., 1998; He et al., 2016 и др.)

Общая оценка: Это высококачественная статья с вкладами как в теории, так и в практике. Хотя существует проблема высоких требований к вычислительным ресурсам, предложение облегченного варианта α-Translution хорошо уравновешивает производительность и эффективность. Статья предоставляет новую перспективу на объединение базовых операций в глубоком обучении и имеет значительную академическую ценность и практическое значение.