Translution: Unifying Self-attention and Convolution for Adaptive and Relative Modeling
Fan, Yang, Kankanhalli et al.
When modeling a given type of data, we consider it to involve two key aspects: 1) identifying relevant elements (e.g., image pixels or textual words) to a central element, as in a convolutional receptive field, or to a query element, as in self-attention, and 2) encoding these tokens effectively. Self-attention can adaptively identify these elements but relies on absolute positional embedding for structural representation learning. In contrast, convolution encodes elements in a relative manner, yet their fixed kernel size limits their ability to adaptively select the relevant elements. In this paper, we introduce Translution, an operation that unifies the adaptive identification capability of self-attention and the relative encoding advantage of convolution. However, this integration leads to a substantial increase in the number of parameters, exceeding most currently available computational resources. Therefore, we propose a lightweight variant of Translution, named α-Translution. Experiments on computer vision and natural language processing tasks show that Translution (including α-Translution) achieves superior accuracy compared to self-attention. The code is available at https://github.com/hehefan/Translution.
academic
Translution: Объединение самовнимания и свертки для адаптивного и относительного моделирования
Название: Translution: Unifying Self-attention and Convolution for Adaptive and Relative Modeling
Авторы: Hehe Fan (Чжэцзянский университет), Yi Yang (Чжэцзянский университет), Mohan Kankanhalli (Национальный университет Сингапура), Fei Wu (Чжэцзянский университет)
Категория: cs.LG cs.AI cs.CL cs.CV
Дата публикации: 11 октября 2025 г. (препринт arXiv)
При моделировании данных авторы выделяют два ключевых аспекта: 1) определение элементов, связанных с центральным элементом (как в свертке) или элементом запроса (как в самовнимании); 2) эффективное кодирование этих токенов. Самовнимание может адаптивно определять эти элементы, но полагается на абсолютные позиционные вложения для обучения представлению структуры. Напротив, свертка кодирует элементы относительным способом, но фиксированный размер ядра ограничивает её способность адаптивно выбирать релевантные элементы. В данной работе предлагается операция Translution, которая объединяет адаптивные возможности самовнимания с преимуществами относительного кодирования свертки. Однако такая интеграция приводит к значительному увеличению количества параметров, превышающему возможности большинства современных вычислительных ресурсов. Поэтому авторы предлагают облегченный вариант α-Translution. Экспериментальные результаты показывают, что Translution превосходит самовнимание как в задачах компьютерного зрения, так и в обработке естественного языка.
Основной вызов современного глубокого обучения заключается в том, как эффективно моделировать данные. Авторы разлагают моделирование данных на два ключевых аспекта:
Определение релевантных элементов: определение того, какие элементы данных связаны с текущим обрабатываемым элементом
Эффективное кодирование: кодирование этих релевантных элементов в эффективное представление
По мере того как прямые расширения моделей, таких как Transformer, сталкиваются с убывающей отдачей, лаборатории искусственного интеллекта отмечают, что темпы улучшения моделей следующего поколения ниже ожидаемых. При насыщении данных и ограничениях текущих законов масштабирования разработка инновационных архитектур нейронных сетей становится критически важной.
Предложение операции Translution: объединение адаптивных возможностей самовнимания с преимуществами относительного кодирования свертки
Разработка облегченного варианта α-Translution: значительное сокращение количества параметров, делающее метод практически применимым с современными вычислительными ресурсами
Теоретическое объединение: доказательство того, что свертка и самовнимание могут рассматриваться как частные случаи Translution
Экспериментальная проверка: валидация метода на задачах компьютерного зрения и обработки естественного языка
Открытая реализация: предоставление полной реализации кода для использования сообществом
В отличие от существующих методов (скалярные смещения или векторное сложение), Translution использует матрицы на основе смещений для относительного кодирования, лучше захватывая информацию о направлении и расстоянии.
Ключевые находки: Translution показывает значительно лучшие результаты в сценариях с изменением позиции, доказывая преимущества относительного кодирования.
Эксперименты показывают, что простое увеличение параметров (абсолютное кодирование) не приводит к улучшению производительности, доказывая эффективность самого метода относительного кодирования.
По мере увеличения C1 и C2 производительность α-Translution улучшается, но также увеличивается количество параметров, создавая компромисс между эффективностью и производительностью.
Статья цитирует важные работы в области глубокого обучения, включая:
Оригинальная статья Transformer (Vaswani et al., 2017)
Vision Transformer (Dosovitskiy et al., 2021)
Связанные работы по относительному кодированию позиции (Shaw et al., 2018; Liu et al., 2021 и др.)
Классические работы по сверточным нейронным сетям (LeCun et al., 1998; He et al., 2016 и др.)
Общая оценка: Это высококачественная статья с вкладами как в теории, так и в практике. Хотя существует проблема высоких требований к вычислительным ресурсам, предложение облегченного варианта α-Translution хорошо уравновешивает производительность и эффективность. Статья предоставляет новую перспективу на объединение базовых операций в глубоком обучении и имеет значительную академическую ценность и практическое значение.