We study the algorithmic problem of multiplying large matrices that are rectangular. We prove that the method that has been used to construct the fastest algorithms for rectangular matrix multiplication cannot give algorithms with complexity $n^{p + 1}$ for $n \times n$ by $n \times n^p$ matrix multiplication. In fact, we prove a precise numerical barrier for this method. Our barrier improves the previously known barriers, both in the numerical sense, as well as in its generality. In particular, we prove that any lower bound on the dual exponent of matrix multiplication $α$ via the big Coppersmith-Winograd tensors cannot exceed 0.6218.
- ID статьи: 2003.03019
- Название: Barriers for rectangular matrix multiplication
- Авторы: Matthias Christandl, François Le Gall, Vladimir Lysikov, Jeroen Zuiddam
- Классификация: cs.CC (Computational Complexity), math.AC (Commutative Algebra)
- Дата публикации: 10 ноября 2025 г. (версия arXiv)
- Ссылка на статью: https://arxiv.org/abs/2003.03019
В данной работе исследуются алгоритмические проблемы умножения больших прямоугольных матриц. Авторы доказывают, что методы, используемые для построения наиболее быстрых алгоритмов умножения прямоугольных матриц, не могут обеспечить алгоритм сложности np+1 для умножения матриц размера n×n на n×np. Фактически авторы доказывают точные числовые барьеры для этих методов. Этот барьер улучшает ранее известные барьеры как в числовом смысле, так и в универсальности. В частности, авторы доказывают, что любая нижняя граница для двойного показателя матричного умножения α, полученная через большие тензоры Копперсмита-Виноградова, не может превышать 0,6218.
- Проблема сложности умножения матриц: Для двух больших матриц, сколько скалярных арифметических операций требуется для вычисления их произведения? Стандартный алгоритм для двух матриц размера n×n требует примерно 2n3 операций, но теоретическая нижняя граница составляет всего n2.
- Умножение прямоугольных матриц: В практических приложениях матрицы, подлежащие умножению, обычно являются прямоугольными, а не квадратными. Для произвольного неотрицательного вещественного числа p, учитывая матрицу размера n×⌈np⌉ и матрицу размера ⌈np⌉×n, сколько операций требуется для вычисления их произведения?
- Определение показателя: ω(p) обозначает оптимальный показатель степени n в количестве операций, требуемых любым арифметическим алгоритмом, с априорными границами max(2,1+p)≤ω(p)≤2+p.
- Теоретическая значимость: Понимание ω(p) имеет значение не только для умножения прямоугольных матриц, но также является средством доказательства ω=2 (оптимального показателя для умножения квадратных матриц).
- Практическое применение: Умножение прямоугольных матриц имеет прямое применение в решении линейного программирования, минимизации эмпирического риска и других областях.
- Технические ограничения: Современные методы столкнулись с узким местом в улучшении верхних границ, что требует понимания их фундаментальных ограничений.
- Установление универсальной структуры барьеров: Авторы устанавливают точные числовые барьеры для основных современных методов построения алгоритмов умножения прямоугольных матриц.
- Улучшение числовых границ: Результаты улучшают предыдущие барьеры как в числовом смысле, так и в универсальности.
- Введение виртуальных тензоров матричного умножения: Для обработки нецелых значений p авторы вводят новый математический инструмент.
- Анализ каталитических методов: Исследуются более сложные структуры алгоритмов, включающие каталитические тензоры.
- Точные границы для двойного показателя: Доказано, что нижняя граница для α, полученная через тензоры Копперсмита-Виноградова, не может превышать 0,6218.
Исследуется проблема умножения прямоугольных матриц: для матрицы A размера n×⌈np⌉ и матрицы B размера ⌈np⌉×n требуется вычислить произведение AB. Целью является понимание фундаментальных ограничений современных методов в улучшении верхних границ сложности ω(p).
Проблемы умножения матриц соответствуют семействам тензоров:
- Умножение матриц размера ℓ×m на матрицу размера m×n соответствует тензору: ⟨ℓ,m,n⟩=∑i=1ℓ∑j=1m∑k=1nxijyjkzki
- Единичная задача соответствует диагональному тензору: ⟨n⟩=∑i=1nxiyizi
Определены различные типы тензорных редукций:
- Ограничение (S≤T): существуют линейные отображения такие, что S=T∘(A,B,C)
- Вырождение (S◃T): S=limϵ→0T(A(ϵ)x,B(ϵ)y,C(ϵ)z)
- Мономиальное ограничение/вырождение: матрицы A,B,C имеют не более одного ненулевого элемента в каждой строке и столбце
Определен класс параметров подходящих тензоров F, удовлетворяющих:
- ≤-монотонность: S≤T⇒F(S)≤F(T)
- ⊗-субмультипликативность: F(S⊗T)≤F(S)⋅F(T)
- MaMu-⊗-мультипликативность: F(⟨ℓ1ℓ2,m1m2,n1n2⟩)=F(⟨ℓ1,m1,n1⟩)⋅F(⟨ℓ2,m2,n2⟩)
- Самоаддитивность относительно ⊕: F(T⊕s)=s⋅F(T)
- Граница асимптотического ранга: F(T)≤R~(T)
Для обработки вещественных чисел p авторы вводят формальный символ ⟨2,2,2p⟩:
- Когда p=logab (где a,b — положительные целые числа): F(⟨2,2,2p⟩)=2logaF(⟨a,a,b⟩)
- В противном случае определяется через инфимум: F(⟨2,2,2p⟩)=inf{F(⟨2,2,2P⟩)∣P≥p,∃a,b∈Z≥0:P=logab}
Путем применения подходящих параметров F,G к обоим концам цепочки алгоритмов:
⟨n,n,m⟩⊕s≤T⊗k≤⟨r⟩⊗kb
получается:
logF(T)logF(⟨2,2,2p⟩)logR~(T)≤ω(p)
Используются функционалы верхней поддержки Штрассена в качестве подходящих параметров:
ζθ(T)=minS≅TmaxP∈P(supp(S))2∑i∈[3]θiH(Pi)
где θ=(θ1,θ2,θ3)∈P([3]), H — энтропия Шеннона.
Анализируются тензоры CW:
CWq(x,y,z)=x0y0zq+1+x0yq+1z0+xq+1y0z0+∑i=1q(x0yizi+xiy0zi+xiyiz0)
Известно, что R~(CWq)=q+2.
Вычисление барьеров преобразуется в задачу выпуклой оптимизации:
maxθmaxP∑i=13θiH(Pi)2θ1+(p+1)(θ2+θ3)log2(q+2)
Для тензоров CWq значения барьеров для ω(2):
| q | ω(2)≥ | Оптимальный θ1 |
|---|
| 2 | 3,0626 | 0,096 |
| 6 | 3,1039 | 0,136 |
| 10 | 3,1409 | 0,165 |
| 14 | 3,1714 | 0,185 |
| q | Барьер α |
|---|
| 2 | 0,6218 |
| 6 | 0,5408 |
| 10 | 0,4914 |
| 14 | 0,4529 |
Ключевой результат: Любая нижняя граница для α, полученная через вырождение CWq (для произвольного q), не может превышать 0,6218.
- Alman-Vassilevska Williams AW18a: мономиальное вырождение через CW6 может дать только α≥0,871
- Данная работа: более сильное вырождение через CW6 может дать только α≥0,543
- Текущая лучшая нижняя граница: α>0,321334 WXXZ24
Для κ-каталитических методов барьер усиливается до:
ω(p)≥logF(T)logF(⟨2,2,2p⟩)logR~(T)+κ(logF(T)logR~(T)−1)
- Ambainis-Filmus-Le Gall AFLG15: Первое доказательство барьеров в умножении матриц, показывающее, что некоторые методы не могут достичь ω=2.
- Alman-Vassilevska Williams AW18a,AW18b:
- Расширение на мономиальные вырождения
- Первое исследование барьеров для умножения прямоугольных матриц
- Анализ на основе асимптотического ранга независимости
- Blasiak и др. BCC+17a,BCC+17b: Исследование барьеров для групповых методов.
- Christandl-Vrana-Zuiddam CVZ19:
- Более общие барьеры вырождения
- На основе необратимости тензоров
- Использование квантовых функционалов и функционалов поддержки
- Более высокие числовые границы: Получены более жесткие барьеры по сравнению с предыдущими работами
- Более широкая область применения: Применимо не только к 0≤p≤1, но и к p≥1
- Единая структура: Охватывает все известные концепции редукции
- Анализ смешанных методов: Первый систематический анализ методов со смешанными промежуточными тензорами
- Фундаментальные ограничения: Современные основные методы (методы вырождения на основе тензоров Копперсмита-Виноградова) имеют фундаментальные ограничения в улучшении сложности умножения прямоугольных матриц.
- Точные числовые границы: Нижняя граница для двойного показателя α, полученная через любой тензор CWq, не может превышать 0,6218, что значительно ниже теоретического максимума 1.
- Технические узкие места: Доказано, почему современные методы не могут значительно сократить разрыв между верхней и нижней границами ω(p).
- Специфичность методов: Барьеры применимы только к методам, основанным на конкретных промежуточных тензорах (таких как тензоры CW), и не исключают другие возможные подходы к проектированию алгоритмов.
- Природа нижних границ: Это методологические барьеры, а не нижние границы самой задачи, и не исключают возможность существования лучших алгоритмов.
- Вычислительная сложность: Численные расчеты зависят от выпуклой оптимизации, что может представлять вычислительные трудности для более крупных тензоров.
- Новые промежуточные тензоры: Поиск новых типов промежуточных тензоров, не ограниченных текущими барьерами.
- Нетензорные методы: Исследование принципиально новых парадигм проектирования алгоритмов, не основанных на тензорном вырождении.
- Плотность барьеров: Исследование того, являются ли доказанные барьеры плотными.
- Другие типы редукций: Анализ барьеров при более общих концепциях редукции.
- Теоретическая глубина: Установлена полная структура теории барьеров с высокой математической строгостью.
- Технические инновации:
- Введение виртуальных тензоров матричного умножения элегантно решает проблему нецелых показателей
- Абстрактизация параметров подходящих тензоров предоставляет унифицированный инструмент анализа
- Практическая ценность: Точные численные результаты предоставляют разработчикам алгоритмов четкие указания на технические ограничения.
- Полнота: Охватывает полную цепь от фундаментальной теории до конкретных расчетов.
- Ограничения барьеров: Применимы только к определенным типам алгоритмов; могут существовать методы обхода этих барьеров.
- Вычислительная зависимость: Численные результаты зависят от вычисления функционалов поддержки, что может быть затруднительно для более сложных тензоров.
- Анализ разрыва: Хотя доказаны барьеры, недостаточно глубокого анализа того, что означает разрыв между барьерами и текущими лучшими результатами.
- Теоретический вклад: Предоставляет новые инструменты анализа и перспективы для теории сложности.
- Практическое руководство: Помогает исследователям понять ограничения современных методов и направляет будущие исследования.
- Методологическая ценность: Структура анализа барьеров может быть применима к другим проблемам проектирования алгоритмов.
- Проектирование алгоритмов: Предоставляет теоретическое руководство для разработчиков алгоритмов умножения матриц.
- Анализ сложности: Служит методологическим справочником для анализа барьеров других алгебраических задач.
- Теория оптимизации: Имеет применение в сценариях, требующих понимания фундаментальных ограничений алгоритмов.
Основные связанные работы включают:
- AFLG15 Ambainis, Filmus, Le Gall: Fast matrix multiplication limitations
- AW18a Alman, Vassilevska Williams: Further limitations of known approaches
- CVZ19 Christandl, Vrana, Zuiddam: Barriers from irreversibility
- CW90 Coppersmith, Winograd: Matrix multiplication via arithmetic progressions
- Str91 Strassen: Degeneration and complexity of bilinear maps