2025-11-27T11:04:19.442540

A non-commutative algorithm for multiplying 4x4 matrices using 48 non-complex multiplications

Dumas, Pernet, Sedoglavic
The quest for non-commutative matrix multiplication algorithms in small dimensions has seen a lot of recent improvements recently. In particular, the number of scalar multiplications required to multiply two $4\times4$ matrices was first reduced in \cite{Fawzi:2022aa} from 49 (two recursion levels of Strassen's algorithm) to 47 but only in characteristic 2 or more recently to 48 in \cite{alphaevolve} but over complex numbers. We propose an algorithm in 48 multiplications with only rational coefficients, hence removing the complex number requirement. It was derived from the latter one, under the action of an isotropy which happen to project the algorithm on the field of rational numbers. We also produce a straight line program of this algorithm, reducing the leading constant in the complexity, as well as an alternative basis variant of it, leading to an algorithm running in $7 n^{2+\frac{\log_2 3}{2}} +o\left(n^{2+\frac{log_2 3}{2}}\right)$ operations over any ring containing an inverse of 2.
academic

4×4 행렬 곱셈을 48개의 비복소수 곱셈으로 계산하는 비교환 알고리즘

기본 정보

  • 논문 ID: 2506.13242
  • 제목: A non-commutative algorithm for multiplying 4×4 matrices using 48 non-complex multiplications
  • 저자: Jean-Guillaume Dumas, Clément Pernet, Alexandre Sedoglavic
  • 소속: Univ. Grenoble Alpes (Dumas & Pernet), Univ. Lille (Sedoglavic)
  • 분류: cs.SC (기호 계산)
  • 발표 시간: 2025년 11월 27일 (arXiv 사전인쇄본)
  • 논문 링크: https://arxiv.org/abs/2506.13242

초록

본 논문은 48번의 스칼라 곱셈을 사용하여 4×4 행렬 곱셈을 계산하는 비교환 알고리즘을 제시한다. 이 알고리즘은 유리수 계수만을 사용하며 복소수가 필요 없다. 이는 AlphaEvolve11에서 제시한 복소수 영역 알고리즘의 개선으로, 등거리 변환(isotropy)을 통해 유리수 영역으로 투영한 것이다. 논문은 직선 프로그램(straight-line program) 구현을 제공하며, 2의 역원을 포함하는 임의의 환에서 7n2+log232+o(n2+log232)7n^{2+\frac{\log_2 3}{2}} + o(n^{2+\frac{\log_2 3}{2}})의 연산 복잡도를 달성하는 대체 기저 변형을 제시한다.

연구 배경 및 동기

문제 배경

  1. 핵심 문제: 소규모 차원 행렬 곱셈의 최적 비교환 알고리즘 탐색, 특히 필요한 스칼라 곱셈 횟수 감소. 행렬 곱셈은 컴퓨터 과학과 수치 계산의 기본 연산이며, 그 효율성은 수많은 응용 분야의 성능에 직접 영향을 미친다.
  2. 중요성:
    • 행렬 곱셈의 시간 복잡도는 선형대수 계산, 기계학습, 과학 계산 등 분야의 효율성에 직접 영향
    • Strassen 알고리즘(1969)은 복잡도를 O(n3)O(n^3)에서 O(n2.81)O(n^{2.81})로 처음 단축하여 빠른 행렬 곱셈 연구의 문을 열었음
    • 소규모 차원 행렬 곱셈 알고리즘은 재귀적으로 대규모 행렬에 적용 가능하여 실제 응용 가치 있음
  3. 기존 방법의 한계:
    • Strassen 알고리즘은 4×4 행렬에서 49번의 곱셈 필요(2층 재귀)
    • Fawzi 등5은 특성 2인 체에서 47번의 곱셈 달성
    • AlphaEvolve11은 대형 언어 모델과 진화 코딩 에이전트를 사용하여 48번의 곱셈 알고리즘 발견, 하지만 복소수 계수 필요
    • 복소수 계수는 정수환, 유한체 등 특정 환에서의 알고리즘 적용을 제한
  4. 연구 동기:
    • 복소수 요구 사항 제거로 더 광범위한 대수 구조에서 알고리즘 적용 가능하게 함
    • 텐서 분해 이론의 대칭성(등거리 군 작용)을 활용하여 체계적으로 알고리즘 변환
    • 실용적인 직선 프로그램 구현 제공 및 상수항 최적화

핵심 기여

  1. 주요 이론적 기여: AlphaEvolve 알고리즘의 등거리 궤도(isotropy orbit)에 유리수 점이 존재함을 증명하고, 48번의 곱셈을 갖는 순수 유리수 계수 알고리즘 제시
  2. 방법론적 기여: 텐서 분해의 등거리 군 이론을 체계적으로 적용하여 등거리 변환(식 24)을 통해 복소수 영역 알고리즘을 유리수 영역으로 투영
  3. 실용적 기여:
    • 완전한 직선 프로그램 구현 제공(목록 1-4), 총 341개 연산
    • 이론적 복잡도 한계: 11.65625n2.79210.65625n211.65625n^{2.792} - 10.65625n^2
    • 대체 기저 변형 제공, 6개 연산만 필요(1+2+3), 복잡도 7n2.7927n^{2.792}
  4. 일반성: 알고리즘은 2의 역원을 포함하는 모든 환에 적용 가능하여 응용 범위 확장
  5. 오픈소스 구현: 모든 행렬과 코드가 PLinOpt 라이브러리에서 공개 가능

방법 상세 설명

작업 정의

입력: 두 개의 4×4 행렬 A=(aij)A = (a_{ij})B=(bij)B = (b_{ij}), 원소는 12\frac{1}{2}를 포함하는 환 RR에서 나옴
출력: 곱 행렬 C=AB=(cij)C = A \cdot B = (c_{ij})
제약: 스칼라 곱셈 횟수 최소화, 유리수 계수만 사용(복소수 회피)

이론적 프레임워크: 텐서 분해 표현

1. 쌍선형 사상의 텐서 표현

행렬 곱셈은 쌍선형 사상으로 표현 가능: βmm:Rm×k×Rk×nRm×n,(A,B)AB\beta_{mm}: R^{m \times k} \times R^{k \times n} \rightarrow R^{m \times n}, \quad (A, B) \mapsto A \cdot B

이 사상은 텐서 공간 (Rm×k)(Rk×n)Rm×n(R^{m \times k})^* \otimes (R^{k \times n})^* \otimes R^{m \times n}의 텐서 분해로 인코딩됨: T=i=1rMiNiOiT = \sum_{i=1}^r M_i \otimes N_i \otimes O_i

여기서:

  • rr텐서 계수(tensor rank), 필요한 스칼라 곱셈 횟수에 대응
  • (Mi,Ni,Oi)(M_i, N_i, O_i)는 계수 1 텐서
  • 삼선형 표현: Trace(OiTMiNi)\text{Trace}(O_i^T \cdot M_i \cdot N_i)

2. Strassen 알고리즘의 텐서 표현

Strassen의 2×2 행렬 곱셈 알고리즘(7번 곱셈)은 계수 7 텐서 분해에 대응, 유형은 X2Y2Z2+6XYZX^2Y^2Z^2 + 6XYZ.

3. 등거리 군 작용(Isotropy Group Action)

정리 2.1: 행렬 곱셈 텐서의 등거리 군: psl±(Rm)×psl±(Rk)×psl±(Rn)S3\text{psl}_{\pm}(R^m) \times \text{psl}_{\pm}(R^k) \times \text{psl}_{\pm}(R^n) \rtimes S_3

정의 2.2: 등거리 g=(U×V×W)g = (U \times V \times W)의 계수 1 텐서 ABCA \otimes B \otimes C에 대한 작용: (UTAVT)(VTBWT)(WTCUT)(U^{-T} \cdot A \cdot V^T) \otimes (V^{-T} \cdot B \cdot W^T) \otimes (W^{-T} \cdot C \cdot U^T)

이는 텐서 계수를 불변으로 유지하지만 계수를 변경한다.

핵심 알고리즘 구성

핵심 등거리 변환

본 논문의 핵심 혁신은 특정 등거리 변환(식 24) 발견: [I00I01I00I101001][I0010II00II0I001][1000010000100001]\begin{bmatrix} I & 0 & 0 & I \\ 0 & 1 & I & 0 \\ 0 & -I & -1 & 0 \\ -1 & 0 & 0 & 1 \end{bmatrix} \otimes \begin{bmatrix} I & 0 & 0 & 1 \\ 0 & -I & -I & 0 \\ 0 & -I & I & 0 \\ -I & 0 & 0 & 1 \end{bmatrix} \otimes \begin{bmatrix} 1 & 0 & 0 & 0 \\ 0 & 1 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \end{bmatrix}

여기서 II는 허수 단위.

유리수 계수 텐서 분해

위의 등거리 적용 후, 48개의 계수 1 텐서 분해 획득(식 25-72), 각각 형태: mi=(j,kαjk(i)ajk)(j,kβjk(i)bjk)(j,kγjk(i)cjk)m_i = \left(\sum_{j,k} \alpha_{jk}^{(i)} a_{jk}\right) \otimes \left(\sum_{j,k} \beta_{jk}^{(i)} b_{jk}\right) \otimes \left(\sum_{j,k} \gamma_{jk}^{(i)} c_{jk}\right)

핵심 특성:

  • 모든 계수 α,β,γ{1,12,0,12,1}\alpha, \beta, \gamma \in \{-1, -\frac{1}{2}, 0, \frac{1}{2}, 1\} (유리수)
  • 텐서 유형: 16X2Y2Z2+32XYZ16X^2Y^2Z^2 + 32XYZ (16개 계수 2×2×2, 32개 계수 1×1×1)
  • 분모는 2, 4, 8의 거듭제곱만 포함

예시: 첫 번째 곱셈 항

m1=14(i,j(1)i+j+1aij)(b31+b41)(cterms)m_1 = \frac{1}{4}\left(\sum_{i,j} (-1)^{i+j+1} a_{ij}\right) \otimes (b_{31} + b_{41}) \otimes \left(\sum c_{terms}\right)

LRP 행렬 표현

알고리즘은 세 개의 행렬 (L,R,P)(L, R, P)로 간결하게 표현 가능:

  • LR48×16L \in R^{48 \times 16}: AA의 원소에서 48개의 좌측 피연산자로의 선형 변환
  • RR48×16R \in R^{48 \times 16}: BB의 원소에서 48개의 우측 피연산자로의 선형 변환
  • PR16×48P \in R^{16 \times 48}: 48개의 곱에서 CC의 원소로의 선형 변환

계산 흐름: vec(C)=P(Lvec(A)Rvec(B))\text{vec}(C) = P \cdot (L \cdot \text{vec}(A) \odot R \cdot \text{vec}(B))

여기서 \odot는 원소별 곱셈(Hadamard 곱).

기술적 혁신점

  1. 체계화된 대칭성 활용: 시행착오 탐색이 아닌 안정자 부분군 (C2×D4)C2(C_2 \times D_4) \rtimes C_2와 이론 기반 추측을 활용하여 등거리 변환 발견
  2. 복소수에서 유리수로의 투영: 고차원 복소수 공간에서 발견된 알고리즘을 유리수 부분공간으로 투영 가능함을 증명, 이는 비자명한 결과
  3. 직선 프로그램 최적화:
    • PLinOpt 도구를 사용한 최적화된 직선 프로그램 자동 생성
    • 핵 분해(kernel decomposition)를 통한 연산 횟수 감소
    • RR 행렬 계수가 단순해도 최적 SLP는 비자명한 곱셈 필요 가능
  4. 대체 기저 방법: 기저 변환(change of basis)을 통한 추가 단순화, 연산을 336개로 감소(원래 341개 대비)

실험 설정

구현 도구

  • PLinOpt 라이브러리: 선형 및 쌍선형 프로그램 최적화를 처리하는 C++ 루틴 모음
  • 코드 규모: 약 8.09 kSLOC (천 줄 소스 코드)
  • 오픈소스: 모든 행렬과 코드가 GitHub에서 공개

데이터 파일

알고리즘의 다양한 표현 저장:

  • 4x4x4_48_rational_L.sms, _R.sms, _P.sms: 표준 LRP 표현
  • 4x4x4_48_rational-ALT_*.sms: 대체 기저 표현
  • 4x4x4_48_rational-CoB_*.sms: 기저 변환 행렬

평가 지표

  1. 텐서 계수: 필요한 스칼라 곱셈 횟수(48)
  2. 총 연산 수: 덧셈과 이동 연산의 총 개수
  3. 점근 복잡도: O(nlog43)O(n2.792)O(n^{\log_4 3}) \approx O(n^{2.792})
  4. 상수항: 주도 상수 및 저차항 계수

실험 결과

주요 결과

표준 직선 프로그램(목록 1-4)

연산 분해:

  • LL 행렬: 104번 덧셈
  • RR 행렬: 84번 덧셈 + 1번 곱셈(이진 이동)
  • PP 행렬: 119번 덧셈 + 33번 곱셈(이진 이동)
  • 총계: 341개 연산

복잡도 한계: (1+3414816)n2+log4334132n211.65625n2.79210.65625n2\left(1 + \frac{341}{48-16}\right)n^{2+\log_4 3} - \frac{341}{32}n^2 \approx 11.65625n^{2.792} - 10.65625n^2

대체 기저 변형(부록 C)

연산 분해:

  • LaltL_{alt}: 1번 덧셈
  • RaltR_{alt}: 2번 덧셈
  • PaltP_{alt}: 3번 덧셈
  • 총계: 6개 연산

기저 변환 오버헤드:

  • CoB_L: 103번 덧셈
  • CoB_R: 79번 덧셈 + 5번 곱셈
  • CoB_P: 116번 덧셈 + 33번 곱셈
  • 총계: 336개 연산

복잡도 한계: 7n2.792+33631(nlog447n2)=7n2.792+o(n2.792)7n^{2.792} + \frac{336}{31}(n^{\log_4 47} - n^2) = 7n^{2.792} + o(n^{2.792})

기존 방법과의 비교

방법곱셈 횟수계수 체적용 환복잡도 상수
Strassen (2층)49유리수임의-
Fawzi 등 547유리수특성 2-
AlphaEvolve 1148복소수복소수 체-
본 논문(표준)48유리수12\frac{1}{2} 포함 환11.66
본 논문(대체 기저)48유리수12\frac{1}{2} 포함 환7.00

핵심 발견

  1. 존재성 증명: AlphaEvolve 알고리즘의 등거리 궤도에 유리수 점이 실제로 존재함을 증명, 이는 자명하지 않음
  2. 계수 단순성: 모든 계수가 {1,12,0,12,1}\{-1, -\frac{1}{2}, 0, \frac{1}{2}, 1\}로 구현이 용이
  3. 최적화 역설: RR 행렬 계수가 {1,0,1}\{-1, 0, 1\}만 포함하지만 최적 직선 프로그램은 여전히 비자명한 곱셈 필요(핵 분해로 인해)
  4. 대체 기저 장점: 기저 변환을 통해 주도 상수를 11.66에서 7.00으로 감소 가능, 대가는 o(n2.792)o(n^{2.792})의 기저 변환 오버헤드

관련 연구

빠른 행렬 곱셈 역사

  1. Strassen (1969): 최초 O(n2.81)O(n^{2.81}) 알고리즘, 2×2 행렬 곱셈에 7번 곱셈
  2. de Groote (1978): 등거리 군과 최적 알고리즘의 대수 기하학 연구
  3. 정리 2.2: 모든 7번 곱셈의 2×2 알고리즘이 단일 궤도를 형성함을 증명

최근 진전

  1. Fawzi 등 (2022) 5: 강화학습을 사용하여 특성 2에서 47번 곱셈 알고리즘 발견
  2. Kaporin (2024) 8: 비선형 최소제곱을 사용한 Brent 방정식의 복소수 해 풀이
  3. AlphaEvolve (2025) 11: 대형 언어 모델과 진화 에이전트를 사용하여 48번 곱셈(복소수)과 63번 곱셈(3×4×7) 알고리즘 발견

수치 안정성 연구

  • Dumas 등 (2024) 2: Strassen 알고리즘의 수치 정확도 연구, 완벽한 정확도가 아님을 발견
  • 본 논문 알고리즘의 수치 분석은 아직 미완료

본 논문의 장점

  1. 이론적 엄밀성: 순수 휴리스틱 탐색이 아닌 등거리 군 이론 기반
  2. 일반성: 유리수 계수로 더 광범위한 대수 구조에 적용 가능
  3. 재현 가능성: 완전한 행렬 표현과 오픈소스 구현

결론 및 논의

주요 결론

  1. AlphaEvolve의 복소수 알고리즘을 유리수 알고리즘으로 성공적으로 변환, 48번 곱셈 유지
  2. 등거리 군 작용은 알고리즘 공간을 체계적으로 탐색하는 효과적인 도구
  3. 두 가지 구현 제공: 표준판(341 연산)과 대체 기저판(6+336 연산)
  4. 알고리즘은 12\frac{1}{2}를 포함하는 모든 환에 적용 가능, 응용 범위 확장

한계

  1. 환의 제한: 2가 가역이어야 함, 특성 2 체에 부적합
  2. 큰 상수항: 표준판 상수 11.66이 크므로 충분히 큰 행렬에서만 유리
  3. 수치 안정성 미지: 2와 유사한 수치 정확도 분석 미완료
  4. 비구성적: 등거리 변환 발견은 여전히 "educated guesses"에 의존, 완전 자동화 미달성

향후 방향

  1. 3×4×7 알고리즘: 쌍둥이 논문3에서 AlphaEvolve의 다른 복소수 알고리즘 처리
  2. 수치 분석: 오차 전파 및 조건수 연구
  3. 자동화 발견: 등거리 변환 자동 탐색 방법 개발
  4. 다른 차원: 5×5, 3×3×3 등에 동일 방법 적용
  5. 실제 성능: 캐시, 병렬화 등을 고려한 실제 하드웨어 성능 테스트

심층 평가

장점

1. 이론적 기여 현저함

  • 중요한 공백 해결: AlphaEvolve 알고리즘의 복소수 계수 제한이라는 실제 문제 해결
  • 방법론 혁신: 등거리 군 이론의 체계적 적용, 복소수에서 유리수로의 이론적 경로 제공
  • 수학적 엄밀성: Landsberg의 텐서 기하학 이론 기반, 견고한 대수 기하학 토대

2. 실용 가치 높음

  • 완전한 구현: 직선 프로그램과 LRP 행렬 제공, 직접 사용 가능
  • 오픈소스 재현 가능: 모든 데이터와 코드가 PLinOpt 라이브러리에서 공개
  • 광범위한 적용성: 유리수 계수로 정수, 유리수, 유한체(홀수 특성) 등에서 사용 가능

3. 기술 세부 사항 충분함

  • 완전한 알고리즘 표시: 식 25-72에서 모든 48개 곱셈항 상세 나열
  • 다양한 표현: 삼선형 형식, LRP 행렬, 직선 프로그램 등 다양한 표현 제공
  • 최적화 전략: 핵 분해 및 대체 기저 등 최적화 기법 시연

4. 명확한 작성

  • 충분한 배경 소개: Strassen 알고리즘에서 텐서 분해 이론까지 단계적 도입
  • 풍부한 예시: 예시 2.1에서 등거리가 복소수를 어떻게 도입하는지 시연
  • 체계화된 기호: 명확한 정의, 일관된 기호

부족한 점

1. 방법의 한계

  • 등거리 변환 발견: "educated guesses" 사용 인정, 체계화된 탐색 방법 부족
  • 안정자 부분군 의존: 안정자 부분군 (C2×D4)C2(C_2 \times D_4) \rtimes C_2를 이미 알아야 함, 새로운 문제에 적용 어려울 수 있음
  • 특성 제한: 특성 2 체에 부적합(Fawzi의 47번 알고리즘이 오히려 적용 가능)

2. 실험 분석 부족

  • 실제 성능 테스트 부재: 실제 하드웨어에서 실행 시간 테스트 미실시
  • 수치 안정성 분석 없음: 이것이 미래 작업임을 인정하지만 실제 응용에 중요
  • 상수항 비교 부족: 다른 알고리즘의 상수항과 정량적 비교 미실시

3. 이론적 깊이

  • 존재성 증명 불완전: 유리수 점 하나만 제시, 유일성이나 최적성 증명 미실시
  • 궤도 구조 미탐색: 궤도 내 유리수 점의 위치, 개수 등 미논의
  • 하한 미포함: 4×4 행렬 곱셈의 이론적 하한 미논의(<48 가능 여부)

4. 표현 세부 사항

  • 복잡한 기호: 많은 아래첨자와 텐서 기호로 비전문가에게 불친화적
  • 코드 가독성: 직선 프로그램(목록 1-4)에 주석 부족
  • 행렬 표시: 부록 B의 대규모 행렬은 구조 직관적 이해 어려움

영향력

분야에 대한 기여

  1. 이론과 실제의 교량: AI 발견 알고리즘을 수학 이론으로 변환하여 사용 가능한 형태로 제시
  2. 방법론 시범: 알고리즘 최적화에서 등거리 군 이론의 실제 응용 시연
  3. 후속 연구 영감: 다른 AI 발견 복소수 알고리즘 처리를 위한 템플릿 제공

실용 가치

  1. 중간 수준: 상수항이 크므로(11.66) 대규모 행렬(n>100n > 100)에서만 유리
  2. 특정 분야: 정확한 유리수 계산이 필요한 기호 계산 시스템에서 더 높은 가치
  3. 교육 가치: 텐서 분해 및 등거리 군 이론 응용의 우수 사례

재현 가능성

  • 우수: 완전한 행렬, 코드 및 도구 체인 공개
  • 사용 용이성: PLinOpt 라이브러리가 직선 프로그램 자동 생성 도구 제공
  • 문서 완전성: 부록에서 모든 데이터 파일 위치 상세 나열

적용 시나리오

이상적 응용 시나리오

  1. 기호 계산 시스템: Maple, Mathematica 등의 정확한 행렬 연산
  2. 유한체 계산: 홀수 특성 유한체의 선형대수
  3. 대규모 행렬: 재귀 적용을 통한 n128n \geq 128 행렬
  4. 이론 연구: 빠른 알고리즘 및 텐서 계수 연구 도구

부적합 시나리오

  1. 소규모 행렬: 단일 4×4 행렬의 경우 상수항이 작은 소박한 알고리즘(64번 곱셈)이 더 빠를 수 있음
  2. 부동소수점 계산: 수치 안정성 미지, 전통 알고리즘보다 성능 저하 가능
  3. 특성 2 체: Fawzi의 47번 알고리즘이 더 우수
  4. 하드웨어 가속: 현대 GPU 최적화 행렬 곱셈이 더 빠를 수 있음

참고 문헌

핵심 인용

  1. 13 Strassen (1969): "Gaussian elimination is not optimal" - 빠른 행렬 곱셈의 기초 작업
  2. 6,7 de Groote (1978): 등거리 군 이론의 원본 논문
  3. 11 Novikov 등 (2025): AlphaEvolve - 본 논문이 개선한 원본 복소수 알고리즘
  4. 10 Landsberg (2016): "Geometry and complexity theory" - 이론적 토대
  5. 2 Dumas 등 (2024): Strassen 알고리즘의 수치 정확도 분석

관련 연구

  • 5 Fawzi 등 (2022): 강화학습 발견 47번 알고리즘(특성 2)
  • 9 Karstadt & Schwartz (2017): 행렬 곱셈의 다른 최적화
  • 4 Dumas 등 (2025): 빠른 정확 알고리즘 자동 생성 방법
  • 3 Dumas 등 (2025): 3×4×7 행렬의 63번 곱셈 알고리즘(쌍둥이 논문)

종합 평가

이는 높은 품질의 이론 컴퓨터 과학 논문으로, AI 발견 복소수 영역 알고리즘을 유리수 영역 알고리즘으로 성공적으로 변환하여 중요한 이론적 의의와 일정한 실용 가치를 갖는다. 논문의 주요 장점:

  1. 실제 문제 해결: AlphaEvolve의 복소수 계수 제한이라는 응용 범위 제약 해결
  2. 엄밀한 방법: 성숙한 텐서 분해 및 등거리 군 이론 기반
  3. 완전한 구현: 재현 가능한 오픈소스 구현 제공

주요 부족한 점:

  1. 등거리 변환 발견이 여전히 인간의 추측에 의존
  2. 실제 성능 및 수치 안정성 분석 부재
  3. 큰 상수항으로 인한 실용성 제한

추천 지수: ⭐⭐⭐⭐ (4/5)
기호 계산, 텐서 분해, 빠른 알고리즘에 관심 있는 연구자에게 적합. 실제 응용의 경우 구체적 시나리오에 따라 전통 방법 대비 우위 여부를 평가해야 함.