2025-11-13T04:07:09.837900

Optimal Quantization for Matrix Multiplication

Ordentlich, Polyanskiy

Recent work in machine learning community proposed multiple methods for performing lossy compression (quantization) of large matrices. This quantization is important for accelerating matrix multiplication (main component of large language models), which is often bottlenecked by the speed of loading these matrices from memory. Unlike classical vector quantization and rate-distortion theory, the goal of these new compression algorithms is to be able to approximate not the matrices themselves, but their matrix product. Specifically, given a pair of real matrices $A,B$ an encoder (compressor) is applied to each of them independently producing descriptions with $R$ bits per entry. These representations subsequently are used by the decoder to estimate matrix product $A^\top B$. In this work, we provide a non-asymptotic lower bound on the mean squared error of this approximation (as a function of rate $R$) for the case of matrices $A,B$ with iid Gaussian entries. Algorithmically, we construct a universal quantizer based on nested lattices with an explicit guarantee of approximation error for any (non-random) pair of matrices $A$, $B$ in terms of only Frobenius norms $\|\bar{A}\|_F, \|\bar{B}\|_F$ and $\|\bar{A}^\top \bar{B}\|_F$, where $\bar{A},\bar{B}$ are versions of $A,B$ with zero-centered columns, respectively. For iid Gaussian matrices our quantizer achieves the lower bound and is, thus, asymptotically optimal. A practical low-complexity version of our quantizer achieves performance quite close to optimal. In addition, we derive rate-distortion function for matrix multiplication of iid Gaussian matrices, which exhibits an interesting phase-transition at $R\approx 0.906$ bit/entry, showing necessity of Johnson-Lindestrauss dimensionality reduction (sketching) in the low-rate regime.

academic

التكميم الأمثل لضرب المصفوفات

المعلومات الأساسية

معرّف الورقة: 2410.13780
العنوان: التكميم الأمثل لضرب المصفوفات
المؤلفون: Or Ordentlich (جامعة العبرية في القدس)، Yury Polyanskiy (معهد ماساتشوستس للتكنولوجيا)
التصنيف: cs.IT cs.AI cs.CL cs.LG math.IT
وقت النشر: أكتوبر 2024 (نسخة arXiv التمهيدية)
رابط الورقة: https://arxiv.org/abs/2410.13780

الملخص

تتناول هذه الورقة دراسة معمقة لمشكلة التكميم في ضرب المصفوفات الكبيرة الحجم. على عكس التكميم المتجهي التقليدي، لا يهدف هذا البحث إلى تقريب المصفوفات نفسها، بل تقريب حاصل ضربها. بالنظر إلى مصفوفتين حقيقيتين A و B، يقوم المشفّر بضغط كل مصفوفة بشكل مستقل، حيث يتم وصف كل عنصر باستخدام R بت، ثم يستخدم فك التشفير هذه التمثيلات المضغوطة لتقدير حاصل الضرب A⊤B. تقدم الورقة حدوداً سفلية غير متقاربة لمتوسط الخطأ التربيعي للمصفوفات ذات العناصر الغاوسية المستقلة والموزعة بشكل متطابق، وتبني مكممات عامة قائمة على الشبكات المتداخلة، وتكتشف ظاهرة انتقال طور مثيرة للاهتمام عند R ≈ 0.906 بت/عنصر، مما يشير إلى الحاجة إلى تقنيات تقليل الأبعاد Johnson-Lindenstrauss في حالات معدل الترميز المنخفض.

خلفية البحث والدافع

تعريف المشكلة

مع ظهور الشبكات العصبية العميقة ونماذج اللغة الكبيرة، أصبح ضرب المصفوفات عنق الزجاجة الرئيسي في الحسابات. غالباً ما تكون أجهزة الحوسبة الحديثة محدودة بعرض النطاق الترددي للذاكرة وليس بقدرة الحوسبة. لذلك، أصبح ضغط المصفوفات بشكل فقدان لتقليل نقل الذاكرة مشكلة مهمة.

الاحتياجات العملية

بالنسبة لنماذج اللغة الكبيرة، قدّر المؤلفون معدل التكميم المطلوب:

في مرحلة التوليد، يحتاج المعالج إلى معدل تكميم 1-3 بت/عنصر للاستفادة الكاملة من موارد الحوسبة
في مرحلة ملء البيانات المسبقة، بالنسبة لنماذج اللغة الصغيرة التي تعمل على وحدات معالجة الرسومات السريعة، يلزم معدل تكميم يبلغ حوالي 11.7 بت/عنصر

قيود الطرق الموجودة

التكميم المتجهي الكلاسيكي: يؤدي التكميم المستقل المباشر للمصفوفات A و B ثم حساب حاصل ضرب المصفوفات المكممة إلى خطأ O(n²)
طرق الرسم: على الرغم من توفيرها تقديرات غير متحيزة، إلا أن التباين لا يزال O(n²)
المكممات الحتمية: توجد حدود سفلية Ω(n²) للمتجهات على الكرة

المساهمات الأساسية

الحدود النظرية السفلية: توفير حدود سفلية غير متقاربة لتكميم ضرب المصفوفات للمصفوفات ذات العناصر الغاوسية المستقلة والموزعة بشكل متطابق
مكمم عام: بناء مكمم عام قائم على الشبكات المتداخلة مع ضمانات خطأ واضحة لأي مصفوفة
الأمثلية المقاربة: إثبات أن المكمم المقترح يحقق الحد الأدنى لمصفوفات iid الغاوسية، وبالتالي فهو أمثل بشكل مقارب
ظاهرة الانتقال: اكتشاف انتقال طور عند R ≈ 0.906 بت/عنصر، مما يكشف عن ضرورة تقليل الأبعاد في معدل الترميز المنخفض
خوارزميات عملية: توفير تطبيقات منخفضة التعقيد قريبة من الأداء الأمثل

شرح الطريقة

تعريف المهمة

بالنظر إلى المصفوفات A ∈ R^(n×a) و B ∈ R^(n×b)، الهدف هو تصميم المشفّرات f₁: R^(n×a) → 2^(naR) و f₂: R^(n×b) → 2^(nbR) وفك التشفير g بحيث:

$E\|A^⊤B - g(f_1(A), f_2(B))\|_F^2$

يتم تقليله، حيث يتم وصف كل عنصر مصفوفة باستخدام R بت.

دالة المعدل-التشويه الأساسية Γ(R)

تعرّف الورقة دالة المعدل-التشويه الحرجة: