2025-11-12T00:34:29.273016

Shifting AI Efficiency From Model-Centric to Data-Centric Compression

Liu, Wen, Wang et al.

The advancement of large language models (LLMs) and multi-modal LLMs (MLLMs) has historically relied on scaling model parameters. However, as hardware limits constrain further model growth, the primary computational bottleneck has shifted to the quadratic cost of self-attention over increasingly long sequences by ultra-long text contexts, high-resolution images, and extended videos. In this position paper, \textbf{we argue that the focus of research for efficient artificial intelligence (AI) is shifting from model-centric compression to data-centric compression}. We position data-centric compression as the emerging paradigm, which improves AI efficiency by directly compressing the volume of data processed during model training or inference. To formalize this shift, we establish a unified framework for existing efficiency strategies and demonstrate why it constitutes a crucial paradigm change for long-context AI. We then systematically review the landscape of data-centric compression methods, analyzing their benefits across diverse scenarios. Finally, we outline key challenges and promising future research directions. Our work aims to provide a novel perspective on AI efficiency, synthesize existing efforts, and catalyze innovation to address the challenges posed by ever-increasing context lengths.

academic

تحويل كفاءة الذكاء الاصطناعي من الضغط الموجه للنموذج إلى الضغط الموجه للبيانات

المعلومات الأساسية

معرّف البحث: 2505.19147
العنوان: تحويل كفاءة الذكاء الاصطناعي من الضغط الموجه للنموذج إلى الضغط الموجه للبيانات
المؤلفون: Xuyang Liu, Zichen Wen, Shaobo Wang, Junjie Chen, Zhishan Tao, Yubo Wang, Tailai Chen, Xiangqi Jin, Chang Zou, Yiyu Wang, Chenfei Liao, Xu Zheng, Honggang Chen, Weijia Li, Xuming Hu, Conghui He, Linfeng Zhang
التصنيف: cs.CL, cs.AI, cs.CV
تاريخ النشر/المؤتمر: ورقة arXiv (يناير 2025)
رابط البحث: https://arxiv.org/abs/2505.19147

الملخص

مع تطور نماذج اللغة الكبيرة (LLMs) والنماذج اللغوية متعددة الأنماط (MLLMs)، تواجه الطرق التقليدية التي تعتمد على توسيع معاملات النموذج لتحسين الأداء قيوداً في الأجهزة. تحول الاختناق الحسابي الرئيسي من حجم النموذج إلى التعقيد التربيعي لآلية الانتباه الذاتي عند معالجة السياقات النصية الطويلة جداً والصور عالية الدقة والفيديوهات الطويلة. تقترح هذه الورقة أن يتحول التركيز في أبحاث كفاءة الذكاء الاصطناعي من الضغط الموجه للنموذج إلى الضغط الموجه للبيانات. يحسّن الضغط الموجه للبيانات كفاءة الذكاء الاصطناعي من خلال ضغط مباشر لحجم البيانات المعالجة أثناء التدريب أو الاستدلال. تؤسس الورقة إطاراً موحداً لاستراتيجيات الكفاءة، وتستعرض بشكل منهجي مشهد طرق الضغط الموجه للبيانات، وتحلل مزاياها في سيناريوهات مختلفة، وتحدد التحديات الرئيسية والاتجاهات البحثية المستقبلية.

خلفية البحث والدافع

تعريف المشكلة

المشكلة الأساسية التي تعالجها هذه الورقة هي: كيفية التعامل الفعال مع تحديات الكفاءة الحسابية الناشئة عن النمو الحاد في طول السياق الذي تعالجه نماذج الذكاء الاصطناعي.

تحليل الأهمية

التغيرات في الاتجاهات التكنولوجية: من 2022-2024، اعتمد تحسن أداء الذكاء الاصطناعي بشكل أساسي على توسيع حجم النموذج، لكن بحلول عام 2024 تباطأ نمو حجم النموذج (حوالي 1 تريليون معامل)، بينما استمر طول السياق في النمو الأسي
تحول الاختناق الحسابي: تحول الحمل الحسابي الرئيسي من النمو الخطي للمعاملات إلى التعقيد التربيعي O(n²) لآلية الانتباه الذاتي
الاحتياجات عبر المجالات: تحتاج نماذج اللغة إلى معالجة سلاسل استدلال أطول، وتحتاج نماذج الرؤية إلى معالجة صور بدقة أعلى وفيديوهات أطول، وتحتاج نماذج التوليد إلى إنشاء محتوى بجودة أعلى

قيود الطرق الموجودة

تركز طرق الضغط الموجه للنموذج التقليدية (التكميم، القص، التقطير، التحليل منخفض الرتبة) بشكل أساسي على تحسين معاملات النموذج W، لكنها لا تستطيع التعامل الفعال مع التحديات الناشئة عن نمو طول السياق. تتطلب هذه الطرق معالجة البيانات المدخلة الكاملة X حتى عند التعامل مع التسلسلات الطويلة، ولا تحل المشكلة الأساسية للتعقيد التربيعي.

الدافع البحثي

بناءً على تحليل عميق لاتجاهات تطور الذكاء الاصطناعي، يقترح المؤلفون الضغط الموجه للبيانات كنموذج ناشئ، يعالج تحديات السياق الطويل من خلال تقليل مباشر لحجم البيانات المعالجة، مع توفير عمومية وكفاءة وتوافقية أفضل.

المساهمات الأساسية

تحليل تحول النموذج: تحليل التحول الرئيسي في أبحاث كفاءة الذكاء الاصطناعي من الاختناق الحسابي الموجه للمعاملات إلى الموجه للسياق، والحجة لصالح ضرورة تحول نموذج تحسين الكفاءة
إطار نظري موحد: إنشاء إطار تعبير رياضي موحد يغطي تصميم الهندسة المعمارية والضغط الموجه للنموذج والضغط الموجه للبيانات
استعراض منهجي: إجراء بحث شامل عن طرق الضغط الموجه للبيانات، وبناء إطار تصنيف موحد، وتحليل المزايا في سيناريوهات مختلفة
التحديات والاتجاهات: تحليل عميق للتحديات الحالية واقتراح اتجاهات بحثية واعدة، بهدف تحفيز الابتكار في هذا المجال

شرح الطريقة

تعريف المهمة

يهدف الضغط الموجه للبيانات إلى تحويل تسلسل الإدخال الأصلي X إلى تمثيل مضغوط X' من خلال عملية ضغط Φ، بحيث يكون |X'| < |X|، مع الحفاظ على أداء النموذج قدر الإمكان.

الإطار الموحد

بالنظر إلى بيانات الإدخال X ومعاملات الشبكة W، يكون الإخراج للشبكة العصبية F:

Y = F(W, X)

يمكن إجراء تحسين الكفاءة من ثلاث زوايا:

هندسة معمارية حسابية فعالة (F): تصميم هندسة معمارية بتعقيد خطي أو دون تربيعي
الضغط الموجه للنموذج (W): W' = Γ(W), |W'| < |W|
الضغط الموجه للبيانات (X): X' = Φ(X), |X'| < |X|

هندسة معمارية الضغط الموجه للبيانات

معايير الضغط (E)

الطرق المعاملية:

طرق التدريب الواعية: تحسين معاملات إضافية Δθ من خلال التدريب لتعلم دالة التصنيف
طرق التدريب غير الواعية: استخدام الشبكة المدربة مسبقاً مباشرة كدالة تصنيف

الطرق غير المعاملية:

طرق الحساب الجوهري: استخدام الحسابات الداخلية للنموذج (مثل أوزان الانتباه) لتصنيف الرموز
طرق الحساب الخارجي: تصميم مقاييس إضافية لتقييم العلاقات بين الرموز

استراتيجيات الضغط (P)

قص الرموز: حذف الرموز ذات الأهمية المنخفضة مباشرة

X' = X \ {xt | st < τ}

دمج الرموز: دمج الرموز من خلال التشابه الدلالي

x'_m = Σ(t:π(t)=m) wt * xt, wt = st / Σ(t':π(t')=m) st'

نقاط الابتكار التقني

كفاءة ثنائية المرحلة: تسريع مراحل التدريب والاستدلال معاً
التوافقية المعمارية: متعامدة مع طرق الضغط الموجودة، يمكن دمجها بسلاسة
الفوائد التربيعية: الاستفادة من التعقيد O(n²) للانتباه الذاتي للحصول على توفير حسابي كبير
القابلية العامة للتطبيق: اتساق الرموز الزائدة عبر الأنماط والمهام
تكلفة التنفيذ المنخفضة: تدعم الهندسة المعمارية الحديثة المدخلات ذات الطول المتغير، بدون الحاجة إلى إعادة التدريب

إعداد التجارب

مجموعات البيانات والتقييم

تتحقق الورقة من فعالية طرق الضغط الموجه للبيانات من خلال التجارب في مجالات متعددة:

مهام الاستدلال المعقدة:

MATH-500, AIME24, GSM8K
النموذج: DeepSeek-R1-Distill-Llama-8B
ميزانية ذاكرة التخزين المؤقت KV: 1024 رمز

مهام فهم الصور:

GQA, MMB, MMB-CN
النموذج: LLaVA-1.5-7B
الاحتفاظ بـ 25% من رموز الرؤية

مهام فهم الفيديو:

MVBench, MLVU, VideoMME
النموذج: LLaVA-OneVision-7B
الاحتفاظ بـ 15% من رموز الرؤية

مهام توليد الصور:

النموذج: FLUX.1-dev (قائم على DiT)
دورة التخزين المؤقت N=4، النسبة R=90%

طرق المقارنة

طرق ذاكرة التخزين المؤقت KV: H2O, SnapKV, KNorm
طرق ضغط الرؤية: FastV, SparseVLM, PDrop
الطرق الأساسية: الحذف العشوائي، التجميع

نتائج التجارب

الاكتشافات الرئيسية

كشفت التجارب عن ظاهرة غير متوقعة: الطرق المصممة بعناية تؤدي أداءً أسوأ من الحذف العشوائي في سيناريوهات متعددة.

مهام الاستدلال المعقدة

على AIME24، يتفوق الحذف العشوائي على SnapKV بدقة أعلى بـ 10%
يبقى H2O و SnapKV و KNorm باستمرار أقل من الحذف العشوائي

مهام فهم الصور

يتفوق الحذف العشوائي والتجميع على بعض الطرق المصممة
تخفف الموحدية المكانية من انحياز الموقع في الطرق القائمة على الانتباه

مهام فهم الفيديو

حتى عند الاحتفاظ بـ 15% فقط من الرموز، يتفوق الحذف العشوائي على الطرق المصممة
التوزيع الموحد للرموز الزمكانية ضروري لتمثيل الفيديو

مهام توليد الصور

جميع الاستراتيجيات القائمة على الميزات تحقق درجات أقل من الاختيار العشوائي
يؤدي تجميع الرموز المتشابهة إلى أسوأ جودة توليد

تحليل الأداء

يحقق الضغط الموجه للبيانات فوائد كبيرة من حيث الحساب والذاكرة:

التعقيد الحسابي: Ω(X')/Ω(X) = O(m²/n²) استخدام الذاكرة: M(X')/M(X) ≈ m/n تحسين ذاكرة التخزين المؤقت KV: MKV(X')/MKV(X) = m/n

الأعمال ذات الصلة

تصنيف طرق تحسين الكفاءة

الهندسة المعمارية الفعالة: Linear Attention, RWKV, State Space Models (Mamba)
ضغط النموذج: القص، التكميم، التقطير، التحليل منخفض الرتبة
ضغط البيانات: ضغط مجموعات البيانات، ضغط الرموز

موضع مساهمة هذه الورقة

أول من يحدد الضغط الموجه للبيانات بشكل منهجي كنموذج جديد لكفاءة الذكاء الاصطناعي
بناء إطار نظري موحد يدمج استراتيجيات الكفاءة المختلفة
توفير تحليل شامل وتقييم عبر المجالات

الخلاصة والمناقشة

الاستنتاجات الرئيسية

تحول النموذج: يجب أن ينتقل التركيز في أبحاث كفاءة الذكاء الاصطناعي من الضغط الموجه للنموذج إلى الضغط الموجه للبيانات
قيود الطريقة: تعاني طرق الضغط الحالية القائمة على الانتباه من مشاكل أساسية مثل انحياز الموقع
مبادئ التصميم: الموحدية المكانية والزمنية هي مبادئ تصميم رئيسية للضغط الفعال

التحديات الحالية

مشكلة تدهور الأداء

الاختناق المنهجي: انحياز الموقع في درجات الانتباه يؤثر على فعالية الضغط
القيود الجوهرية: بعض المهام (مثل تحديد الموقع البصري، تحليل OCR) حساسة للضغط

عدم الكفاية في تمثيل البيانات

لا تستطيع طرق الزيادة والأهمية ضمان تمثيل أمثل للنمذجة اللاحقة
نقص الاعتبار لاستقرار بنية التسلسل والأنماط الدلالية

عدالة التقييم

لا يمكن لـ FLOPs ونسبة الضغط أن تعكس بدقة تأثير التسريع الفعلي
نقص المعايير المتخصصة للضغط

الاتجاهات المستقبلية

ضغط البيانات والنموذج المتعاون

التكامل المرحلي: ضغط النموذج أولاً ثم ضغط البيانات
التعزيز المتبادل: استخدام معلومات التدرج لتوجيه اختيار الرموز، واستخدام تطور الرموز لتوجيه قص الطبقات

معايير تقييم متخصصة

تغطية المهام عبر المجالات (معالجة اللغة الطبيعية، الرؤية الحاسوبية، متعدد الأنماط)
المهام الحساسة للضغط (OCR, ASR)
التقييم المشترك للأداء والكمون

التقييم المتعمق

المزايا

الرؤى الاستشرافية: تحديد دقيق للتحول الرئيسي في اتجاهات تطور الذكاء الاصطناعي، واقتراح نموذج بحثي استشرافي
المساهمات النظرية: بناء إطار رياضي موحد يوفر أساساً نظرياً لاستراتيجيات الكفاءة المختلفة
التحليل الشامل: تصنيف منهجي وتحليل الطرق عبر مجالات وعمليات متعددة
الاكتشافات التجريبية: الكشف من خلال تجارب واسعة عن المشاكل الأساسية للطرق الحالية، مما يوفر رؤى مهمة لتطور المجال
جودة الكتابة: منطق واضح، تعبير دقيق، رسوم بيانية غنية، سهلة الفهم

أوجه القصور

عمق النظرية: على الرغم من توفير إطار موحد، فإن التحليل النظري للضغط الموجه للبيانات ليس عميقاً بما يكفي
الابتكار في الطريقة: العمل استعراضي بشكل أساسي، يفتقر إلى اقتراح طرق جديدة محددة
نطاق التجارب: تركز التجارب بشكل أساسي على التحقق من مشاكل الطرق الموجودة، وتفتقر إلى استكشاف الحلول
التحليل الكمي: التحليل النظري للتعقيد الحسابي لطرق الضغط المختلفة ليس مفصلاً بما يكفي

التأثير

المساهمة في المجال: توفير أفكار واتجاهات جديدة لأبحاث كفاءة الذكاء الاصطناعي، قد تقود تحول التركيز البحثي في المجال
القيمة العملية: نتائج التحليل ذات أهمية توجيهية كبيرة للنشر الفعلي، خاصة في البيئات ذات الموارد المحدودة
قابلية التكرار: توفير إعدادات تجريبية مفصلة ومشاريع github، مما يسهل البحث اللاحق
الإلهام: الكشف عن المشاكل والاتجاهات المقترحة توفر خريطة طريق واضحة للبحث المستقبلي

السيناريوهات المعمول بها

تطبيقات السياق الطويل: مناسبة بشكل خاص للسيناريوهات التي تتطلب معالجة نصوص طويلة أو صور عالية الدقة أو فيديوهات طويلة
البيئات ذات الموارد المحدودة: ذات قيمة مهمة في السيناريوهات التي تكون فيها موارد الحساب محدودة مثل الأجهزة المحمولة والحوسبة الطرفية
أنظمة التفاعل في الوقت الفعلي: وكلاء واجهة المستخدم والقيادة الذاتية والذكاء الاصطناعي المجسد وغيرها من الأنظمة التي تتطلب معالجة فعالة للمدخلات المستمرة
النشر على نطاق واسع: تحسين الكفاءة لمقدمي خدمات السحابة عند نشر النماذج على نطاق واسع

المراجع

تستشهد الورقة بعدد كبير من الأعمال ذات الصلة، تشمل بشكل أساسي:

هندسة Transformer وتحوراتها (Vaswani et al., 2017)
سلسلة نماذج اللغة الكبيرة (OpenAI GPT, Meta LLaMA, Qwen وغيرها)
النماذج متعددة الأنماط (LLaVA, InternVL وغيرها)
طرق تحسين الكفاءة (الأعمال الكلاسيكية في التكميز والقص والتقطير وغيرها)
الأعمال الممثلة للضغط الموجه للبيانات

توفر هذه الورقة إطاراً نظرياً مهماً وتوجيهاً عملياً لمجال أبحاث كفاءة الذكاء الاصطناعي، وتتمتع بقيمة أكاديمية وعملية عالية.