Shifting AI Efficiency From Model-Centric to Data-Centric Compression
Liu, Wen, Wang et al.
The advancement of large language models (LLMs) and multi-modal LLMs (MLLMs) has historically relied on scaling model parameters. However, as hardware limits constrain further model growth, the primary computational bottleneck has shifted to the quadratic cost of self-attention over increasingly long sequences by ultra-long text contexts, high-resolution images, and extended videos. In this position paper, \textbf{we argue that the focus of research for efficient artificial intelligence (AI) is shifting from model-centric compression to data-centric compression}. We position data-centric compression as the emerging paradigm, which improves AI efficiency by directly compressing the volume of data processed during model training or inference. To formalize this shift, we establish a unified framework for existing efficiency strategies and demonstrate why it constitutes a crucial paradigm change for long-context AI. We then systematically review the landscape of data-centric compression methods, analyzing their benefits across diverse scenarios. Finally, we outline key challenges and promising future research directions. Our work aims to provide a novel perspective on AI efficiency, synthesize existing efforts, and catalyze innovation to address the challenges posed by ever-increasing context lengths.
academic
تحويل كفاءة الذكاء الاصطناعي من الضغط الموجه للنموذج إلى الضغط الموجه للبيانات
مع تطور نماذج اللغة الكبيرة (LLMs) والنماذج اللغوية متعددة الأنماط (MLLMs)، تواجه الطرق التقليدية التي تعتمد على توسيع معاملات النموذج لتحسين الأداء قيوداً في الأجهزة. تحول الاختناق الحسابي الرئيسي من حجم النموذج إلى التعقيد التربيعي لآلية الانتباه الذاتي عند معالجة السياقات النصية الطويلة جداً والصور عالية الدقة والفيديوهات الطويلة. تقترح هذه الورقة أن يتحول التركيز في أبحاث كفاءة الذكاء الاصطناعي من الضغط الموجه للنموذج إلى الضغط الموجه للبيانات. يحسّن الضغط الموجه للبيانات كفاءة الذكاء الاصطناعي من خلال ضغط مباشر لحجم البيانات المعالجة أثناء التدريب أو الاستدلال. تؤسس الورقة إطاراً موحداً لاستراتيجيات الكفاءة، وتستعرض بشكل منهجي مشهد طرق الضغط الموجه للبيانات، وتحلل مزاياها في سيناريوهات مختلفة، وتحدد التحديات الرئيسية والاتجاهات البحثية المستقبلية.
المشكلة الأساسية التي تعالجها هذه الورقة هي: كيفية التعامل الفعال مع تحديات الكفاءة الحسابية الناشئة عن النمو الحاد في طول السياق الذي تعالجه نماذج الذكاء الاصطناعي.
التغيرات في الاتجاهات التكنولوجية: من 2022-2024، اعتمد تحسن أداء الذكاء الاصطناعي بشكل أساسي على توسيع حجم النموذج، لكن بحلول عام 2024 تباطأ نمو حجم النموذج (حوالي 1 تريليون معامل)، بينما استمر طول السياق في النمو الأسي
تحول الاختناق الحسابي: تحول الحمل الحسابي الرئيسي من النمو الخطي للمعاملات إلى التعقيد التربيعي O(n²) لآلية الانتباه الذاتي
الاحتياجات عبر المجالات: تحتاج نماذج اللغة إلى معالجة سلاسل استدلال أطول، وتحتاج نماذج الرؤية إلى معالجة صور بدقة أعلى وفيديوهات أطول، وتحتاج نماذج التوليد إلى إنشاء محتوى بجودة أعلى
تركز طرق الضغط الموجه للنموذج التقليدية (التكميم، القص، التقطير، التحليل منخفض الرتبة) بشكل أساسي على تحسين معاملات النموذج W، لكنها لا تستطيع التعامل الفعال مع التحديات الناشئة عن نمو طول السياق. تتطلب هذه الطرق معالجة البيانات المدخلة الكاملة X حتى عند التعامل مع التسلسلات الطويلة، ولا تحل المشكلة الأساسية للتعقيد التربيعي.
بناءً على تحليل عميق لاتجاهات تطور الذكاء الاصطناعي، يقترح المؤلفون الضغط الموجه للبيانات كنموذج ناشئ، يعالج تحديات السياق الطويل من خلال تقليل مباشر لحجم البيانات المعالجة، مع توفير عمومية وكفاءة وتوافقية أفضل.
تحليل تحول النموذج: تحليل التحول الرئيسي في أبحاث كفاءة الذكاء الاصطناعي من الاختناق الحسابي الموجه للمعاملات إلى الموجه للسياق، والحجة لصالح ضرورة تحول نموذج تحسين الكفاءة
إطار نظري موحد: إنشاء إطار تعبير رياضي موحد يغطي تصميم الهندسة المعمارية والضغط الموجه للنموذج والضغط الموجه للبيانات
استعراض منهجي: إجراء بحث شامل عن طرق الضغط الموجه للبيانات، وبناء إطار تصنيف موحد، وتحليل المزايا في سيناريوهات مختلفة
التحديات والاتجاهات: تحليل عميق للتحديات الحالية واقتراح اتجاهات بحثية واعدة، بهدف تحفيز الابتكار في هذا المجال
يهدف الضغط الموجه للبيانات إلى تحويل تسلسل الإدخال الأصلي X إلى تمثيل مضغوط X' من خلال عملية ضغط Φ، بحيث يكون |X'| < |X|، مع الحفاظ على أداء النموذج قدر الإمكان.
تطبيقات السياق الطويل: مناسبة بشكل خاص للسيناريوهات التي تتطلب معالجة نصوص طويلة أو صور عالية الدقة أو فيديوهات طويلة
البيئات ذات الموارد المحدودة: ذات قيمة مهمة في السيناريوهات التي تكون فيها موارد الحساب محدودة مثل الأجهزة المحمولة والحوسبة الطرفية
أنظمة التفاعل في الوقت الفعلي: وكلاء واجهة المستخدم والقيادة الذاتية والذكاء الاصطناعي المجسد وغيرها من الأنظمة التي تتطلب معالجة فعالة للمدخلات المستمرة
النشر على نطاق واسع: تحسين الكفاءة لمقدمي خدمات السحابة عند نشر النماذج على نطاق واسع