Shifting AI Efficiency From Model-Centric to Data-Centric Compression
Liu, Wen, Wang et al.
The advancement of large language models (LLMs) and multi-modal LLMs (MLLMs) has historically relied on scaling model parameters. However, as hardware limits constrain further model growth, the primary computational bottleneck has shifted to the quadratic cost of self-attention over increasingly long sequences by ultra-long text contexts, high-resolution images, and extended videos. In this position paper, \textbf{we argue that the focus of research for efficient artificial intelligence (AI) is shifting from model-centric compression to data-centric compression}. We position data-centric compression as the emerging paradigm, which improves AI efficiency by directly compressing the volume of data processed during model training or inference. To formalize this shift, we establish a unified framework for existing efficiency strategies and demonstrate why it constitutes a crucial paradigm change for long-context AI. We then systematically review the landscape of data-centric compression methods, analyzing their benefits across diverse scenarios. Finally, we outline key challenges and promising future research directions. Our work aims to provide a novel perspective on AI efficiency, synthesize existing efforts, and catalyze innovation to address the challenges posed by ever-increasing context lengths.
academic
Déplacement de l'Efficacité de l'IA de la Compression Centrée sur le Modèle à la Compression Centrée sur les Données
Avec le développement des grands modèles de langage (LLMs) et des grands modèles de langage multimodaux (MLLMs), les méthodes traditionnelles qui reposaient sur l'expansion des paramètres du modèle pour améliorer les performances font face à des limitations matérielles. Le goulot d'étranglement computationnel principal s'est déplacé de la taille du modèle vers la complexité quadratique du mécanisme d'auto-attention lors du traitement de contextes textuels ultra-longs, d'images haute résolution et de vidéos longues. Cet article propose que l'accent de la recherche en efficacité de l'IA devrait passer de la compression centrée sur le modèle à la compression centrée sur les données. La compression centrée sur les données améliore l'efficacité de l'IA en comprimant directement le volume de données traitées lors de l'entraînement ou de l'inférence. L'article établit un cadre unifié de stratégies d'efficacité, examine systématiquement le panorama des méthodes de compression centrées sur les données, analyse leurs avantages dans différents scénarios, et esquisse les défis clés et les directions de recherche futures.
Le problème fondamental abordé par cet article est: comment faire face efficacement aux défis d'efficacité computationnelle résultant de la croissance rapide de la longueur du contexte traité par les modèles d'IA.
Évolution des Tendances Technologiques: De 2022 à 2024, l'amélioration des performances de l'IA dépendait principalement de l'expansion de la taille du modèle, mais à partir de 2024, la croissance de la taille du modèle s'est stabilisée (environ 1T paramètres), tandis que la longueur du contexte continue de croître exponentiellement
Déplacement du Goulot d'Étranglement Computationnel: Les dépenses computationnelles principales se sont déplacées de la croissance linéaire des paramètres vers la complexité quadratique O(n²) du mécanisme d'auto-attention
Besoins Transversaux: Les modèles de langage doivent traiter des chaînes de raisonnement plus longues, les modèles visuels doivent traiter des images haute résolution et des vidéos plus longues, et les modèles génératifs doivent créer du contenu de meilleure qualité
Les méthodes traditionnelles de compression centrée sur le modèle (quantification, élagage, distillation, décomposition de faible rang) se concentrent principalement sur l'optimisation des paramètres du modèle W, mais ne peuvent pas répondre efficacement aux défis posés par la croissance de la longueur du contexte. Ces méthodes doivent toujours traiter les données d'entrée complètes X face à des séquences longues, et ne peuvent pas résoudre fondamentalement le problème de la complexité quadratique.
Basée sur une analyse approfondie des tendances du développement de l'IA, les auteurs proposent la compression centrée sur les données comme nouveau paradigme, qui répond aux défis du contexte long en réduisant directement le volume de données traitées, offrant une meilleure universalité, efficacité et compatibilité.
Analyse du Changement de Paradigme: Analyse le changement clé du goulot d'étranglement computationnel de la recherche en efficacité de l'IA, passant du centre des paramètres au centre du contexte, et justifie la nécessité de transformer le paradigme d'optimisation de l'efficacité
Cadre Théorique Unifié: Établit un cadre d'expression mathématique unifié couvrant la conception architecturale, la compression centrée sur le modèle et la compression centrée sur les données
Examen Systématique: Mène une enquête complète sur les méthodes de compression centrée sur les données, construit un cadre de classification unifié, et analyse les avantages dans différents scénarios
Défis et Directions: Analyse en profondeur les défis actuels et propose des directions de recherche futures prometteuses, visant à catalyser l'innovation dans ce domaine
La compression centrée sur les données vise à transformer la séquence d'entrée originale X en une représentation comprimée X' par une opération de compression Φ, satisfaisant |X'| < |X|, tout en préservant autant que possible les performances du modèle.
Les expériences révèlent un phénomène contre-intuitif: les méthodes de compression soigneusement conçues ne surpassent pas la suppression aléatoire dans plusieurs scénarios.
Changement de Paradigme: L'accent de la recherche en efficacité de l'IA devrait passer de la compression centrée sur le modèle à la compression centrée sur les données
Limitations des Méthodes: Les méthodes de compression actuelles basées sur l'attention présentent des problèmes fondamentaux tels que les biais de position
Principes de Conception: L'uniformité spatiale et temporelle est un principe de conception clé pour une compression efficace
Intégration par étapes: compression de modèle d'abord, puis compression de données
Amélioration mutuelle: utiliser les informations de gradient pour guider la sélection de tokens, utiliser l'évolution de tokens pour guider l'élagage de couches
Perspectives Avant-Gardistes: Identifie avec précision le changement de tendance clé du développement de l'IA et propose un paradigme de recherche avant-gardiste
Contribution Théorique: Établit un cadre mathématique unifié, fournissant une base théorique pour différentes stratégies d'efficacité
Analyse Complète: Effectue une classification systématique et une analyse des méthodes dans plusieurs domaines et tâches
Découvertes Empiriques: Révèle par de nombreuses expériences les problèmes fondamentaux des méthodes actuelles, fournissant des perspectives importantes pour le développement du domaine
Qualité de Rédaction: Logique claire, expression précise, figures riches, facile à comprendre
Profondeur Théorique: Bien que fournissant un cadre unifié, l'analyse théorique de la compression centrée sur les données n'est pas suffisamment approfondie
Innovation Méthodologique: Travail principalement de synthèse, manque de propositions de nouvelles méthodes concrètes
Portée Expérimentale: Les expériences se concentrent principalement sur la vérification des problèmes des méthodes existantes, manquent d'exploration de solutions
Analyse Quantitative: L'analyse de la complexité théorique des différentes méthodes de compression manque de détails
Contribution au Domaine: Fournit de nouvelles perspectives et directions pour la recherche en efficacité de l'IA, peut conduire à un changement de l'accent de la recherche dans ce domaine
Valeur Pratique: Les résultats d'analyse ont une importance significative pour le déploiement réel, particulièrement dans les environnements à ressources limitées
Reproductibilité: Fournit des configurations expérimentales détaillées et des projets github, facilitant la recherche ultérieure
Nature Inspirante: Les problèmes révélés et les directions proposées fournissent une feuille de route claire pour la recherche future
Applications de Contexte Long: Particulièrement applicable aux scénarios nécessitant le traitement de textes longs, d'images haute résolution ou de vidéos longues
Environnements à Ressources Limitées: Possède une valeur importante dans les scénarios avec des ressources computationnelles limitées tels que les appareils mobiles et l'informatique en périphérie
Systèmes d'Interaction en Temps Réel: Agents UI, conduite autonome, IA incarnée et autres systèmes nécessitant un traitement efficace d'entrées continues
Déploiement à Grande Échelle: Optimisation de l'efficacité lors du déploiement de modèles à grande échelle par les fournisseurs de services cloud
L'article cite un grand nombre de travaux connexes, incluant principalement:
Architecture Transformer et ses variantes (Vaswani et al., 2017)
Séries de grands modèles de langage (OpenAI GPT, Meta LLaMA, Qwen, etc.)
Modèles multimodaux (LLaVA, InternVL, etc.)
Méthodes d'optimisation de l'efficacité (travaux classiques en quantification, élagage, distillation, etc.)
Travaux représentatifs en compression centrée sur les données
Cet article fournit un cadre théorique important et des orientations pratiques pour le domaine de la recherche en efficacité de l'IA, possédant une valeur académique et une signification pratique considérables.