Shifting AI Efficiency From Model-Centric to Data-Centric Compression
Liu, Wen, Wang et al.
The advancement of large language models (LLMs) and multi-modal LLMs (MLLMs) has historically relied on scaling model parameters. However, as hardware limits constrain further model growth, the primary computational bottleneck has shifted to the quadratic cost of self-attention over increasingly long sequences by ultra-long text contexts, high-resolution images, and extended videos. In this position paper, \textbf{we argue that the focus of research for efficient artificial intelligence (AI) is shifting from model-centric compression to data-centric compression}. We position data-centric compression as the emerging paradigm, which improves AI efficiency by directly compressing the volume of data processed during model training or inference. To formalize this shift, we establish a unified framework for existing efficiency strategies and demonstrate why it constitutes a crucial paradigm change for long-context AI. We then systematically review the landscape of data-centric compression methods, analyzing their benefits across diverse scenarios. Finally, we outline key challenges and promising future research directions. Our work aims to provide a novel perspective on AI efficiency, synthesize existing efforts, and catalyze innovation to address the challenges posed by ever-increasing context lengths.
academic
Cambio de la Eficiencia de IA de Compresión Centrada en Modelos a Compresión Centrada en Datos
Con el desarrollo de modelos de lenguaje grandes (LLMs) y modelos de lenguaje grandes multimodales (MLLMs), los métodos tradicionales que dependen de la expansión de parámetros del modelo para mejorar el rendimiento enfrentan limitaciones de hardware. El cuello de botella computacional principal ha pasado del tamaño del modelo a la complejidad cuadrática del mecanismo de autoatención al procesar contextos de texto ultralargo, imágenes de alta resolución y videos largos. Este artículo propone que el enfoque de la investigación en eficiencia de IA debe cambiar de compresión centrada en modelos a compresión centrada en datos. La compresión centrada en datos mejora la eficiencia de IA comprimiendo directamente la cantidad de datos procesados durante el entrenamiento o la inferencia. El artículo establece un marco unificado de estrategias de eficiencia, revisa sistemáticamente el panorama de métodos de compresión centrada en datos, analiza sus ventajas en diferentes escenarios y esboza desafíos clave y direcciones futuras de investigación.
El problema central que aborda este artículo es: ¿Cómo abordar efectivamente los desafíos de eficiencia computacional causados por el crecimiento acelerado de la longitud del contexto que procesan los modelos de IA?
Cambio en Tendencias Tecnológicas: De 2022 a 2024, la mejora del rendimiento de IA dependía principalmente de la expansión del tamaño del modelo, pero hacia 2024 el crecimiento del tamaño del modelo se ha estabilizado (aproximadamente 1T parámetros), mientras que la longitud del contexto continúa creciendo exponencialmente
Transición del Cuello de Botella Computacional: El gasto computacional principal ha pasado del crecimiento lineal de parámetros a la complejidad cuadrática O(n²) del mecanismo de autoatención
Demandas Interdisciplinarias: Los modelos de lenguaje necesitan procesar cadenas de razonamiento más largas, los modelos visuales necesitan procesar imágenes de mayor resolución y videos más largos, y los modelos generativos necesitan crear contenido de mayor calidad
Los métodos tradicionales de compresión centrada en modelos (cuantización, poda, destilación, descomposición de bajo rango) se optimizan principalmente para los parámetros del modelo W, pero no pueden abordar efectivamente los desafíos causados por el crecimiento de la longitud del contexto. Estos métodos aún necesitan procesar datos de entrada completos X cuando se enfrentan a secuencias largas, sin resolver fundamentalmente el problema de la complejidad cuadrática.
Basándose en un análisis profundo de las tendencias de desarrollo de IA, los autores proponen la compresión centrada en datos como un nuevo paradigma que aborda los desafíos de contexto largo reduciendo directamente la cantidad de datos procesados, con mejor universalidad, eficiencia y compatibilidad.
Análisis de Cambio de Paradigma: Analiza el cambio clave en la investigación de eficiencia de IA desde cuellos de botella computacionales centrados en parámetros hacia cuellos de botella centrados en contexto, argumentando la necesidad de transformación del paradigma de optimización de eficiencia
Marco Teórico Unificado: Establece un marco de expresión matemática unificado que abarca diseño de arquitectura, compresión centrada en modelos y compresión centrada en datos
Revisión Sistemática: Realiza una investigación exhaustiva de métodos de compresión centrada en datos, construye un marco de clasificación unificado y analiza las ventajas en diferentes escenarios
Desafíos y Direcciones: Analiza profundamente los desafíos actuales y propone direcciones prometedoras de investigación futura, con el objetivo de catalizar la innovación en el campo
La compresión centrada en datos tiene como objetivo transformar la secuencia de entrada original X en una representación comprimida X' mediante una operación de compresión Φ, satisfaciendo |X'| < |X|, mientras se mantiene el rendimiento del modelo tanto como sea posible.
Los experimentos revelan un fenómeno contraintuitivo: los métodos cuidadosamente diseñados tienen un desempeño inferior al descarte aleatorio en múltiples escenarios.
Perspectiva Prospectiva: Identifica con precisión cambios clave en las tendencias de desarrollo de IA y propone un paradigma de investigación prospectivo
Contribución Teórica: Establece un marco matemático unificado que proporciona base teórica para diferentes estrategias de eficiencia
Análisis Integral: Realiza clasificación y análisis sistemático de métodos entre múltiples dominios y tareas
Hallazgos Empíricos: Revela a través de extensos experimentos problemas fundamentales de métodos actuales, proporcionando perspectivas importantes para el desarrollo del campo
Calidad de Escritura: Lógica clara, expresión precisa, gráficos abundantes, fácil de entender
Contribución al Campo: Proporciona nuevas ideas y direcciones para la investigación de eficiencia de IA, potencialmente liderando un cambio en el enfoque de investigación del campo
Valor Práctico: Los resultados del análisis tienen importancia significativa para el despliegue real, especialmente en entornos con recursos limitados
Reproducibilidad: Proporciona configuración experimental detallada y proyectos de github, facilitando investigación posterior
Inspiración: Los problemas revelados y las direcciones propuestas proporcionan una hoja de ruta clara para investigación futura
Aplicaciones de Contexto Largo: Particularmente aplicable a escenarios que requieren procesar texto largo, imágenes de alta resolución o videos largos
Entornos con Recursos Limitados: Tiene valor importante en escenarios como dispositivos móviles, computación perimetral donde los recursos computacionales son limitados
Sistemas de Interacción en Tiempo Real: Agentes de UI, conducción autónoma, IA encarnada y otros sistemas que necesitan procesar entrada continua de manera eficiente
Despliegue a Escala: Optimización de eficiencia para proveedores de servicios en la nube en despliegue de modelos a gran escala
El artículo cita una gran cantidad de trabajo relacionado, incluyendo principalmente:
Arquitectura Transformer y sus variantes (Vaswani et al., 2017)
Series de modelos de lenguaje grandes (OpenAI GPT, Meta LLaMA, Qwen, etc.)
Modelos multimodales (LLaVA, InternVL, etc.)
Métodos de optimización de eficiencia (trabajo clásico en cuantización, poda, destilación, etc.)
Trabajo representativo en compresión centrada en datos
Este artículo proporciona un marco teórico importante y orientación práctica para el campo de investigación de eficiencia de IA, con valor académico y práctico considerable.