Predicting Task Performance with Context-aware Scaling Laws
Montgomery, Park, Tu et al.
Scaling laws have transformed our understanding of large language models by linking upstream metrics like cross-entropy loss to design factors such as model size, training data, and compute. However, these conventional laws fail to capture downstream task performance, where context plays a critical role. In this work, we propose a straightforward, interpretable framework that jointly models downstream performance as a function of the training compute and the provided context. We empirically validate our framework by fitting it on the observed downstream performance of extended-context variants of Llama-2-7B and Llama-2-13B across 65,500 unique instances spanning three tasks: arithmetic reasoning, common sense reasoning, and machine translation. Our results demonstrate that our framework accurately models in-distribution downstream performance, generalizes across three orders of magnitude in training compute, and reliably extrapolates performance as the amount of context increases. These findings offer valuable insights into the interplay between training compute and context utilization, providing guidance for designing more efficient long-context LLMs for diverse downstream tasks. Our code is available at https://github.com/wang-research-lab/context-scaling.
academic
Prédire les Performances des Tâches avec des Lois d'Échelle Conscientes du Contexte
Les lois d'échelle traditionnelles des réseaux de neurones, qui relient les métriques en amont (telles que la perte d'entropie croisée) aux facteurs de conception (taille du modèle, données d'entraînement et puissance de calcul), ont révolutionné notre compréhension des grands modèles de langage. Cependant, ces lois traditionnelles ne peuvent pas capturer les performances des tâches en aval, où le contexte joue un rôle crucial. Cet article propose un cadre intuitif et interprétable qui modélise les performances en aval comme une fonction conjointe du calcul d'entraînement et du contexte fourni. Les auteurs ont validé empiriquement ce cadre en l'ajustant sur des variantes de contexte étendu de Llama-2-7B et Llama-2-13B, sur 65 500 instances uniques couvrant trois tâches : le raisonnement arithmétique, le raisonnement de bon sens et la traduction automatique. Les résultats montrent que le cadre modélise avec précision les performances en aval intra-distribution, généralise sur trois ordres de grandeur de calcul d'entraînement, et peut extrapoler de manière fiable les performances lorsque la quantité de contexte augmente.
Les lois d'échelle traditionnelles des réseaux de neurones se concentrent principalement sur les métriques en amont (telles que la perte d'entropie croisée), mais dans les applications pratiques, les performances des tâches en aval divergent souvent de ces tendances en amont. Les travaux existants prédisant les performances en aval reposent généralement sur des méthodes trop complexes et manquent d'interprétabilité.
Besoin pratique: Une estimation précise des performances en aval peut guider le développement de modèles et identifier les phénomènes d'émergence ou de saturation sur certaines tâches avec moins d'expériences coûteuses
Lacune théorique: Les lois d'échelle existantes ignorent la longueur du contexte, un facteur clé dans les tâches en aval
Orientation de la conception: Comprendre l'interaction entre la puissance de calcul et l'utilisation du contexte est essentiel pour concevoir des LLMs efficaces avec contexte long
Proposition d'un cadre de lois d'échelle conscientes du contexte: Extension des lois d'échelle neuronales traditionnelles aux tâches en aval, combinant la longueur du contexte et les limites du contexte pour une modélisation plus précise des performances des LLMs
Validation empirique à grande échelle: Ajustement sur des fenêtres de contexte étendues de modèles Llama-2 sur 3 tâches, démontrant l'universalité des lois d'échelle sur trois ordres de grandeur de calcul d'entraînement, quatre ordres de grandeur de longueur de contexte, et différentes techniques d'extension de contexte
Outil théorique interprétable: Fournit un cadre interprétable pour comprendre l'interaction entre la puissance de calcul, le contexte et les performances en aval, guidant la conception future des LLMs avec contexte long
Prédire les performances de la tâche en aval P comme une fonction du calcul d'entraînement C, de la longueur du contexte d'entrée n_pmt et de la limite de contexte du modèle n_ctx.
Forme multiplicative: La puissance de calcul et le contexte sont complémentaires plutôt qu'additifs; une carence significative dans une dimension limite les bénéfices de l'autre dimension
Loi de puissance saturée: L'exponentiation garantit que les performances prédites restent en dessous de la valeur théorique maximale de 1,0
Mécanisme de pénalité: Lorsque le contexte dépasse la limite du modèle, les tokens générés se situent en dehors de la plage que le modèle peut prédire de manière fiable, entraînant une baisse drastique des performances
Comparaison des techniques YaRN et interpolation de position, erreurs de prédiction similaires, indiquant que la méthode est insensible à la technique d'extension de contexte.
Hypothèses: Dépend de l'hypothèse que les performances évoluent avec le calcul d'entraînement et le contexte, ce qui peut ne pas tenir dans les cas d'échelle extrême
Facteurs non considérés: Le mélange de données de préentraînement, l'alignement post-entraînement, les choix architecturaux et autres facteurs ne sont pas explicitement considérés
Plage de calcul: La plage de calcul d'entraînement ajustée est relativement étroite, la capacité de généralisation au-delà est inconnue
Kaplan, J., et al. (2020). Scaling laws for neural language models. arXiv:2001.08361.
Chen, Y., et al. (2024). Scaling laws for predicting downstream performance in llms. arXiv:2410.08527.
Peng, B., et al. (2024). YaRN: Efficient context window extension of large language models. ICLR.
Wei, J., et al. (2022). Emergent abilities of large language models. TMLR.
Touvron, H., et al. (2023). Llama 2: Open foundation and fine-tuned chat models. arXiv:2307.09288.
Cet article apporte une contribution importante au domaine de la recherche sur les lois d'échelle, intégrant systématiquement pour la première fois la longueur du contexte dans la prédiction des performances des tâches en aval, fournissant des outils théoriques précieux et des orientations pratiques pour la conception et l'optimisation des LLMs avec contexte long.