2025-11-13T00:07:10.698624

Predicting Task Performance with Context-aware Scaling Laws

Montgomery, Park, Tu et al.
Scaling laws have transformed our understanding of large language models by linking upstream metrics like cross-entropy loss to design factors such as model size, training data, and compute. However, these conventional laws fail to capture downstream task performance, where context plays a critical role. In this work, we propose a straightforward, interpretable framework that jointly models downstream performance as a function of the training compute and the provided context. We empirically validate our framework by fitting it on the observed downstream performance of extended-context variants of Llama-2-7B and Llama-2-13B across 65,500 unique instances spanning three tasks: arithmetic reasoning, common sense reasoning, and machine translation. Our results demonstrate that our framework accurately models in-distribution downstream performance, generalizes across three orders of magnitude in training compute, and reliably extrapolates performance as the amount of context increases. These findings offer valuable insights into the interplay between training compute and context utilization, providing guidance for designing more efficient long-context LLMs for diverse downstream tasks. Our code is available at https://github.com/wang-research-lab/context-scaling.
academic

Prédire les Performances des Tâches avec des Lois d'Échelle Conscientes du Contexte

Informations Fondamentales

Résumé

Les lois d'échelle traditionnelles des réseaux de neurones, qui relient les métriques en amont (telles que la perte d'entropie croisée) aux facteurs de conception (taille du modèle, données d'entraînement et puissance de calcul), ont révolutionné notre compréhension des grands modèles de langage. Cependant, ces lois traditionnelles ne peuvent pas capturer les performances des tâches en aval, où le contexte joue un rôle crucial. Cet article propose un cadre intuitif et interprétable qui modélise les performances en aval comme une fonction conjointe du calcul d'entraînement et du contexte fourni. Les auteurs ont validé empiriquement ce cadre en l'ajustant sur des variantes de contexte étendu de Llama-2-7B et Llama-2-13B, sur 65 500 instances uniques couvrant trois tâches : le raisonnement arithmétique, le raisonnement de bon sens et la traduction automatique. Les résultats montrent que le cadre modélise avec précision les performances en aval intra-distribution, généralise sur trois ordres de grandeur de calcul d'entraînement, et peut extrapoler de manière fiable les performances lorsque la quantité de contexte augmente.

Contexte de Recherche et Motivation

Définition du Problème

Les lois d'échelle traditionnelles des réseaux de neurones se concentrent principalement sur les métriques en amont (telles que la perte d'entropie croisée), mais dans les applications pratiques, les performances des tâches en aval divergent souvent de ces tendances en amont. Les travaux existants prédisant les performances en aval reposent généralement sur des méthodes trop complexes et manquent d'interprétabilité.

Importance de la Recherche

  1. Besoin pratique: Une estimation précise des performances en aval peut guider le développement de modèles et identifier les phénomènes d'émergence ou de saturation sur certaines tâches avec moins d'expériences coûteuses
  2. Lacune théorique: Les lois d'échelle existantes ignorent la longueur du contexte, un facteur clé dans les tâches en aval
  3. Orientation de la conception: Comprendre l'interaction entre la puissance de calcul et l'utilisation du contexte est essentiel pour concevoir des LLMs efficaces avec contexte long

Limitations des Méthodes Existantes

  1. Chen et al. (2024): Utilise une approche en deux étapes avec la perte en amont comme intermédiaire, trop complexe
  2. Ye et al. (2023): Utilise des perceptrons multicouches pour prédire les performances BIG-Bench, manque d'interprétabilité
  3. Lois d'échelle traditionnelles: Ignorent complètement l'effet de la longueur du contexte

Contributions Principales

  1. Proposition d'un cadre de lois d'échelle conscientes du contexte: Extension des lois d'échelle neuronales traditionnelles aux tâches en aval, combinant la longueur du contexte et les limites du contexte pour une modélisation plus précise des performances des LLMs
  2. Validation empirique à grande échelle: Ajustement sur des fenêtres de contexte étendues de modèles Llama-2 sur 3 tâches, démontrant l'universalité des lois d'échelle sur trois ordres de grandeur de calcul d'entraînement, quatre ordres de grandeur de longueur de contexte, et différentes techniques d'extension de contexte
  3. Outil théorique interprétable: Fournit un cadre interprétable pour comprendre l'interaction entre la puissance de calcul, le contexte et les performances en aval, guidant la conception future des LLMs avec contexte long

Détails de la Méthode

Définition de la Tâche

Prédire les performances de la tâche en aval P comme une fonction du calcul d'entraînement C, de la longueur du contexte d'entrée n_pmt et de la limite de contexte du modèle n_ctx.

Architecture du Modèle

La formule centrale est:

P(C, n_pmt, n_ctx) = [1 - exp(-A(C/C_c)^α)] × [1 - exp(-B(n_pmt/n_c_pmt)^β)] × σ(n_pmt - n_ctx)

Où:

  • Premier terme: Terme de loi de puissance saturée du calcul d'entraînement C, avec paramètres A, C_c, α
  • Deuxième terme: Terme de loi de puissance saturée de la longueur du contexte n_pmt, avec paramètres B, n_c_pmt, β
  • Troisième terme: Terme de pénalité sigmoïde, performance décroît lorsque n_pmt > n_ctx

Principes de Conception

  1. Forme multiplicative: La puissance de calcul et le contexte sont complémentaires plutôt qu'additifs; une carence significative dans une dimension limite les bénéfices de l'autre dimension
  2. Loi de puissance saturée: L'exponentiation garantit que les performances prédites restent en dessous de la valeur théorique maximale de 1,0
  3. Mécanisme de pénalité: Lorsque le contexte dépasse la limite du modèle, les tokens générés se situent en dehors de la plage que le modèle peut prédire de manière fiable, entraînant une baisse drastique des performances

Points d'Innovation Technique

  1. Modélisation conjointe: Première unification de la modélisation du calcul d'entraînement et de la longueur du contexte
  2. Interprétabilité: Fournit une forme de fonction intuitive par rapport aux méthodes complexes existantes
  3. Traitement des limites: Gère efficacement les conditions limites des limites de contexte via le terme sigmoïde

Configuration Expérimentale

Ensembles de Données

Évaluation de 12 modèles (tableau 1) sur 65 500 instances, couvrant 3 tâches:

  1. Raisonnement arithmétique: 3 550 instances de test
    • GSM8K, MATH, AQUA-RAT, DeepMind Math
    • Remplissage de contexte jusqu'à 511 démonstrations
  2. Raisonnement de bon sens: 1 750 instances de test
    • PIQA, SIQA, OpenBookQA, HellaSwag, WinoGrande, ARC-Easy/Challenge, CommonSenseQA
    • Remplissage de contexte jusqu'à 511 démonstrations
  3. Traduction automatique: 1 250 instances
    • WMT-14 (allemand, français, hindi, tchèque, russe → anglais)
    • Utilisation du score BLEU-4

Configuration des Modèles

Basé sur Llama-2-7B et Llama-2-13B, utilisant la technologie YaRN pour étendre les fenêtres de contexte à 8k, 16k, 32k, 64k, 128k tokens.

Métriques d'Évaluation

  • Raisonnement arithmétique et raisonnement de bon sens: Précision
  • Traduction automatique: Score BLEU-4
  • Erreur de prédiction: Erreur absolue moyenne de prédiction |P - P̂|

Processus d'Ajustement

Optimisation en deux étapes:

  1. Recherche globale: Utilisation de differential_evolution de SciPy
  2. Optimisation locale: Utilisation de curve_fit pour un ajustement précis

Résultats Expérimentaux

Résultats Principaux

Excellents résultats d'ajustement sur les trois tâches:

  • Raisonnement arithmétique: Erreur de prédiction moyenne 0,010
  • Raisonnement de bon sens: Erreur de prédiction moyenne 0,037
  • Traduction automatique: Erreur de prédiction moyenne 0,007

Vérification de la Capacité de Généralisation

1. Généralisation du Calcul d'Entraînement (Section 4.1)

Vérification sur 5 modèles de test, couvrant 3 ordres de grandeur de calcul:

  • De Qwen2.5-0.5B à Llama-2-70B
  • La plupart des erreurs de prédiction sont inférieures à 5 points
  • Meilleure généralisation sur le raisonnement arithmétique et la traduction automatique

2. Généralisation de la Longueur du Contexte (Section 4.2)

Conservation des observations dépassant 10 000 tokens pour vérification:

  • Raisonnement arithmétique: Erreur de prédiction 0,017
  • Raisonnement de bon sens: Erreur de prédiction 0,067
  • Traduction automatique: Erreur de prédiction 0,006

3. Généralisation de la Technique d'Extension de Contexte (Section 4.3)

Comparaison des techniques YaRN et interpolation de position, erreurs de prédiction similaires, indiquant que la méthode est insensible à la technique d'extension de contexte.

Études d'Ablation

Vérification de l'importance du terme de pénalité sigmoïde:

  • Avec terme de pénalité: Erreur de prédiction 0,010
  • Sans terme de pénalité: Erreur de prédiction 0,029

Travaux Connexes

Lois d'Échelle Traditionnelles

  • Hestness et al. (2017), Kaplan et al. (2020): Établissent la relation entre les performances en amont et les facteurs de conception des modèles
  • Hoffmann et al. (2022): Utilisées pour l'entraînement optimal des LLMs

Prédiction des Performances en Aval

  • Wei et al. (2022), Hu et al. (2024): Se concentrent sur les capacités "émergentes" des LLMs
  • Chen et al. (2024), Ruan et al. (2024): Adoptent des approches en deux étapes
  • Contribution de cet article: Introduction pour la première fois de la dépendance à la longueur du contexte

Techniques d'Extension de Contexte

  • Méthodes sans entraînement: InfLLM, LM-Infinite, etc.
  • Remise à l'échelle des codages de position: Interpolation de position, YaRN, etc.
  • Choix de cet article: Utilisation de YaRN pour l'extension de contexte

Conclusion et Discussion

Conclusions Principales

  1. Les performances en aval peuvent être modélisées avec précision comme une fonction conjointe du calcul d'entraînement et du contexte
  2. Le cadre généralise bien sur une large gamme de calcul d'entraînement et de longueur de contexte
  3. Les performances bénéficient de l'augmentation du calcul d'entraînement et du contexte pertinent, mais présentent des points de saturation

Limitations

  1. Hypothèses: Dépend de l'hypothèse que les performances évoluent avec le calcul d'entraînement et le contexte, ce qui peut ne pas tenir dans les cas d'échelle extrême
  2. Facteurs non considérés: Le mélange de données de préentraînement, l'alignement post-entraînement, les choix architecturaux et autres facteurs ne sont pas explicitement considérés
  3. Plage de calcul: La plage de calcul d'entraînement ajustée est relativement étroite, la capacité de généralisation au-delà est inconnue

Directions Futures

  1. Étudier comment d'autres facteurs (tels que l'ajustement d'instructions, l'alignement) affectent les paramètres identifiés
  2. Extension à une plage plus large de calcul d'entraînement
  3. Exploration de l'applicabilité dans les scénarios d'attaques adversariales

Évaluation Approfondie

Points Forts

  1. Innovation théorique: Première intégration de la longueur du contexte dans les lois d'échelle, comblant une lacune théorique importante
  2. Valeur pratique: Fournit un cadre interprétable guidant la conception des LLMs avec contexte long
  3. Expérimentation complète: Validation à grande échelle avec 65 500 instances, couvrant plusieurs tâches et modèles
  4. Forte capacité de généralisation: Démontre de bonnes performances de généralisation sur plusieurs dimensions
  5. Méthode simple: Fournit une forme de fonction intuitive et interprétable par rapport aux méthodes complexes existantes

Insuffisances

  1. Limitations des modèles: Vérification uniquement sur la famille de modèles Llama-2, manque de vérification sur une famille de modèles plus large
  2. Couverture des tâches: Implique uniquement 3 types de tâches, l'applicabilité à d'autres tâches NLP est inconnue
  3. Fondement théorique: Manque d'explication théorique profonde sur pourquoi adopter une forme de fonction spécifique
  4. Interprétation des paramètres: L'analyse de la signification physique des paramètres et de leurs relations mutuelles est insuffisante

Impact

  1. Valeur académique: Ouvre une nouvelle direction pour la recherche sur les lois d'échelle, devrait attirer une attention généralisée
  2. Orientation pratique: Fournit des outils quantitatifs pour l'industrie dans la conception de modèles avec contexte long
  3. Reproductibilité: Fournit un code complet et des paramètres expérimentaux détaillés, facilitant la reproduction et l'extension

Scénarios d'Application

  1. Conception de modèles: Guide l'allocation des ressources de calcul pour les LLMs avec contexte long
  2. Prédiction des performances: Estime les performances du modèle avant l'entraînement coûteux à grande échelle
  3. Analyse des tâches: Comprend la sensibilité de différentes tâches à la longueur du contexte
  4. Optimisation des ressources: Optimise la taille de la fenêtre de contexte dans un budget de calcul donné

Références

  1. Kaplan, J., et al. (2020). Scaling laws for neural language models. arXiv:2001.08361.
  2. Chen, Y., et al. (2024). Scaling laws for predicting downstream performance in llms. arXiv:2410.08527.
  3. Peng, B., et al. (2024). YaRN: Efficient context window extension of large language models. ICLR.
  4. Wei, J., et al. (2022). Emergent abilities of large language models. TMLR.
  5. Touvron, H., et al. (2023). Llama 2: Open foundation and fine-tuned chat models. arXiv:2307.09288.

Cet article apporte une contribution importante au domaine de la recherche sur les lois d'échelle, intégrant systématiquement pour la première fois la longueur du contexte dans la prédiction des performances des tâches en aval, fournissant des outils théoriques précieux et des orientations pratiques pour la conception et l'optimisation des LLMs avec contexte long.