2025-11-13T00:07:10.698624

Predicting Task Performance with Context-aware Scaling Laws

Montgomery, Park, Tu et al.
Scaling laws have transformed our understanding of large language models by linking upstream metrics like cross-entropy loss to design factors such as model size, training data, and compute. However, these conventional laws fail to capture downstream task performance, where context plays a critical role. In this work, we propose a straightforward, interpretable framework that jointly models downstream performance as a function of the training compute and the provided context. We empirically validate our framework by fitting it on the observed downstream performance of extended-context variants of Llama-2-7B and Llama-2-13B across 65,500 unique instances spanning three tasks: arithmetic reasoning, common sense reasoning, and machine translation. Our results demonstrate that our framework accurately models in-distribution downstream performance, generalizes across three orders of magnitude in training compute, and reliably extrapolates performance as the amount of context increases. These findings offer valuable insights into the interplay between training compute and context utilization, providing guidance for designing more efficient long-context LLMs for diverse downstream tasks. Our code is available at https://github.com/wang-research-lab/context-scaling.
academic

Vorhersage der Aufgabenleistung mit kontextabhängigen Skalierungsgesetzen

Grundlegende Informationen

Zusammenfassung

Traditionelle neuronale Skalierungsgesetze haben unser Verständnis großer Sprachmodelle revolutioniert, indem sie vorgelagerte Metriken (wie Kreuzentropieverlust) mit Designfaktoren (wie Modellgröße, Trainingsdaten und Rechenleistung) verknüpfen. Diese traditionellen Gesetze können jedoch die Leistung nachgelagerter Aufgaben nicht erfassen, bei denen der Kontext eine Schlüsselrolle spielt. Dieses Papier schlägt einen intuitiven und interpretierbaren Rahmen vor, der die nachgelagerte Leistung als gemeinsame Funktion von Trainingsrechenleistung und bereitgestelltem Kontext modelliert. Die Autoren validieren diesen Rahmen empirisch durch Anpassung an erweiterte Kontextvarianten von Llama-2-7B und Llama-2-13B über 65.500 eindeutige Instanzen hinweg, die sich über drei Aufgaben erstrecken: arithmetisches Denken, Common-Sense-Denken und maschinelle Übersetzung. Die Ergebnisse zeigen, dass der Rahmen die Leistung nachgelagerter Aufgaben innerhalb der Verteilung genau modelliert, über drei Größenordnungen der Trainingsrechenleistung verallgemeinert und die Leistung bei erhöhter Kontextmenge zuverlässig extrapoliert.

Forschungshintergrund und Motivation

Problemdefinition

Traditionelle neuronale Skalierungsgesetze konzentrieren sich hauptsächlich auf vorgelagerte Metriken (wie Kreuzentropieverlust), aber in praktischen Anwendungen weicht die Leistung nachgelagerter Aufgaben häufig von diesen vorgelagerten Trends ab. Bestehende Arbeiten zur Vorhersage der Leistung nachgelagerter Aufgaben beruhen typischerweise auf zu komplexen Methoden mit geringer Interpretierbarkeit.

Forschungsbedeutung

  1. Praktische Anforderungen: Genaue Schätzungen der Leistung nachgelagerter Aufgaben können die Modellentwicklung leiten und mit weniger kostspieligen Experimenten Emergenz- oder Sättigungsphänomene bei bestimmten Aufgaben identifizieren
  2. Theoretische Lücke: Bestehende Skalierungsgesetze ignorieren die Kontextlänge als kritischen Faktor in nachgelagerten Aufgaben
  3. Designleitfaden: Das Verständnis der Wechselwirkung zwischen Rechenleistung und Kontextnutzung ist entscheidend für die Gestaltung effizienter LLMs mit langem Kontext

Einschränkungen bestehender Methoden

  1. Chen et al. (2024): Verwendet einen zweistufigen Ansatz mit vorgelagertem Verlust als Vermittler, zu komplex
  2. Ye et al. (2023): Verwendet mehrschichtige Perzeptrons zur Vorhersage der BIG-Bench-Leistung, mangelnde Interpretierbarkeit
  3. Traditionelle Skalierungsgesetze: Ignorieren vollständig den Einfluss der Kontextlänge

Kernbeiträge

  1. Vorschlag eines kontextabhängigen Skalierungsgesetzes-Rahmens: Erweitert traditionelle neuronale Skalierungsgesetze auf nachgelagerte Aufgaben durch Kombination von Kontextlänge und Kontextbeschränkungen für genauere LLM-Leistungsmodellierung
  2. Großflächige empirische Validierung: Anpassung über 3 Aufgaben an erweiterten Kontextfenstern von Llama-2-Modellen, Nachweis der Universalität des Skalierungsgesetzes über 3 Größenordnungen Trainingsrechenleistung, 4 Größenordnungen Kontextlänge und verschiedene Kontexterweiterungstechniken
  3. Interpretierbares theoretisches Werkzeug: Bietet einen interpretierbaren Rahmen zum Verständnis der Wechselwirkung zwischen Rechenleistung, Kontext und nachgelagerter Leistung und bietet Orientierung für zukünftige Designs von LLMs mit langem Kontext

Methodische Details

Aufgabendefinition

Vorhersage der Leistung nachgelagerter Aufgaben P als Funktion der Trainingsrechenleistung C, der Eingabekontextlänge n_pmt und der Modellkontextbeschränkung n_ctx.

Modellarchitektur

Die Kernformel lautet:

P(C, n_pmt, n_ctx) = [1 - exp(-A(C/C_c)^α)] × [1 - exp(-B(n_pmt/n_c_pmt)^β)] × σ(n_pmt - n_ctx)

Wobei:

  • Erster Term: Sättigungspotenzgesetz-Term der Trainingsrechenleistung C mit Parametern A, C_c, α
  • Zweiter Term: Sättigungspotenzgesetz-Term der Kontextlänge n_pmt mit Parametern B, n_c_pmt, β
  • Dritter Term: Sigmoid-Strafterm, Leistungsabfall wenn n_pmt > n_ctx

Designprinzipien

  1. Multiplikative Form: Rechenleistung und Kontext sind komplementär statt additiv; ein signifikanter Mangel in einer Dimension begrenzt die Gewinne aus der anderen Dimension
  2. Sättigungspotenzgesetz: Durch Exponentialisierung wird sichergestellt, dass die vorhergesagte Leistung unter dem theoretischen Maximum von 1,0 bleibt
  3. Strafmechanismus: Wenn der Kontext die Modellbeschränkung überschreitet, fallen die generierten Token außerhalb des Bereichs, den das Modell zuverlässig vorhersagen kann, was zu einem starken Leistungsabfall führt

Technische Innovationen

  1. Gemeinsame Modellierung: Erste einheitliche Modellierung von Trainingsrechenleistung und Kontextlänge
  2. Interpretierbarkeit: Bietet intuitive Funktionsform im Vergleich zu bestehenden komplexen Methoden
  3. Grenzbehandlung: Effektive Behandlung von Kontextbeschränkungsgrenzen durch Sigmoid-Term

Experimentelle Einrichtung

Datensätze

Bewertung von 12 Modellen (Tabelle 1) über 65.500 Instanzen, abdeckend 3 Aufgabentypen:

  1. Arithmetisches Denken: 3.550 Testinstanzen
    • GSM8K, MATH, AQUA-RAT, DeepMind Math
    • Kontextauffüllung mit bis zu 511 Demonstrationen
  2. Common-Sense-Denken: 1.750 Testinstanzen
    • PIQA, SIQA, OpenBookQA, HellaSwag, WinoGrande, ARC-Easy/Challenge, CommonSenseQA
    • Kontextauffüllung mit bis zu 511 Demonstrationen
  3. Maschinelle Übersetzung: 1.250 Instanzen
    • WMT-14 (Deutsch, Französisch, Hindi, Tschechisch, Russisch → Englisch)
    • Verwendung von BLEU-4-Bewertung

Modellkonfiguration

Basierend auf Llama-2-7B und Llama-2-13B mit YaRN-Technik zur Erweiterung des Kontextfensters auf 8k, 16k, 32k, 64k, 128k Token.

Bewertungsmetriken

  • Arithmetisches Denken und Common-Sense-Denken: Genauigkeit
  • Maschinelle Übersetzung: BLEU-4-Bewertung
  • Vorhersagefehler: Mittlerer absoluter Vorhersagefehler |P - P̂|

Anpassungsprozess

Zweistufige Optimierung:

  1. Globale Suche: Verwendung von SciPy's differential_evolution
  2. Lokale Optimierung: Verwendung von curve_fit für präzise Anpassung

Experimentelle Ergebnisse

Hauptergebnisse

Erreichung ausgezeichneter Anpassungsergebnisse über drei Aufgaben:

  • Arithmetisches Denken: Mittlerer Vorhersagefehler 0,010
  • Common-Sense-Denken: Mittlerer Vorhersagefehler 0,037
  • Maschinelle Übersetzung: Mittlerer Vorhersagefehler 0,007

Validierung der Verallgemeinerungsfähigkeit

1. Verallgemeinerung der Trainingsrechenleistung (Abschnitt 4.1)

Validierung über 5 Testmodelle, über 3 Größenordnungen Rechenleistung:

  • Qwen2.5-0.5B bis Llama-2-70B
  • Mehrheit der Vorhersagefehler unter 5 Prozentpunkten
  • Bessere Verallgemeinerung bei arithmetischem Denken und maschineller Übersetzung

2. Verallgemeinerung der Kontextlänge (Abschnitt 4.2)

Beibehaltung von Beobachtungen über 10.000 Token für Validierung:

  • Arithmetisches Denken: Vorhersagefehler 0,017
  • Common-Sense-Denken: Vorhersagefehler 0,067
  • Maschinelle Übersetzung: Vorhersagefehler 0,006

3. Verallgemeinerung der Kontexterweiterungstechnik (Abschnitt 4.3)

Vergleich von YaRN und Positionsinterpolation, ähnliche Vorhersagefehler, zeigt dass die Methode unempfindlich gegenüber Kontexterweiterungstechniken ist.

Ablationsstudien

Validierung der Wichtigkeit des Sigmoid-Strafterms:

  • Mit Strafterm: Vorhersagefehler 0,010
  • Ohne Strafterm: Vorhersagefehler 0,029

Verwandte Arbeiten

Traditionelle Skalierungsgesetze

  • Hestness et al. (2017), Kaplan et al. (2020): Etablierung der Beziehung zwischen vorgelagerter Leistung und Designfaktoren
  • Hoffmann et al. (2022): Verwendung für trainingsoptimale LLMs

Vorhersage der Leistung nachgelagerter Aufgaben

  • Wei et al. (2022), Hu et al. (2024): Fokus auf "Emergenz"-Fähigkeiten in LLMs
  • Chen et al. (2024), Ruan et al. (2024): Zweistufige Ansätze
  • Dieser Beitrag: Erste Einführung der Kontextlängen-Abhängigkeit

Kontexterweiterungstechniken

  • Trainingsfreie Methoden: InfLLM, LM-Infinite usw.
  • Positionskodierung-Neuskalierung: Positionsinterpolation, YaRN usw.
  • Wahl dieses Papiers: Verwendung von YaRN für Kontexterweiterung

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Die Leistung nachgelagerter Aufgaben kann genau als gemeinsame Funktion von Trainingsrechenleistung und Kontext modelliert werden
  2. Der Rahmen zeigt gute Verallgemeinerungsfähigkeit über große Bereiche von Rechenleistung und Kontextlänge
  3. Die Leistung profitiert von erhöhter Rechenleistung und relevantem Kontext, zeigt aber Sättigungspunkte

Einschränkungen

  1. Annahmen: Abhängig von Annahmen, dass die Leistung mit Trainingsrechenleistung und Kontext skaliert; kann bei extremen Skalierungsfällen nicht gültig sein
  2. Nicht berücksichtigte Faktoren: Vortrainingsdatenmischung, Nachtraining-Ausrichtung, Architekturwahl usw. werden nicht explizit berücksichtigt
  3. Rechenleistungsbereich: Der angepasste Rechenleistungsbereich ist relativ eng; Verallgemeinerungsfähigkeit außerhalb dieses Bereichs ist unbekannt

Zukünftige Richtungen

  1. Untersuchung, wie andere Faktoren (wie Instruktionsabstimmung, Ausrichtung) die identifizierten Parameter beeinflussen
  2. Erweiterung auf größere Bereiche der Trainingsrechenleistung
  3. Erkundung der Anwendbarkeit in adversarialen Angriffsszenarien

Tiefgreifende Bewertung

Stärken

  1. Theoretische Innovation: Erste Einbeziehung der Kontextlänge in Skalierungsgesetze, füllt wichtige theoretische Lücke
  2. Praktischer Wert: Bietet interpretierbaren Rahmen zur Anleitung der Gestaltung von LLMs mit langem Kontext
  3. Umfangreiche Experimente: Großflächige Validierung mit 65.500 Instanzen, über mehrere Aufgaben und Modelle
  4. Starke Verallgemeinerungsfähigkeit: Zeigt gute Verallgemeinerungsleistung über mehrere Dimensionen
  5. Einfache Methode: Bietet intuitive interpretierbare Funktionsform im Vergleich zu bestehenden komplexen Methoden

Mängel

  1. Modellbeschränkung: Validierung nur auf Llama-2-Serie, mangelnde Validierung über breitere Modellfamilien
  2. Aufgabenabdeckung: Umfasst nur 3 Aufgabentypen, Anwendbarkeit auf andere NLP-Aufgaben unbekannt
  3. Theoretische Grundlage: Mangelnde tiefere theoretische Erklärung für die Wahl der spezifischen Funktionsform
  4. Parameterinterpretation: Unzureichende Analyse der physikalischen Bedeutung und gegenseitigen Beziehungen der Parameter

Einflussfähigkeit

  1. Akademischer Wert: Eröffnet neue Richtung in der Skalierungsgesetze-Forschung, erwartet breite Aufmerksamkeit
  2. Praktische Anleitung: Bietet quantitative Werkzeuge für die Industrie zur Gestaltung von Modellen mit langem Kontext
  3. Reproduzierbarkeit: Bietet vollständigen Code und detaillierte experimentelle Einrichtung für einfache Reproduktion und Erweiterung

Anwendungsszenarien

  1. Modellgestaltung: Anleitung zur Ressourcenallokation für Trainingsrechenleistung in LLMs mit langem Kontext
  2. Leistungsvorhersage: Schätzung der Modellleistung vor kostspieligen großflächigen Trainings
  3. Aufgabenanalyse: Verständnis der Empfindlichkeit verschiedener Aufgaben gegenüber Kontextlänge
  4. Ressourcenoptimierung: Optimierung der Kontextfenstergröße unter gegebenen Rechenbudgets

Literaturverzeichnis

  1. Kaplan, J., et al. (2020). Scaling laws for neural language models. arXiv:2001.08361.
  2. Chen, Y., et al. (2024). Scaling laws for predicting downstream performance in llms. arXiv:2410.08527.
  3. Peng, B., et al. (2024). YaRN: Efficient context window extension of large language models. ICLR.
  4. Wei, J., et al. (2022). Emergent abilities of large language models. TMLR.
  5. Touvron, H., et al. (2023). Llama 2: Open foundation and fine-tuned chat models. arXiv:2307.09288.

Dieses Papier leistet einen wichtigen Beitrag zur Forschung im Bereich der Skalierungsgesetze und integriert systematisch zum ersten Mal die Kontextlänge in die Vorhersage der Leistung nachgelagerter Aufgaben, bietet wertvolle theoretische Werkzeuge und praktische Anleitung für die Gestaltung und Optimierung von LLMs mit langem Kontext.