2025-11-13T03:04:10.509981

Boosting Instruction Following at Scale

Elder, Duesterwald, Muthusamy
A typical approach developers follow to influence an LLM's behavior in an application is through careful manipulation of the prompt, such as by adding or modifying instructions. However, merely adding more instructions provides little assurance that they will actually be followed. We introduce Instruction Boosting as a post-generation method to increase the reliability of LLM prompt instructions. We show that Instruction Boosting improves the instruction following rate by up to 7 points for two instructions and up to 4 points for ten instructions. To demonstrate these results we introduce SCALEDIF, a benchmark with a scaled instruction volume of up to ten instructions per data sample. We also present an analysis of the commonly observed trend that performance degrades as more instructions are added. We show that an important factor contributing to this trend is the degree of tension and conflict that arises as the number of instructions is increased. We contribute a quantitative conflict scoring tool that explains the observed performance trends and provides feedback to developers on the impact that additional prompt instructions have on a model's performance.
academic

Verbesserung der Befehlsbefolgung im großen Maßstab

Grundinformationen

  • Papier-ID: 2510.14842
  • Titel: Boosting Instruction Following at Scale
  • Autoren: Ben Elder, Evelyn Duesterwald, Vinod Muthusamy (IBM T.J. Watson Research)
  • Klassifizierung: cs.AI
  • Veröffentlichungsdatum: 16. Oktober 2025 (arXiv-Preprint)
  • Papierlink: https://arxiv.org/abs/2510.14842

Zusammenfassung

Entwickler beeinflussen das Verhalten großer Sprachmodelle (LLMs) üblicherweise durch sorgfältig gestaltete Eingabeaufforderungen, beispielsweise durch das Hinzufügen oder Ändern von Befehlen. Jedoch garantiert das bloße Hinzufügen weiterer Befehle nicht, dass diese tatsächlich befolgt werden. Dieses Papier schlägt Instruction Boosting als eine Post-Generierungsmethode vor, um die Zuverlässigkeit von LLM-Eingabeaufforderungsbefehlen zu verbessern. Die Forschung zeigt, dass Instruction Boosting bei zwei Befehlen die Befehlsbefolgungsrate um bis zu 7 Prozentpunkte erhöhen kann und bei zehn Befehlen um bis zu 4 Prozentpunkte. Um diese Ergebnisse zu validieren, führen die Autoren die SCALEDIF-Benchmark ein, die bis zu zehn Befehle pro Datenstichprobe enthält. Das Papier analysiert auch den häufigen Leistungsabfall mit zunehmender Befehlsanzahl und zeigt, dass ein wichtiger Faktor für diesen Trend der Grad der Spannungen und Konflikte ist, die mit der zunehmenden Befehlsanzahl entstehen.

Forschungshintergrund und Motivation

Kernprobleme

  1. Unzuverlässigkeit der Befehlsbefolgung: Von Entwicklern hinzugefügte Eingabeaufforderungsbefehle können nicht garantieren, dass sie tatsächlich vom LLM befolgt werden
  2. Befehlserweiterungsproblem: Mit zunehmender Befehlsanzahl sinkt die Befehlsbefolgungsrate (IF-Rate) des LLM erheblich
  3. Befehlskonflikte: Mehrere Befehle können Spannungen oder sogar direkte Widersprüche erzeugen, was die gleichzeitige Erfüllung aller Befehle erschwert

Forschungsbedeutung

  • LLMs sind zu einer grundlegenden Komponente der intelligenten Anwendungsentwicklung geworden, aber ihre Verhaltenskontrolle ist schwierig
  • Prompt Engineering ist die Hauptmethode zur Beeinflussung des LLM-Verhaltens, es fehlt jedoch an Zuverlässigkeitsgarantien
  • Bestehende Forschung mangelt es an systematischer Analyse von Szenarien mit großem Befehlsumfang

Einschränkungen bestehender Methoden

  • Traditionelle Methoden konzentrieren sich hauptsächlich auf die Befolgung einzelner oder weniger Befehle
  • Es fehlt an systematischen Lösungen für Befehlskonflikte und Skalierungsprobleme
  • Bestehende Benchmarks (wie IFEval) enthalten höchstens 3 Befehle und können Szenarien mit großem Befehlsumfang nicht bewerten

Kernbeiträge

  1. Vorschlag der Instruction-Boosting-Methode: Eine Post-Generierungsmethode zur Testzeit, die die Befehlsbefolgungsrate durch Korrektur und Verfeinerung der anfänglichen Antwort verbessert
  2. Konstruktion des SCALEDIF-Datensatzes: Erweiterung des IFEval-Datensatzes mit bis zu 10 Befehlen pro Stichprobe als großflächige Befehlsbefolgungsbenchmark
  3. Quantitatives Konflikt-Bewertungstool: Entwicklung eines quantitativen Mechanismus zur Bewertung von Befehlskonflikten, der Leistungstrends erklärt und Entwicklern Rückmeldung gibt
  4. Konzept des weichen Konflikts: Formale Definition des Konzepts des "weichen Konflikts" zwischen Befehlen und Analyse seiner Auswirkungen auf die Leistung

Methodische Details

Aufgabendefinition

Gegeben eine Abfrage Q, eine Befehlsmenge I={I₁, I₂, ..., Iₙ} und eine anfängliche Antwort R des LLM, besteht das Ziel von Instruction Boosting darin, eine korrigierte Antwort R' zu generieren, sodass R' mehr Befehle befolgt.

Instruction-Boosting-Architektur

Gesamtablauf

  1. Anfängliche Generierung: Das LLM generiert eine anfängliche Antwort basierend auf der Abfrage und den Befehlen
  2. Befehlserkennung: Ein IF-Detektor wird verwendet, um zu identifizieren, welche Befehle nicht befolgt werden
  3. Boosting-Algorithmus: Spezifische Strategien werden angewendet, um die Antwort zu korrigieren
  4. Endgültige Ausgabe: Erzeugt eine endgültige Antwort, die mehr Befehle befolgt

Vier Boosting-Strategien

1. Detect+Repair

  • Erkennungsphase: Verwendung eines LLM-as-a-Judge-Detektors zur Identifizierung verletzter Befehle
  • Reparaturphase: Umschreiben der Antwort zur Behebung aller erkannten Befehlsverletzungen

2. Best-of-N

  • Stichprobenentnahme von N umgeschriebenen Antworten (N=5)
  • Verwendung des Judge-Detektors als Reward-Modell zur Bewertung
  • Auswahl der Antwort mit der höchsten IF-Rate als endgültige Ausgabe

3. Best-of-N Oracle

  • Ähnlich wie Best-of-N, aber Verwendung eines deterministischen IFEval-Verifikators als Oracle-Reward-Modell
  • Wird zur Bewertung der potenziellen Obergrenze der Modellumschreibungsfähigkeit verwendet

4. Map Reduce

  • Map-Phase: Erstellung unabhängiger Umschreibungsaufgaben für jeden verletzten Befehl
  • Reduce-Phase: Zusammenführung unabhängig generierter umgeschriebener Antworten zu einer endgültigen Antwort

Technische Innovationen

  1. Post-Generierungsoptimierung: Basierend auf der Beobachtung, dass "die Korrektur suboptimaler Antworten einfacher ist als die direkte Generierung perfekter Antworten"
  2. Multi-Strategie-Design: Bereitstellung verschiedener Strategien mit unterschiedlichen Kosten-Leistungs-Kompromissen
  3. Quantifizierung weicher Konflikte: Empirische Identifizierung weicher Konflikte zwischen Befehlen durch Selbstspiel-Methoden

Experimentelle Einrichtung

SCALEDIF-Datensatzkonstruktion

Basisdaten

  • Basierend auf 538 Stichproben des IFEval-Datensatzes (538 von ursprünglichen 541)
  • Jede Stichprobe enthält eine Abfrage und 10 eindeutige Befehle
  • 26 abfrageunabhängige Befehlskategorien, unterteilt in 8 Kategoriegruppen

Befehlskategorien

  1. change_case: Großbuchstaben-Umwandlung
  2. combination: Kombinationsbeschränkungen
  3. detectable_content: Erkennbarer Inhalt
  4. detectable_format: Erkennbares Format
  5. keywords: Schlüsselwortbeschränkungen
  6. length_constraints: Längenbeschränkungen
  7. punctuation: Interpunktion
  8. startend: Start-End-Beschränkungen

Algorithmus zur Befehlsparameterauswahl

Verwendung von Algorithmus 1 zur Vermeidung von Hardkonflikten bei der Befehlsparameterauswahl:

  • Paarweise Befehlsausführung: Berechnung von Beschränkungen mit vorhandenen Befehlen beim Hinzufügen neuer Befehle
  • Parametervalidierung: Sicherstellung, dass neue Befehlsparameter alle vorhandenen Beschränkungen erfüllen
  • Konfliktvermeidung: Beispielsweise müssen Schlüsselwörter in keywords:existence und keywords:forbidden_words disjunkt sein

Bewertungsmetriken

  • Befehlsbefolgungsrate (IF-Rate): Verhältnis der vom Modell befolgten Befehle zur Gesamtzahl der Befehle
  • Aufgabenhaftung: Ob die Antwort mit der ursprünglichen Abfrage zusammenhängt
  • Konflikt-Bewertung: Quantifizierung des Grades des weichen Konflikts zwischen Befehlsmengen

Experimentelle Modelle

  • Llama-3.3-70B-Instruct
  • Llama-3.1-8B-Instruct
  • Qwen2.5-72B-Instruct
  • Mixtral-8x7B-Instruct-v0.1
  • Mixtral-8x22B-Instruct-v0.1

Experimentelle Ergebnisse

Hauptergebnisse

Baseline-Leistung

  • 2 Befehle: IF-Rate von 0,56 (Mixtral-8x7B) bis 0,88 (Llama-70B)
  • 10 Befehle: IF-Rate sinkt auf 0,39 (Mixtral-8x7B) bis 0,66 (Llama-70B)
  • Alle Modelle zeigen einen Trend sinkender IF-Rate mit zunehmender Befehlsanzahl

Boosting-Effekte

  • Best-of-N-Strategie zeigt beste Leistung:
    • 2 Befehle: Maximale Verbesserung von 7 Prozentpunkten (Mixtral-8x22B)
    • 10 Befehle: Maximale Verbesserung von 4 Prozentpunkten (Llama-70B)
  • Best-of-N Oracle zeigt Leistungsobergrenze:
    • 2 Befehle: Kann 89% IF-Rate erreichen (+2 Prozentpunkte)
    • 10 Befehle: Kann 75% IF-Rate erreichen (+8,5 Prozentpunkte)

Kosten-Nutzen-Analyse

  • Detect+Repair: Niedrigste Kosten, aber begrenzte Effektivität
  • Best-of-N: Gutes Gleichgewicht zwischen Kosten und Leistung
  • Map Reduce: Höchste Kosten, begrenzte Leistungsverbesserung
  • Best-of-N Gen: Etwas niedrigere Kosten als Best-of-N, aber weniger wirksam als Umschreib-Stichprobenentnahme

Konfliktanalyseergebnisse

Bewertung weicher Konflikte

Berechnung der Konflikt-Bewertung für Stichprobe s mit der Formel:

cs = Σ(i,j)∈p(s)×p(s),i≠j cij / |p(s)|

wobei cij die Konflikt-Anzahl zwischen Befehl i und j ist.

Wichtigste Erkenntnisse

  1. Konflikt-Bewertung korreliert positiv mit Befehlsanzahl:
    • 2 Befehle: Durchschnittliche Konflikt-Bewertung 0,24
    • 10 Befehle: Durchschnittliche Konflikt-Bewertung 2,03
  2. Konflikt-Bewertung korreliert negativ mit IF-Rate:
    • Korrelationskoeffizient von -0,37 bei 10 Befehlen
    • Mit zunehmender Befehlsanzahl nimmt die Korrelation ab
  3. "Schwierige" Stichproben haben höhere Konflikt-Bewertungen:
    • Stichproben mit niedrigerer IF-Rate haben tatsächlich höhere Konflikt-Bewertungen

Aufgabenhaftung

  • Fehlerquote anfänglicher Antworten: Maximal 4% (22/538 bei 8 Befehlen)
  • Zusätzliche Fehler nach Boosting: Maximal 1,3% (7 zusätzliche Fehler bei 10 Befehlen)

Verwandte Arbeiten

Bewertung der Befehlsbefolgung

  • IFEval: Konzentriert sich auf überprüfbare Befehle mit deterministischen Überprüfungen (1-3 Befehle)
  • ComplexBench & FollowBench: Bewertung der Fähigkeit zur Verarbeitung komplexer Befehle
  • InFoBench: Einführung der DRFR-Metrik für detaillierte Analyse
  • RefuteBench: Konzentriert sich auf Widerlegungsbefolgung in Gesprächen

Test-Zeit-Interventionsmethoden

  • Selbstkorrektur: Aufforderung an das Modell, seine eigene Ausgabe zu bewerten und zu verbessern
  • Chain-of-Thought-Prompting: Zerlegung komplexer Probleme in verwaltbare Schritte
  • Selbstkonsistenz: Auswahl des konsistentesten Ergebnisses durch Stichprobenentnahme mehrerer Antworten

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Effektivität von Instruction Boosting: Konsistente Verbesserung der Befehlsbefolgungsrate über verschiedene Modelle hinweg
  2. Weiche Konflikte sind ein Schlüsselfaktor: Konflikte zwischen Befehlen sind ein wichtiger Grund für Schwierigkeiten bei der großflächigen Befehlsbefolgung
  3. Umschreiben übertrifft Neugenerierung: Korrektur vorhandener Antworten ist wirksamer als Neugenerierung von Grund auf
  4. Konflikt-Bewertung hat Vorhersagewert: Kann als Rückmeldungstool für Entwickler dienen

Einschränkungen

  1. Einschränkung paarweiser Konflikte: Die aktuelle Konflikt-Bewertung berücksichtigt nur paarweise Befehlskonflikte und nicht komplexe Mehrbefehl-Interaktionen
  2. Detektor-Genauigkeit: Die Genauigkeit des LLM-as-a-Judge-Detektors beträgt nur 73%, was die Boosting-Effektivität einschränkt
  3. Rechnerische Kosten: Boosting-Strategien erfordern zusätzliche Inferenzkosten
  4. Aufgabenhaftungsrisiko: Der Boosting-Prozess kann dazu führen, dass die Antwort von der ursprünglichen Abfrage abweicht

Zukünftige Richtungen

  1. Modellierung höherer Ordnung von Konflikten: Erweiterung auf komplexe Konfliktanalyse mit drei oder mehr Befehlen
  2. Präzisere Detektoren: Entwicklung genauerer Methoden zur Erkennung der Befehlsbefolgung
  3. Adaptives Boosting: Dynamische Auswahl von Boosting-Strategien basierend auf Konflikt-Bewertung
  4. Trainings-Zeit-Optimierung: Integration der Befehlsbefolgungsfähigkeit in das Modelltraining

Tiefgreifende Bewertung

Stärken

  1. Klare Problemdefinition: Genaue Identifizierung der Kernherausforderungen bei der großflächigen Befehlsbefolgung
  2. Methodische Innovation: Vorschlag eines systematischen Post-Generierungs-Boosting-Rahmens
  3. Strenge Experimentgestaltung: Konstruktion eines hochqualitativen großflächigen Befehlsbefolgungsbenchmarks
  4. Theoretischer Beitrag: Das Konzept des weichen Konflikts und die Quantifizierungsmethode haben theoretischen Wert
  5. Starke Praktikabilität: Bereitstellung mehrerer Strategien mit unterschiedlichen Kosten-Leistungs-Kompromissen

Mängel

  1. Vereinfachte Konfliktmodellierung: Berücksichtigung nur paarweiser Konflikte, möglicherweise Übersehen komplexer Mehrbefehl-Interaktionen
  2. Detektor-Abhängigkeit: Die Methodeneffektivität ist durch die Genauigkeit des LLM-Detektors begrenzt
  3. Begrenzte Bewertungsreichweite: Hauptsächlich Validierung auf Open-Source-Modellen, fehlende Bewertung von Closed-Source-Modellen
  4. Langzeitauswirkungen unbekannt: Keine Analyse der Langzeitauswirkungen wiederholten Boostings auf das Modellverhalten

Auswirkungen

  1. Akademischer Beitrag: Bereitstellung neuer Bewertungsbenchmarks und Methodenrahmen für die Befehlsbefolgungsforschung
  2. Praktischer Wert: Bereitstellung praktischer Tools zur Verbesserung der Befehlszuverlässigkeit für LLM-Anwendungsentwickler
  3. Reproduzierbarkeit: Detaillierte Methodenbeschreibungen und Prompt-Vorlagen unterstützen die Ergebnisreproduzierbarkeit
  4. Erweiterungspotenzial: Der Methodenrahmen kann auf andere Sprachgenerierungsaufgaben erweitert werden

Anwendungsszenarien

  1. Mehreinschränkungs-Generierungsaufgaben: Szenarien, in denen mehrere Format-, Inhalts- und Stilbeschränkungen gleichzeitig erfüllt werden müssen
  2. Hochzuverlässigkeitsanwendungen: Geschäftsanwendungen mit hohen Anforderungen an die Genauigkeit der Befehlsbefolgung
  3. Prompt-Engineering-Optimierung: Hilft Entwicklern, Befehlskonflikte zu identifizieren und zu lösen
  4. Modellbewertung: Bereitstellung standardisierter Bewertungstools für die LLM-Befehlsbefolgungsfähigkeit

Referenzen

Das Papier zitiert wichtige Arbeiten in verwandten Bereichen wie Bewertung der Befehlsbefolgung, Selbstkorrektur und Chain-of-Thought-Reasoning und bietet damit eine solide theoretische Grundlage für die Forschung. Wichtige Referenzen umfassen die IFEval-Benchmark, Selbstkorrektur-Methoden sowie neueste Arbeiten zur Bewertung der Befehlsbefolgung.