2025-11-13T03:04:10.509981

Boosting Instruction Following at Scale

Elder, Duesterwald, Muthusamy

A typical approach developers follow to influence an LLM's behavior in an application is through careful manipulation of the prompt, such as by adding or modifying instructions. However, merely adding more instructions provides little assurance that they will actually be followed. We introduce Instruction Boosting as a post-generation method to increase the reliability of LLM prompt instructions. We show that Instruction Boosting improves the instruction following rate by up to 7 points for two instructions and up to 4 points for ten instructions. To demonstrate these results we introduce SCALEDIF, a benchmark with a scaled instruction volume of up to ten instructions per data sample. We also present an analysis of the commonly observed trend that performance degrades as more instructions are added. We show that an important factor contributing to this trend is the degree of tension and conflict that arises as the number of instructions is increased. We contribute a quantitative conflict scoring tool that explains the observed performance trends and provides feedback to developers on the impact that additional prompt instructions have on a model's performance.

academic

Verbesserung der Befehlsbefolgung im großen Maßstab

Grundinformationen

Papier-ID: 2510.14842
Titel: Boosting Instruction Following at Scale
Autoren: Ben Elder, Evelyn Duesterwald, Vinod Muthusamy (IBM T.J. Watson Research)
Klassifizierung: cs.AI
Veröffentlichungsdatum: 16. Oktober 2025 (arXiv-Preprint)
Papierlink: https://arxiv.org/abs/2510.14842

Zusammenfassung

Entwickler beeinflussen das Verhalten großer Sprachmodelle (LLMs) üblicherweise durch sorgfältig gestaltete Eingabeaufforderungen, beispielsweise durch das Hinzufügen oder Ändern von Befehlen. Jedoch garantiert das bloße Hinzufügen weiterer Befehle nicht, dass diese tatsächlich befolgt werden. Dieses Papier schlägt Instruction Boosting als eine Post-Generierungsmethode vor, um die Zuverlässigkeit von LLM-Eingabeaufforderungsbefehlen zu verbessern. Die Forschung zeigt, dass Instruction Boosting bei zwei Befehlen die Befehlsbefolgungsrate um bis zu 7 Prozentpunkte erhöhen kann und bei zehn Befehlen um bis zu 4 Prozentpunkte. Um diese Ergebnisse zu validieren, führen die Autoren die SCALEDIF-Benchmark ein, die bis zu zehn Befehle pro Datenstichprobe enthält. Das Papier analysiert auch den häufigen Leistungsabfall mit zunehmender Befehlsanzahl und zeigt, dass ein wichtiger Faktor für diesen Trend der Grad der Spannungen und Konflikte ist, die mit der zunehmenden Befehlsanzahl entstehen.

Forschungshintergrund und Motivation

Kernprobleme

Unzuverlässigkeit der Befehlsbefolgung: Von Entwicklern hinzugefügte Eingabeaufforderungsbefehle können nicht garantieren, dass sie tatsächlich vom LLM befolgt werden
Befehlserweiterungsproblem: Mit zunehmender Befehlsanzahl sinkt die Befehlsbefolgungsrate (IF-Rate) des LLM erheblich
Befehlskonflikte: Mehrere Befehle können Spannungen oder sogar direkte Widersprüche erzeugen, was die gleichzeitige Erfüllung aller Befehle erschwert

Forschungsbedeutung

LLMs sind zu einer grundlegenden Komponente der intelligenten Anwendungsentwicklung geworden, aber ihre Verhaltenskontrolle ist schwierig
Prompt Engineering ist die Hauptmethode zur Beeinflussung des LLM-Verhaltens, es fehlt jedoch an Zuverlässigkeitsgarantien
Bestehende Forschung mangelt es an systematischer Analyse von Szenarien mit großem Befehlsumfang

Einschränkungen bestehender Methoden

Traditionelle Methoden konzentrieren sich hauptsächlich auf die Befolgung einzelner oder weniger Befehle
Es fehlt an systematischen Lösungen für Befehlskonflikte und Skalierungsprobleme
Bestehende Benchmarks (wie IFEval) enthalten höchstens 3 Befehle und können Szenarien mit großem Befehlsumfang nicht bewerten

Kernbeiträge

Vorschlag der Instruction-Boosting-Methode: Eine Post-Generierungsmethode zur Testzeit, die die Befehlsbefolgungsrate durch Korrektur und Verfeinerung der anfänglichen Antwort verbessert
Konstruktion des SCALEDIF-Datensatzes: Erweiterung des IFEval-Datensatzes mit bis zu 10 Befehlen pro Stichprobe als großflächige Befehlsbefolgungsbenchmark
Quantitatives Konflikt-Bewertungstool: Entwicklung eines quantitativen Mechanismus zur Bewertung von Befehlskonflikten, der Leistungstrends erklärt und Entwicklern Rückmeldung gibt
Konzept des weichen Konflikts: Formale Definition des Konzepts des "weichen Konflikts" zwischen Befehlen und Analyse seiner Auswirkungen auf die Leistung

Methodische Details

Aufgabendefinition

Gegeben eine Abfrage Q, eine Befehlsmenge I={I₁, I₂, ..., Iₙ} und eine anfängliche Antwort R des LLM, besteht das Ziel von Instruction Boosting darin, eine korrigierte Antwort R' zu generieren, sodass R' mehr Befehle befolgt.

Instruction-Boosting-Architektur

Gesamtablauf

Anfängliche Generierung: Das LLM generiert eine anfängliche Antwort basierend auf der Abfrage und den Befehlen
Befehlserkennung: Ein IF-Detektor wird verwendet, um zu identifizieren, welche Befehle nicht befolgt werden
Boosting-Algorithmus: Spezifische Strategien werden angewendet, um die Antwort zu korrigieren
Endgültige Ausgabe: Erzeugt eine endgültige Antwort, die mehr Befehle befolgt

Vier Boosting-Strategien

1. Detect+Repair

Erkennungsphase: Verwendung eines LLM-as-a-Judge-Detektors zur Identifizierung verletzter Befehle
Reparaturphase: Umschreiben der Antwort zur Behebung aller erkannten Befehlsverletzungen

2. Best-of-N

Stichprobenentnahme von N umgeschriebenen Antworten (N=5)
Verwendung des Judge-Detektors als Reward-Modell zur Bewertung
Auswahl der Antwort mit der höchsten IF-Rate als endgültige Ausgabe

3. Best-of-N Oracle

Ähnlich wie Best-of-N, aber Verwendung eines deterministischen IFEval-Verifikators als Oracle-Reward-Modell
Wird zur Bewertung der potenziellen Obergrenze der Modellumschreibungsfähigkeit verwendet

4. Map Reduce

Map-Phase: Erstellung unabhängiger Umschreibungsaufgaben für jeden verletzten Befehl
Reduce-Phase: Zusammenführung unabhängig generierter umgeschriebener Antworten zu einer endgültigen Antwort

Technische Innovationen

Post-Generierungsoptimierung: Basierend auf der Beobachtung, dass "die Korrektur suboptimaler Antworten einfacher ist als die direkte Generierung perfekter Antworten"
Multi-Strategie-Design: Bereitstellung verschiedener Strategien mit unterschiedlichen Kosten-Leistungs-Kompromissen
Quantifizierung weicher Konflikte: Empirische Identifizierung weicher Konflikte zwischen Befehlen durch Selbstspiel-Methoden

Experimentelle Einrichtung

SCALEDIF-Datensatzkonstruktion

Basisdaten

Basierend auf 538 Stichproben des IFEval-Datensatzes (538 von ursprünglichen 541)
Jede Stichprobe enthält eine Abfrage und 10 eindeutige Befehle
26 abfrageunabhängige Befehlskategorien, unterteilt in 8 Kategoriegruppen

Befehlskategorien

change_case: Großbuchstaben-Umwandlung
combination: Kombinationsbeschränkungen
detectable_content: Erkennbarer Inhalt
detectable_format: Erkennbares Format
keywords: Schlüsselwortbeschränkungen
length_constraints: Längenbeschränkungen
punctuation: Interpunktion
startend: Start-End-Beschränkungen

Algorithmus zur Befehlsparameterauswahl

Verwendung von Algorithmus 1 zur Vermeidung von Hardkonflikten bei der Befehlsparameterauswahl:

Paarweise Befehlsausführung: Berechnung von Beschränkungen mit vorhandenen Befehlen beim Hinzufügen neuer Befehle
Parametervalidierung: Sicherstellung, dass neue Befehlsparameter alle vorhandenen Beschränkungen erfüllen
Konfliktvermeidung: Beispielsweise müssen Schlüsselwörter in keywords:existence und keywords:forbidden_words disjunkt sein

Bewertungsmetriken

Befehlsbefolgungsrate (IF-Rate): Verhältnis der vom Modell befolgten Befehle zur Gesamtzahl der Befehle
Aufgabenhaftung: Ob die Antwort mit der ursprünglichen Abfrage zusammenhängt
Konflikt-Bewertung: Quantifizierung des Grades des weichen Konflikts zwischen Befehlsmengen

Experimentelle Modelle

Llama-3.3-70B-Instruct
Llama-3.1-8B-Instruct
Qwen2.5-72B-Instruct
Mixtral-8x7B-Instruct-v0.1
Mixtral-8x22B-Instruct-v0.1

Experimentelle Ergebnisse

Hauptergebnisse

Baseline-Leistung

2 Befehle: IF-Rate von 0,56 (Mixtral-8x7B) bis 0,88 (Llama-70B)
10 Befehle: IF-Rate sinkt auf 0,39 (Mixtral-8x7B) bis 0,66 (Llama-70B)
Alle Modelle zeigen einen Trend sinkender IF-Rate mit zunehmender Befehlsanzahl

Boosting-Effekte

Best-of-N-Strategie zeigt beste Leistung:
- 2 Befehle: Maximale Verbesserung von 7 Prozentpunkten (Mixtral-8x22B)
- 10 Befehle: Maximale Verbesserung von 4 Prozentpunkten (Llama-70B)
Best-of-N Oracle zeigt Leistungsobergrenze:
- 2 Befehle: Kann 89% IF-Rate erreichen (+2 Prozentpunkte)
- 10 Befehle: Kann 75% IF-Rate erreichen (+8,5 Prozentpunkte)

Kosten-Nutzen-Analyse

Detect+Repair: Niedrigste Kosten, aber begrenzte Effektivität
Best-of-N: Gutes Gleichgewicht zwischen Kosten und Leistung
Map Reduce: Höchste Kosten, begrenzte Leistungsverbesserung
Best-of-N Gen: Etwas niedrigere Kosten als Best-of-N, aber weniger wirksam als Umschreib-Stichprobenentnahme

Konfliktanalyseergebnisse

Bewertung weicher Konflikte

Berechnung der Konflikt-Bewertung für Stichprobe s mit der Formel:

cs = Σ(i,j)∈p(s)×p(s),i≠j cij / |p(s)|

wobei cij die Konflikt-Anzahl zwischen Befehl i und j ist.

Wichtigste Erkenntnisse

Konflikt-Bewertung korreliert positiv mit Befehlsanzahl:
- 2 Befehle: Durchschnittliche Konflikt-Bewertung 0,24
- 10 Befehle: Durchschnittliche Konflikt-Bewertung 2,03
Konflikt-Bewertung korreliert negativ mit IF-Rate:
- Korrelationskoeffizient von -0,37 bei 10 Befehlen
- Mit zunehmender Befehlsanzahl nimmt die Korrelation ab
"Schwierige" Stichproben haben höhere Konflikt-Bewertungen:
- Stichproben mit niedrigerer IF-Rate haben tatsächlich höhere Konflikt-Bewertungen

Aufgabenhaftung

Fehlerquote anfänglicher Antworten: Maximal 4% (22/538 bei 8 Befehlen)
Zusätzliche Fehler nach Boosting: Maximal 1,3% (7 zusätzliche Fehler bei 10 Befehlen)

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Effektivität von Instruction Boosting: Konsistente Verbesserung der Befehlsbefolgungsrate über verschiedene Modelle hinweg
Weiche Konflikte sind ein Schlüsselfaktor: Konflikte zwischen Befehlen sind ein wichtiger Grund für Schwierigkeiten bei der großflächigen Befehlsbefolgung
Umschreiben übertrifft Neugenerierung: Korrektur vorhandener Antworten ist wirksamer als Neugenerierung von Grund auf
Konflikt-Bewertung hat Vorhersagewert: Kann als Rückmeldungstool für Entwickler dienen

Einschränkungen

Einschränkung paarweiser Konflikte: Die aktuelle Konflikt-Bewertung berücksichtigt nur paarweise Befehlskonflikte und nicht komplexe Mehrbefehl-Interaktionen
Detektor-Genauigkeit: Die Genauigkeit des LLM-as-a-Judge-Detektors beträgt nur 73%, was die Boosting-Effektivität einschränkt
Rechnerische Kosten: Boosting-Strategien erfordern zusätzliche Inferenzkosten
Aufgabenhaftungsrisiko: Der Boosting-Prozess kann dazu führen, dass die Antwort von der ursprünglichen Abfrage abweicht

Zukünftige Richtungen

Modellierung höherer Ordnung von Konflikten: Erweiterung auf komplexe Konfliktanalyse mit drei oder mehr Befehlen
Präzisere Detektoren: Entwicklung genauerer Methoden zur Erkennung der Befehlsbefolgung
Adaptives Boosting: Dynamische Auswahl von Boosting-Strategien basierend auf Konflikt-Bewertung
Trainings-Zeit-Optimierung: Integration der Befehlsbefolgungsfähigkeit in das Modelltraining

Tiefgreifende Bewertung

Stärken

Klare Problemdefinition: Genaue Identifizierung der Kernherausforderungen bei der großflächigen Befehlsbefolgung
Methodische Innovation: Vorschlag eines systematischen Post-Generierungs-Boosting-Rahmens
Strenge Experimentgestaltung: Konstruktion eines hochqualitativen großflächigen Befehlsbefolgungsbenchmarks
Theoretischer Beitrag: Das Konzept des weichen Konflikts und die Quantifizierungsmethode haben theoretischen Wert
Starke Praktikabilität: Bereitstellung mehrerer Strategien mit unterschiedlichen Kosten-Leistungs-Kompromissen

Mängel

Vereinfachte Konfliktmodellierung: Berücksichtigung nur paarweiser Konflikte, möglicherweise Übersehen komplexer Mehrbefehl-Interaktionen
Detektor-Abhängigkeit: Die Methodeneffektivität ist durch die Genauigkeit des LLM-Detektors begrenzt
Begrenzte Bewertungsreichweite: Hauptsächlich Validierung auf Open-Source-Modellen, fehlende Bewertung von Closed-Source-Modellen
Langzeitauswirkungen unbekannt: Keine Analyse der Langzeitauswirkungen wiederholten Boostings auf das Modellverhalten

Auswirkungen

Akademischer Beitrag: Bereitstellung neuer Bewertungsbenchmarks und Methodenrahmen für die Befehlsbefolgungsforschung
Praktischer Wert: Bereitstellung praktischer Tools zur Verbesserung der Befehlszuverlässigkeit für LLM-Anwendungsentwickler
Reproduzierbarkeit: Detaillierte Methodenbeschreibungen und Prompt-Vorlagen unterstützen die Ergebnisreproduzierbarkeit
Erweiterungspotenzial: Der Methodenrahmen kann auf andere Sprachgenerierungsaufgaben erweitert werden

Anwendungsszenarien

Mehreinschränkungs-Generierungsaufgaben: Szenarien, in denen mehrere Format-, Inhalts- und Stilbeschränkungen gleichzeitig erfüllt werden müssen
Hochzuverlässigkeitsanwendungen: Geschäftsanwendungen mit hohen Anforderungen an die Genauigkeit der Befehlsbefolgung
Prompt-Engineering-Optimierung: Hilft Entwicklern, Befehlskonflikte zu identifizieren und zu lösen
Modellbewertung: Bereitstellung standardisierter Bewertungstools für die LLM-Befehlsbefolgungsfähigkeit

Referenzen

Das Papier zitiert wichtige Arbeiten in verwandten Bereichen wie Bewertung der Befehlsbefolgung, Selbstkorrektur und Chain-of-Thought-Reasoning und bietet damit eine solide theoretische Grundlage für die Forschung. Wichtige Referenzen umfassen die IFEval-Benchmark, Selbstkorrektur-Methoden sowie neueste Arbeiten zur Bewertung der Befehlsbefolgung.