A typical approach developers follow to influence an LLM's behavior in an application is through careful manipulation of the prompt, such as by adding or modifying instructions. However, merely adding more instructions provides little assurance that they will actually be followed. We introduce Instruction Boosting as a post-generation method to increase the reliability of LLM prompt instructions. We show that Instruction Boosting improves the instruction following rate by up to 7 points for two instructions and up to 4 points for ten instructions. To demonstrate these results we introduce SCALEDIF, a benchmark with a scaled instruction volume of up to ten instructions per data sample. We also present an analysis of the commonly observed trend that performance degrades as more instructions are added. We show that an important factor contributing to this trend is the degree of tension and conflict that arises as the number of instructions is increased. We contribute a quantitative conflict scoring tool that explains the observed performance trends and provides feedback to developers on the impact that additional prompt instructions have on a model's performance.
academic
Verbesserung der Befehlsbefolgung im großen Maßstab
Entwickler beeinflussen das Verhalten großer Sprachmodelle (LLMs) üblicherweise durch sorgfältig gestaltete Eingabeaufforderungen, beispielsweise durch das Hinzufügen oder Ändern von Befehlen. Jedoch garantiert das bloße Hinzufügen weiterer Befehle nicht, dass diese tatsächlich befolgt werden. Dieses Papier schlägt Instruction Boosting als eine Post-Generierungsmethode vor, um die Zuverlässigkeit von LLM-Eingabeaufforderungsbefehlen zu verbessern. Die Forschung zeigt, dass Instruction Boosting bei zwei Befehlen die Befehlsbefolgungsrate um bis zu 7 Prozentpunkte erhöhen kann und bei zehn Befehlen um bis zu 4 Prozentpunkte. Um diese Ergebnisse zu validieren, führen die Autoren die SCALEDIF-Benchmark ein, die bis zu zehn Befehle pro Datenstichprobe enthält. Das Papier analysiert auch den häufigen Leistungsabfall mit zunehmender Befehlsanzahl und zeigt, dass ein wichtiger Faktor für diesen Trend der Grad der Spannungen und Konflikte ist, die mit der zunehmenden Befehlsanzahl entstehen.
Unzuverlässigkeit der Befehlsbefolgung: Von Entwicklern hinzugefügte Eingabeaufforderungsbefehle können nicht garantieren, dass sie tatsächlich vom LLM befolgt werden
Befehlserweiterungsproblem: Mit zunehmender Befehlsanzahl sinkt die Befehlsbefolgungsrate (IF-Rate) des LLM erheblich
Befehlskonflikte: Mehrere Befehle können Spannungen oder sogar direkte Widersprüche erzeugen, was die gleichzeitige Erfüllung aller Befehle erschwert
Vorschlag der Instruction-Boosting-Methode: Eine Post-Generierungsmethode zur Testzeit, die die Befehlsbefolgungsrate durch Korrektur und Verfeinerung der anfänglichen Antwort verbessert
Konstruktion des SCALEDIF-Datensatzes: Erweiterung des IFEval-Datensatzes mit bis zu 10 Befehlen pro Stichprobe als großflächige Befehlsbefolgungsbenchmark
Quantitatives Konflikt-Bewertungstool: Entwicklung eines quantitativen Mechanismus zur Bewertung von Befehlskonflikten, der Leistungstrends erklärt und Entwicklern Rückmeldung gibt
Konzept des weichen Konflikts: Formale Definition des Konzepts des "weichen Konflikts" zwischen Befehlen und Analyse seiner Auswirkungen auf die Leistung
Gegeben eine Abfrage Q, eine Befehlsmenge I={I₁, I₂, ..., Iₙ} und eine anfängliche Antwort R des LLM, besteht das Ziel von Instruction Boosting darin, eine korrigierte Antwort R' zu generieren, sodass R' mehr Befehle befolgt.
Post-Generierungsoptimierung: Basierend auf der Beobachtung, dass "die Korrektur suboptimaler Antworten einfacher ist als die direkte Generierung perfekter Antworten"
Multi-Strategie-Design: Bereitstellung verschiedener Strategien mit unterschiedlichen Kosten-Leistungs-Kompromissen
Quantifizierung weicher Konflikte: Empirische Identifizierung weicher Konflikte zwischen Befehlen durch Selbstspiel-Methoden
Effektivität von Instruction Boosting: Konsistente Verbesserung der Befehlsbefolgungsrate über verschiedene Modelle hinweg
Weiche Konflikte sind ein Schlüsselfaktor: Konflikte zwischen Befehlen sind ein wichtiger Grund für Schwierigkeiten bei der großflächigen Befehlsbefolgung
Umschreiben übertrifft Neugenerierung: Korrektur vorhandener Antworten ist wirksamer als Neugenerierung von Grund auf
Konflikt-Bewertung hat Vorhersagewert: Kann als Rückmeldungstool für Entwickler dienen
Einschränkung paarweiser Konflikte: Die aktuelle Konflikt-Bewertung berücksichtigt nur paarweise Befehlskonflikte und nicht komplexe Mehrbefehl-Interaktionen
Detektor-Genauigkeit: Die Genauigkeit des LLM-as-a-Judge-Detektors beträgt nur 73%, was die Boosting-Effektivität einschränkt
Das Papier zitiert wichtige Arbeiten in verwandten Bereichen wie Bewertung der Befehlsbefolgung, Selbstkorrektur und Chain-of-Thought-Reasoning und bietet damit eine solide theoretische Grundlage für die Forschung. Wichtige Referenzen umfassen die IFEval-Benchmark, Selbstkorrektur-Methoden sowie neueste Arbeiten zur Bewertung der Befehlsbefolgung.