Order Matters: Rethinking Prompt Construction in In-Context Learning
Li, Wang, Wang et al.
In-context learning (ICL) enables large language models to perform new tasks by conditioning on a sequence of examples. Most prior work reasonably and intuitively assumes that which examples are chosen has a far greater effect on performance than how those examples are ordered, leading to a focus on example selection. We revisit this assumption and conduct a systematic comparison between the effect of selection and ordering. Through controlled experiments on both classification and generation tasks, using multiple open-source model families (0.5B to 27B parameters) and GPT-5, we find that the variance in performance due to different example orderings is comparable to that from using entirely different example sets. Furthermore, we show that strong orderings can be identified using only a development set, achieving performance close to an oracle that selects the best ordering based on test labels. Our findings highlight the equal and intertwined importance of example selection and ordering in prompt design, calling for a reexamination of the assumptions held in ICL.
academic
Order Matters: Rethinking Prompt Construction in In-Context Learning
Dieses Papier stellt eine grundlegende Annahme im Bereich des In-Context Learning (ICL) in Frage: dass die Beispielauswahl wichtiger ist als die Beispielreihenfolge. Durch systematische Experimente bei Klassifizierungs- und Generierungsaufgaben zeigen die Autoren, dass die durch die Beispielreihenfolge verursachten Leistungsschwankungen vergleichbar mit den Auswirkungen eines vollständigen Austauschs des Beispielsatzes sind. Die Forschung umfasst mehrere Open-Source-Modellfamilien mit 0,5B bis 27B Parametern sowie GPT-5. Darüber hinaus zeigt die Forschung, dass allein mit dem Entwicklungssatz starke Reihenfolgen identifiziert werden können, die nahe an der Oracle-Leistung liegen. Diese Erkenntnisse fordern eine Neubewertung der Prompt-Konstruktionsstrategien im ICL auf und betonen, dass Beispielauswahl und Reihenfolge gleich wichtig sind.
Beim In-Context Learning führen große Sprachmodelle neue Aufgaben durch, indem sie sich auf wenige Beispiele bedingen, ohne Gradient-Updates oder aufgabenspezifisches Fine-Tuning. Obwohl bekannt ist, dass die ICL-Leistung beispielabhängig ist, gehen bestehende Forschungsarbeiten allgemein davon aus, dass die Beispielauswahl wichtiger ist als die Beispielreihenfolge, was dazu führt, dass sich die Forschung auf die Beispielauswahl konzentriert.
Praktische Bedeutung: Wenn Reihenfolge und Auswahl gleich wichtig sind, könnte das aktuelle Forschungsparadigma, das sich nur auf die Beispielauswahl konzentriert, eine wichtige Dimension der Leistungsverbesserung übersehen
Theoretische Bedeutung: Das Verständnis der Reihenfolgeempfindlichkeit trägt dazu bei, die Kontextverarbeitungsmechanismen von LLMs zu enthüllen
Anwendungswert: Die Optimierung der Reihenfolge könnte die Modellleistung ohne Kosten verbessern
Forschungsverzerrung: Die meisten Arbeiten gehen implizit davon aus, dass die Reihenfolge ein sekundärer Faktor ist, und es fehlt ein systematischer quantitativer Vergleich
Methodische Mängel: Frühere Forschungen vermischten bei der Vergleichung der Auswirkungen von Reihenfolge und Auswahl oft die Auswirkungen beider
Unzureichende praktische Anleitung: Es fehlt an wirksamen Methoden zur Identifizierung der optimalen Reihenfolge in praktischen Anwendungen
Die Autoren führen durch kontrollierte experimentelle Designs unabhängig Auswahl und Reihenfolge durch und quantifizieren systematisch die relative Auswirkung beider, um die konventionelle Weisheit des Feldes in Frage zu stellen.
Quantitativer Nachweis: Durch kontrollierte Experimente wird nachgewiesen, dass die Leistungsauswirkungen der Beispielreihenfolge mit der Beispielauswahl vergleichbar sind, mit einer durchschnittlichen Standardabweichung der Reihenfolgeempfindlichkeit von 0,01970 und der Auswahlempfindlichkeit von 0,02251 (nur 14% höher)
Praktische Methode: Eine auf dem Entwicklungssatz basierende Methode zur Reihenfolgeidentifizierung wird vorgeschlagen, die nur die Bewertung von 64-128 Kandidatenpermutationen erfordert, um eine nahezu Oracle-Leistung zu erreichen (99% bei Klassifizierungsaufgaben, 95% bei Generierungsaufgaben)
Systematische Analyse: Umfassende Bewertung über 8 Datensätze, 14 Modelle (0,5B-27B Parameter) und zwei Aufgabentypen (Klassifizierung/Generierung)
Wichtige Erkenntnisse:
Der Reihenfolgeeffekt variiert nicht monoton mit der Modellgröße
Generierungsaufgaben sind empfindlicher gegenüber Auswahl (r=1,46), Klassifizierungsaufgaben sind bei beiden nahezu gleich (r=1,09)
Die optimale Reihenfolge ist stark datensatzabhängig, mit schlechter Transferierbarkeit über Datensätze hinweg
Die Forschung konzentriert sich auf Few-Shot In-Context Learning mit Aufgaben, die Folgendes umfassen:
Klassifizierungsaufgaben: Gegeben k annotierte Beispiele und eine Testeingabe, das Klassenlabel vorhersagen
Generierungsaufgaben: Gegeben k Beispiele und eine Abfrage, eine freie Antwort generieren
Kernforschungsfrage: Quantifizierung der relativen Auswirkungen der Beispielreihenfolge (Ordering) und Beispielauswahl (Selection) auf die ICL-Leistung
Experimentelle Designinnovation: Durch die Definition der Standardreihenfolge wird zum ersten Mal eine vollständige Entkopplung der Auswahl- und Reihenfolgeeffekte erreicht
Messmethode: Vorschlag der gruppierten Standardabweichung (Grouped Standard Deviation) als einheitliche Empfindlichkeitsmessung, die einen fairen Vergleich beider Faktoren ermöglicht
Praktische Balance: Die Methode erfordert keinen Oracle-Zugriff auf Test-Labels, sondern nur einen kleinen Entwicklungssatz (250 Proben sind ausreichend)
Systematische Bewertung: Erste umfassende Vergleichsstudie zwischen Reihenfolge und Auswahl über mehrere Modelle, Aufgaben und Skalen hinweg
Kleinere Modelle sind empfindlicher: Die Empfindlichkeit des 0,5B-Modells ist etwa doppelt so hoch wie die des 7B-Modells
Kein monotoner Trend: Der r-Wert variiert nicht monoton mit der Modellgröße
Anomalie bei Unternehmensmodellen: GPT-5-nano ist empfindlicher gegenüber Reihenfolge (r<1), was möglicherweise unterschiedliche Trainingsstrategien widerspiegelt
Das Papier bietet keine spezifischen qualitativen Analysen von Beispielen, aber aus den numerischen Ergebnissen können folgende Rückschlüsse gezogen werden:
Maximalabweichungsfall (Tabelle 4):
Llama-3.1-8B auf DBPedia:
Reihenfolgeempfindlichkeit: 0,08791
Auswahlempfindlichkeit: 0,13226
Dies bedeutet, dass allein die Reihenfolgeänderung zu einer Genauigkeitsschwankung von ±17,6% führen kann
Zhao et al. (2021): Erste systematische Demonstration der hohen Reihenfolgeempfindlichkeit von GPT-3, mit Genauigkeitsschwankungen von Dutzenden von Prozentpunkten, zurückgeführt auf die übermäßige Abhängigkeit des Modells vom frühen Kontext
Lu et al. (2022): Nachweis, dass die optimale Reihenfolge nahezu SOTA-Leistung erreichen kann, während schlechte Reihenfolge die Genauigkeit auf Zufallsniveau senkt
Beitrag dieses Papiers: Erste quantitative Vergleichung der relativen Auswirkungen von Reihenfolge und Auswahl, nicht nur Beobachtung der Existenz der Reihenfolgeempfindlichkeit
Min et al. (2022): Betonung der Bedeutung der Beispielauswahl
Rubin et al. (2022): Vorschlag einer auf Abruf basierenden Beispielauswahlmethode
Zhang et al. (2022), Guo et al. (2024): Neuere Forschungen beginnen zu erkennen, dass Reihenfolge möglicherweise gleich wichtig wie Auswahl ist
Beitrag dieses Papiers: Durch kontrollierte experimentelle Designs wird zum ersten Mal ein quantitativer Vergleich der Auswirkungen beider bereitgestellt (r-Wert)
Heuristische Methoden: Permutationsabtastung auf dem Entwicklungssatz (Zhao et al., 2021; Zhang et al., 2022)
Adaptive Methoden: Dynamische Neuanordnung basierend auf Test-Abfragen (Guo et al., 2024)
Verstärkungslernen: RL-basierte Suche (Bhope et al., 2023)
Beitrag dieses Papiers: Vorschlag einer einfachen und wirksamen Entwicklungssatz-Auswahlmethode, Nachweis, dass ohne komplexe Algorithmen eine nahezu optimale Reihenfolge erreicht werden kann
Kernerkenntnisse: Die Leistungsauswirkungen der Beispielreihenfolge sind vergleichbar mit der Beispielauswahl, wobei die Reihenfolgeempfindlichkeit durchschnittlich 88% der Auswahlempfindlichkeit beträgt (r=1,14)
Praktische Methode: Nur die Bewertung von 64-128 Permutationen und 250 Entwicklungsproben sind erforderlich, um eine nahezu optimale Reihenfolge zu finden
Universalität: Diese Erkenntnisse gelten für Modelle von 0,5B bis 27B Parametern, Klassifizierungs- und Generierungsaufgaben
Spezifität: Die optimale Reihenfolge ist stark datensatzabhängig, mit schlechter Transferierbarkeit über Datensätze hinweg (Transferrate 79,8%)
Modellgrößeneffekt: Kleinere Modelle sind empfindlicher, aber die relative Bedeutung von Reihenfolge und Auswahl variiert nicht monoton mit der Größe
Beispielzahl: k-Wert auf 2|C| oder 8 festgelegt, systematische Untersuchung verschiedener Shot-Zahlen fehlt
Standardreihenfolgedefinition: Obwohl die Wahl der alphabetischen Reihenfolge vernünftig ist, könnte sie kleine Abweichungen einführen
Rechnerische Kosten: Die Bewertung von 128 Permutationen × 10 Beispielsätzen erfordert immer noch erhebliche Rechenressourcen, in praktischen Anwendungen möglicherweise Kompromisse erforderlich
Unzureichende theoretische Erklärung: Mangel an tiefem Mechanismusverständnis für die Bedeutung der Reihenfolge
Kontrollierte experimentelle Designs: Durch die Definition der Standardreihenfolge wird eine vollständige Entkopplung von Auswahl und Reihenfolge erreicht, Verwechslungsfaktoren vermieden
Neubewertung von ICL-Annahmen: Sind andere als sekundär angesehene Faktoren (wie Beispielformat, Label-Wortauswahl) ebenfalls unterschätzt?
Gemeinsames Optimierungsrahmenwerk: Zukünftige Arbeiten sollten Methoden zur gleichzeitigen Optimierung von Auswahl und Reihenfolge entwickeln, anstatt diese unabhängig zu behandeln
Mechanismusforschung: Dringende Notwendigkeit theoretischer Arbeiten zur Erklärung der Wurzeln der Reihenfolgeempfindlichkeit (Positionsverzerrung? Aufmerksamkeitsmechanismus?)
Adaptive Methoden: Entwicklung von Online-Reihenfolgeoptimierungsalgorithmen ohne Entwicklungssatz
Robustheitsforschung: Wie können Modelle trainiert werden, um weniger reihenfolgeempfindlich zu sein?
Dies ist eine hochwertige, hocheinflussreiche Forschungsarbeit, deren Kernwert darin liegt:
Herausforderung grundlegender Feldannahmen: Strenge experimentelle Nachweise, dass Reihenfolge und Auswahl gleich wichtig sind
Bereitstellung praktischer Lösungen: Einfache und wirksame Entwicklungssatz-Auswahlmethode
Starke Systematik: Umfassende Bewertung über Modelle, Aufgaben und Skalen hinweg
Starke Inspirationskraft: Mehrere wichtige Richtungen für nachfolgende Forschung aufgezeigt
Die Hauptmängel liegen in unzureichender theoretischer Erklärung und begrenzter Transferierbarkeitsforschung, aber diese beeinträchtigen nicht seinen Status als wichtiger Beitrag zum ICL-Feld.
Empfohlene Leserschaft: Alle Forscher und Ingenieure, die an ICL, Prompt Engineering und LLM-Anwendungen arbeiten.