Order Matters: Rethinking Prompt Construction in In-Context Learning
Li, Wang, Wang et al.
In-context learning (ICL) enables large language models to perform new tasks by conditioning on a sequence of examples. Most prior work reasonably and intuitively assumes that which examples are chosen has a far greater effect on performance than how those examples are ordered, leading to a focus on example selection. We revisit this assumption and conduct a systematic comparison between the effect of selection and ordering. Through controlled experiments on both classification and generation tasks, using multiple open-source model families (0.5B to 27B parameters) and GPT-5, we find that the variance in performance due to different example orderings is comparable to that from using entirely different example sets. Furthermore, we show that strong orderings can be identified using only a development set, achieving performance close to an oracle that selects the best ordering based on test labels. Our findings highlight the equal and intertwined importance of example selection and ordering in prompt design, calling for a reexamination of the assumptions held in ICL.
academic
L'Ordine Conta: Ripensare la Costruzione dei Prompt nell'Apprendimento In-Context
Questo articolo sfida un'assunzione fondamentale nel campo dell'apprendimento in-context (ICL): che la selezione degli esempi sia più importante dell'ordine degli esempi. Attraverso esperimenti sistematici su compiti di classificazione e generazione, gli autori scoprono che le fluttuazioni di prestazione causate dall'ordine degli esempi sono paragonabili all'effetto della sostituzione completa dell'insieme di esempi. La ricerca copre più famiglie di modelli open-source da 0,5B a 27B parametri e GPT-5. Inoltre, lo studio dimostra che è possibile identificare ordini forti con prestazioni prossime all'oracle utilizzando solo l'insieme di sviluppo. Questi risultati richiedono una rivalutazione delle strategie di costruzione dei prompt nell'ICL, sottolineando l'importanza equivalente della selezione e dell'ordine degli esempi.
Nell'apprendimento in-context, i modelli linguistici di grandi dimensioni eseguono nuovi compiti condizionandosi su pochi esempi, senza aggiornamenti del gradiente o fine-tuning specifici per il compito. Sebbene sia noto che le prestazioni dell'ICL siano sensibili agli esempi, la ricerca esistente presume universalmente che la selezione degli esempi sia più importante dell'ordine degli esempi, portando il focus della ricerca sulla selezione degli esempi.
Significato Pratico: Se l'ordine è importante quanto la selezione, il paradigma di ricerca attuale che si concentra solo sulla selezione degli esempi potrebbe perdere una dimensione importante per il miglioramento delle prestazioni
Significato Teorico: Comprendere la sensibilità all'ordine aiuta a rivelare i meccanismi di elaborazione del contesto dei modelli linguistici
Valore Applicativo: L'ottimizzazione dell'ordine potrebbe migliorare le prestazioni del modello a costo zero
Pregiudizio di Ricerca: La maggior parte dei lavori presume implicitamente che l'ordine sia un fattore secondario, mancando di confronti quantitativi sistematici
Difetti Metodologici: La ricerca precedente nel confrontare gli effetti dell'ordine e della selezione spesso confonde i due fattori
Guida Pratica Insufficiente: Manca un metodo efficace per identificare l'ordine ottimale nelle applicazioni pratiche
Gli autori, attraverso progettazione sperimentale controllata, variano indipendentemente la selezione e l'ordine, quantificando sistematicamente l'impatto relativo dei due fattori e sfidando la saggezza convenzionale del settore.
Prova Quantitativa: Attraverso esperimenti controllati, dimostra che l'impatto dell'ordine degli esempi sulle prestazioni è paragonabile a quello della selezione degli esempi, con deviazione standard della sensibilità all'ordine di 0,01970 e della sensibilità alla selezione di 0,02251 (solo il 14% più alto)
Metodo Pratico: Propone un metodo di identificazione dell'ordine basato sull'insieme di sviluppo, che richiede solo la valutazione di 64-128 permutazioni candidate per recuperare prestazioni prossime all'oracle (99% per compiti di classificazione, 95% per compiti di generazione)
Analisi Sistematica: Valutazione completa su 8 dataset, 14 modelli (parametri 0,5B-27B) e due categorie di compiti (classificazione/generazione)
Scoperte Importanti:
L'effetto dell'ordine non varia monotonicamente con la scala del modello
I compiti di generazione sono più sensibili alla selezione (r=1,46), mentre i compiti di classificazione mostrano sensibilità quasi equivalente (r=1,09)
L'ordine ottimale dipende fortemente dal dataset, con scarsa trasferibilità tra dataset
La ricerca si concentra sull'apprendimento in-context few-shot, includendo compiti di:
Classificazione: Dato k esempi annotati e un input di test, prevedere l'etichetta di classe
Generazione: Dato k esempi e una query, generare una risposta in forma libera
Domanda di Ricerca Centrale: Quantificare l'impatto relativo dell'ordine degli esempi (ordering) e della selezione degli esempi (selection) sulle prestazioni dell'ICL
Input: Insieme di esempi Sᵢ, insieme di sviluppo Ddev, insieme di test Dtest,
numero di permutazioni P=128
Per ogni insieme di esempi Sᵢ (ripetuto M=10 volte):
1. Generare P permutazioni casuali {πⱼ}
2. Valutare ogni permutazione sull'insieme di sviluppo:
aⱼ = Acc(Sᵢ, πⱼ | Ddev)
3. Selezionare la permutazione ottimale: π* = argmax aⱼ
4. Valutare sull'insieme di test: a* = Acc(Sᵢ, π* | Dtest)
5. Registrare le prestazioni oracle: amax = max Acc(Sᵢ, πⱼ | Dtest)
Restituire: {a*, amax}
Innovazione nella Progettazione Sperimentale: Attraverso la definizione dell'ordine predefinito, realizza per la prima volta il completo disaccoppiamento degli effetti della selezione e dell'ordine
Metodo di Misurazione: Propone la deviazione standard raggruppata (grouped standard deviation) come misura di sensibilità unificata, permettendo il confronto equo di due fattori
Equilibrio di Praticità: Il metodo non richiede accesso all'oracle ai label di test, necessitando solo di un piccolo insieme di sviluppo (250 campioni sono sufficienti)
Valutazione Sistematica: Per la prima volta conduce un confronto completo tra ordine e selezione su più modelli, compiti e scale
Sebbene l'articolo non etichetti esplicitamente gli esperimenti di ablazione, attraverso gli esperimenti di variazione dei parametri si possono trarre conclusioni:
Effetto Marginale del Numero di Permutazioni P:
16→32: Miglioramento significativo
32→64: Miglioramento moderato
64→128: Rendimenti marginali decrescenti
Effetto Soglia della Dimensione dell'Insieme di Sviluppo:
<250 campioni: Miglioramento rapido delle prestazioni
250 campioni: Tendenza al plateau
Raccomandazione pratica: utilizzare 250-500 campioni di insieme di sviluppo
Zhao et al. (2021): Primo studio sistematico che dimostra che GPT-3 è altamente sensibile all'ordine degli esempi, con accuratezza che può fluttuare di decine di punti percentuali, attribuendo ciò alla dipendenza eccessiva del modello dal contesto iniziale
Lu et al. (2022): Dimostra che l'ordine ottimale può raggiungere prestazioni prossime allo SOTA, mentre un ordine scadente riduce l'accuratezza al livello casuale
Contributo di Questo Articolo: Primo confronto quantitativo dell'impatto relativo dell'ordine e della selezione, piuttosto che solo osservare l'esistenza della sensibilità all'ordine
Min et al. (2022): Enfatizza l'importanza della selezione degli esempi
Rubin et al. (2022): Propone metodi di selezione degli esempi basati su recupero
Zhang et al. (2022), Guo et al. (2024): Ricerche recenti iniziano a riconoscere che l'ordine potrebbe essere importante quanto la selezione
Contributo di Questo Articolo: Attraverso progettazione sperimentale controllata, fornisce per la prima volta il confronto quantitativo dell'impatto dei due fattori (valore r)
Metodi Euristici: Campionamento di permutazioni sull'insieme di sviluppo (Zhao et al., 2021; Zhang et al., 2022)
Metodi Adattativi: Riordinamento dinamico basato sulla query di test (Guo et al., 2024)
Apprendimento per Rinforzo: Ricerca basata su RL (Bhope et al., 2023)
Contributo di Questo Articolo: Propone un metodo semplice ed efficace di selezione basato sull'insieme di sviluppo, provando che non sono necessari algoritmi complessi per ottenere un ordine prossimo all'ottimale
Scoperta Fondamentale: L'impatto dell'ordine degli esempi sulle prestazioni è paragonabile a quello della selezione degli esempi, con la sensibilità all'ordine media pari all'88% della sensibilità alla selezione (r=1,14)
Metodo Pratico: Valutando solo 64-128 permutazioni e utilizzando 250 campioni di sviluppo, è possibile trovare un ordine prossimo all'ottimale
Universalità: Questa scoperta vale per modelli da 0,5B a 27B parametri, compiti di classificazione e generazione
Specificità: L'ordine ottimale dipende fortemente dal dataset, con scarsa trasferibilità tra dataset (tasso di trasferimento 79,8%)
Effetto della Scala del Modello: I modelli piccoli sono più sensibili, ma l'importanza relativa dell'ordine e della selezione non varia monotonicamente con la scala
Costo Computazionale: La valutazione di 128 permutazioni × 10 insiemi di esempi richiede comunque risorse computazionali significative, potrebbe richiedere compromessi nelle applicazioni pratiche
Spiegazione Teorica Insufficiente: Manca l'analisi dei meccanismi più profondi del perché l'ordine sia così importante
Progettazione Sperimentale Controllata: Attraverso la definizione dell'ordine predefinito, realizza il completo disaccoppiamento della selezione e dell'ordine, evitando fattori confondenti
Valutazione Sistematica: 14 modelli × 8 dataset × 2 tipi di compito, copertura ampia
Misura Ragionevole: La deviazione standard raggruppata come misura unificata, consente il confronto diretto di due fattori
Sfida alla Saggezza Convenzionale: Dimostra che l'ordine è importante quanto la selezione, rovesciando le assunzioni del settore
Alto Valore Pratico: L'ottimizzazione dell'ordine può migliorare le prestazioni di 2-3 punti percentuali a costo zero
Significato Teorico: Rivela la sensibilità dei modelli linguistici alla struttura del contesto, fornendo una nuova prospettiva per comprendere il comportamento del modello
Cambio di Paradigma: Potrebbe innescare un cambiamento dalla ricerca "focalizzata sulla selezione" a "selezione + ordine equivalenti" nell'ICL
Stimolo per Ricerche Successive: Previsto di catalizzare una grande quantità di lavoro sulla ottimizzazione dell'ordine e la comprensione dei meccanismi
Impatto Pratico: Potrebbe cambiare le migliori pratiche di prompt engineering nell'industria
Rivalutazione delle Assunzioni dell'ICL: Altri fattori considerati secondari (come il formato degli esempi, la scelta delle parole etichetta) sono stati sottovalutati?
Framework di Ottimizzazione Congiunta: La ricerca futura dovrebbe sviluppare metodi che ottimizzano contemporaneamente la selezione e l'ordine, piuttosto che affrontarli indipendentemente
Ricerca Meccanicistica: È urgente il lavoro teorico per spiegare le radici della sensibilità all'ordine (bias di posizione? meccanismo di attenzione?)
Metodi Adattativi: Sviluppare algoritmi di ottimizzazione dell'ordine online senza richiedere un insieme di sviluppo
Ricerca sulla Robustezza: Come addestrare modelli insensibili all'ordine?
Questo è un lavoro di ricerca di alta qualità e alto impatto, il cui valore fondamentale risiede in:
Sfida alle Assunzioni Fondamentali del Settore: Dimostra rigorosamente che l'ordine è importante quanto la selezione
Fornisce Soluzioni Pratiche Efficaci: Metodo semplice ed efficace di selezione basato sull'insieme di sviluppo
Forte Sistematicità: Valutazione completa su modelli, compiti e scale diverse
Altamente Ispiratore: Indica chiaramente diverse direzioni importanti per la ricerca successiva
Le principali insufficienze risiedono in spiegazione teorica insufficiente e ricerca sulla trasferibilità limitata, ma queste insufficienze non compromettono il suo status di contributo importante nel campo dell'ICL.
Pubblico Consigliato per la Lettura: Tutti i ricercatori e gli ingegneri che lavorano su ICL, prompt engineering e applicazioni di modelli linguistici.