In-context learning (ICL) enables large language models to perform new tasks by conditioning on a sequence of examples. Most prior work reasonably and intuitively assumes that which examples are chosen has a far greater effect on performance than how those examples are ordered, leading to a focus on example selection. We revisit this assumption and conduct a systematic comparison between the effect of selection and ordering. Through controlled experiments on both classification and generation tasks, using multiple open-source model families (0.5B to 27B parameters) and GPT-5, we find that the variance in performance due to different example orderings is comparable to that from using entirely different example sets. Furthermore, we show that strong orderings can be identified using only a development set, achieving performance close to an oracle that selects the best ordering based on test labels. Our findings highlight the equal and intertwined importance of example selection and ordering in prompt design, calling for a reexamination of the assumptions held in ICL.
論文ID : 2511.09700タイトル : Order Matters: Rethinking Prompt Construction in In-Context Learning著者 : Warren Li, Yiqian Wang, Zihan Wang, Jingbo Shang (UC San Diego & Cushing Academy)分類 : cs.CL (計算言語学)発表日 : 2025年11月12日 (arXiv プレプリント)論文リンク : https://arxiv.org/abs/2511.09700 本論文は、文脈内学習(ICL)分野の基本的な仮定に異議を唱えている:示例選択は示例順序よりも重要であるという仮定である。分類タスクと生成タスクにおける系統的な実験を通じて、著者らは示例順序による性能変動が示例集全体の置き換えの影響と同等である ことを発見した。研究は0.5Bから27Bパラメータの複数のオープンソースモデルファミリーとGPT-5をカバーしている。さらに、開発セットのみを使用して、オラクル性能に近い強力な順序を特定できることが示されている。これらの発見は、ICLにおけるプロンプト構築戦略の再検討を促し、示例選択と順序が同等に重要であることを強調している。
文脈内学習では、大規模言語モデルは少数の示例を条件として新しいタスクを実行し、勾配更新やタスク固有の微調整を必要としない。ICL性能が示例に敏感であることは既知だが、既存研究は一般的に示例選択が示例順序よりも重要であると仮定 しており、研究の焦点は示例選択に集中している。
実践的意義 :順序が選択と同等に重要である場合、現在の示例選択のみに焦点を当てた研究パラダイムは、性能向上の重要な側面を見落としている可能性がある理論的意義 :順序敏感性の理解は、LLMの文脈処理メカニズムの解明に役立つ応用価値 :順序の最適化は、ゼロコストで模型性能を向上させる可能性がある研究バイアス :ほとんどの研究は暗黙的に順序が二次的な要因であると仮定し、系統的な定量比較が不足している方法論的欠陥 :過去の研究は順序と選択の効果を比較する際、両者の影響を混同することが多い実践的指導の不足 :実際のアプリケーションで最適な順序を特定する方法が不足している著者らは制御実験設計 を通じて、選択と順序を独立に変化させ、両者の相対的影響を系統的に定量化し、領域内の従来の認識に異議を唱えている。
定量的証明 :制御実験を通じて、示例順序の性能影響が示例選択と同等であることを証明。順序敏感性の平均標準偏差は0.01970、選択敏感性は0.02251(わずか14%高い)実用的方法 :開発セットに基づく順序特定方法を提案。64~128個の候補順列の評価のみで、オラクル性能に近い性能を回復(分類タスクで99%、生成タスクで95%)系統的分析 :8つのデータセット、14個のモデル(0.5B~27Bパラメータ)、2つのタスク類型(分類/生成)にわたる包括的評価重要な発見 :順序効果はモデル規模に伴って単調に変化しない 生成タスクは選択に対してより敏感(r=1.46)、分類タスクではほぼ同等(r=1.09) 最適な順序はデータセットに大きく依存し、データセット間の転移性能は低い 研究はfew-shot文脈内学習に焦点を当て、タスクには以下が含まれる:
分類タスク :k個のラベル付き示例と1つのテスト入力が与えられ、クラスラベルを予測生成タスク :k個の示例とクエリが与えられ、自由形式の答えを生成核心的研究問題 :示例順序(ordering)と示例選択(selection)がICL性能に与える相対的影響を定量化
順序と選択の影響を分離するため、一貫したデフォルト順序を定義:
分類タスク :ラベルをアルファベット順にグループ化し、グループ内で示例をアルファベット順に並べ替え生成タスク :すべての示例をアルファベット順に並べ替えM=10個の異なる示例セットS₁,...,Sₘを構築し、各セットについてP=10個のランダム順列π₁,...,πₚを評価:
精度行列 A = [aᵢ,ⱼ]
ここで aᵢ,ⱼ = Acc(Sᵢ, πⱼ | Dₜₑₛₜ)
各示例セットの下で異なる順列の標準偏差を計算し、平均化:
σ ( M ) = 1 M ∑ i = 1 M std ( a i , 1 , . . . , a i , P ) \sigma^{(M)} = \frac{1}{M}\sum_{i=1}^{M} \text{std}(a_{i,1}, ..., a_{i,P}) σ ( M ) = M 1 ∑ i = 1 M std ( a i , 1 , ... , a i , P )
これは固定示例セット時に、順序を変更した場合の影響 を測定する。
各順列の下で異なる示例セットの標準偏差を計算し、平均化:
σ ( P ) = 1 P ∑ j = 1 P std ( a 1 , j , . . . , a M , j ) \sigma^{(P)} = \frac{1}{P}\sum_{j=1}^{P} \text{std}(a_{1,j}, ..., a_{M,j}) σ ( P ) = P 1 ∑ j = 1 P std ( a 1 , j , ... , a M , j )
これは固定順序時に、示例セットを変更した場合の影響 を測定する。
r = σ ( P ) σ ( M ) r = \frac{\sigma^{(P)}}{\sigma^{(M)}} r = σ ( M ) σ ( P )
r ≈ 1:両者の影響が同等 r > 1:選択がより重要 r < 1:順序がより重要 入力:示例セットSᵢ、開発セットDdev、テストセットDtest、順列数P=128
各示例セットSᵢについて (M=10回繰り返す):
1. P個のランダム順列{πⱼ}を生成
2. 開発セット上で各順列を評価:aⱼ = Acc(Sᵢ, πⱼ | Ddev)
3. 最適順列を選択:π* = argmax aⱼ
4. テストセット上で評価:a* = Acc(Sᵢ, π* | Dtest)
5. オラクル性能を記録:amax = max Acc(Sᵢ, πⱼ | Dtest)
戻り値:{a*, amax}
順列数P :16から128の影響を研究開発セットサイズ|Ddev| :50から1000サンプルの影響を研究実験設計の革新 :デフォルト順序定義を通じて、選択と順序効果の完全な分離を初めて実現度量方法 :グループ化標準偏差(grouped standard deviation)を統一的な敏感性度量として提案し、2つの要因を公平に比較可能実用性のバランス :方法はテストラベルへのオラクルアクセスを必要とせず、小規模開発セット(250サンプル)のみで十分系統的評価 :複数モデル、複数タスク、複数規模にわたる順序vs選択の包括的比較研究を初めて実施データセット クラス数 示例数k AG News 4 8 NYT-Topics 9 18 NYT-Locations 10 20 DBPedia 14 28 MMLU 4 8
GSM8K :数学応用問題(k=8)MMLU-Pro :マルチタスク理解(k=8)MATH :数学問題解法(k=8)データ分割 :
開発セットDdev:1000サンプル(順序選択用) テストセットDtest:500サンプル(最終評価用) 分類タスクはオーバーサンプリングによってクラスバランスを確保 分類タスク :精度(Accuracy)生成タスク :完全一致(Exact Match)または数値許容度一致Average :すべてのランダム順列の平均性能(ベースライン)Highest-Dev :開発セットで選択された最適順列のテストセット上での性能(本論文の方法)Max :すべての順列のテストセット上での最適性能(オラクル上界)Qwen2.5シリーズ :0.5B、1.5B、3B、7BGemma-2シリーズ :2B、9BGemmaシリーズ :2B、7BLlama 3シリーズ :1B、3B、8BDeepSeek-R1-Distill :1.5B、7BGemma-3 :27BGPT-5-Nano 敏感性実験 :M=10示例セット、P=10順列順序検索実験 :M=10示例セット、P=128順列開発セットサイズ研究 :50~1000サンプル順序敏感性 :σ^(M) = 0.01970選択敏感性 :σ^(P) = 0.02251相対差異 :選択は順序よりわずか14%高い この結果は従来の認識を覆し 、順序の重要性が大きく過小評価されていたことを証明している。
モデル 規模 順序 選択 r値 Qwen2.5 0.5B 0.0223 0.0245 1.10 Qwen2.5 7B 0.0119 0.0155 1.30 Gemma-3 27B 0.0157 0.0262 1.67 GPT-5-Nano - 0.0234 0.0198 0.85
主要な洞察 :
小規模モデルがより敏感 :0.5Bモデルの敏感性は7Bモデルの約2倍単調傾向がない :r値はモデル規模に伴って単調に変化しない企業モデルの異常 :GPT-5-nanoは順序に対してより敏感(r<1)、異なる訓練戦略を反映している可能性タスク類型 順序 選択 r値 分類(平均) 0.0226 0.0246 1.09 生成(平均) 0.0154 0.0222 1.46
重要な発見 :
分類タスク :順序と選択がほぼ同等に重要(r≈1)生成タスク :選択が相対的により重要(r=1.46)だが、順序は依然として全体影響の68%を占める順序がより重要なケース :
NYT-Topics:r=0.97(順序がわずかに優位) AG News:r=1.01(完全に同等) 選択がより重要なケース :
これはタスク特性が両者の相対的重要性に影響する ことを示している。
順列数Pの影響 :P=16時:オラクル性能の98%を回復 P=128時:オラクル性能の99%を回復 平均性能は常に最適性能より5~6ポイント下回る 開発セットサイズの影響 :50サンプル:既に明らかな効果 250サンプル:性能が安定化 1000サンプル:限界効用が逓減 順列数Pの影響 :P=64~100時:オラクル性能の95%を回復 分類タスクの効果に達するにはより多くの順列が必要 開発セットサイズ :同様に250サンプル後に安定化分類タスク例(DBPedia、Qwen2.5-7B) :
Average: 0.774 Highest-Dev: 0.795 Max: 0.800 改善 :+2.1ポイント(相対改善2.7%)生成タスク例(GSM8K、Llama-3.1-8B) :
Average: 0.658 Highest-Dev: 0.669 Max: 0.696 改善 :+1.1ポイント、ただしオラクルまでの差は依然存在モデル GSM8K最適 MATH最適 GSM8K→MATH MATH→GSM8K 転移率 Qwen2.5-7B 0.616 0.244 0.207 0.593 0.905 平均 0.439 0.188 0.145 0.400 0.798
主要な発見 :
転移後の性能は目標データセットのランダム平均性能に近い 転移率は平均わずか79.8%で、最適順序がデータセット特性に大きく依存する ことを示している 関連タスク(2つの数学データセット)であっても、順序は転移しにくい 論文は明示的なアブレーション実験を標記していないが、パラメータ変化実験を通じて以下が推測できる:
順列数Pの限界効用 :16→32:顕著な改善 32→64:中程度の改善 64→128:限界効用が逓減 開発セットサイズの閾値効果 :<250サンプル:性能が急速に改善 250サンプル:趨勢が平坦化
実践では250~500サンプルの開発セットを推奨 論文は具体的な示例の定性的分析を提供していないが、数値結果から以下が推測できる:
最大変動ケース (表4):
Llama-3.1-8B on DBPedia:
順序敏感性:0.08791 選択敏感性:0.13226 これは順序のみの変更で±17.6%の精度変動を引き起こす可能性があることを意味する 最も安定したケース :
Gemma-3-27B on 複数タスク:
順序敏感性:0.00545~0.00802 大規模モデルはより良いロバスト性を示す Zhao et al. (2021) :GPT-3が示例順序に高度に敏感であることを初めて系統的に証明。精度は数十ポイント変動し、モデルが早期の文脈に過度に依存することに起因Lu et al. (2022) :最適順序がSOTA近くの性能を達成でき、悪い順序は精度をランダムレベルまで低下させることを証明本論文の貢献 :順序の存在性を観察するのではなく、順序と選択の相対的影響を初めて定量的に比較
Min et al. (2022) :示例選択の重要性を強調Rubin et al. (2022) :検索ベースの示例選択方法を提案Zhang et al. (2022)、Guo et al. (2024) :最近の研究は順序が選択と同等に重要である可能性に注目し始めている本論文の貢献 :制御実験設計を通じて、両者の影響の定量的比較(r値)を初めて提供
ヒューリスティック方法 :開発セット上でのサンプリング順列(Zhao et al., 2021; Zhang et al., 2022)適応的方法 :テストクエリに基づく動的再順序付け(Guo et al., 2024)強化学習 :RLベースの検索(Bhope et al., 2023)本論文の貢献 :複雑なアルゴリズムを必要とせず、オラクル性能に近い順序を取得できる、シンプルで効果的な開発セット選択方法を提案
本論文は以下の点で既存研究を拡張している:
範囲がより広い :14個のモデル、8つのデータセット、分類+生成タスク方法がより厳密 :デフォルト順序を通じて完全に分離された比較を実現発見がより系統的 :相対的影響を定量化し、転移性を研究し、モデル規模効果を分析核心的発見 :示例順序の性能影響は示例選択と同等。順序敏感性は平均して選択敏感性の88%(r=1.14)実用的方法 :64~128個の順列評価と250個の開発サンプルのみで、ほぼ最適な順序を見つけることができる普遍性 :この発見は0.5Bから27Bパラメータのモデル、分類タスクと生成タスクで成立特異性 :最適順序はデータセットに大きく依存し、データセット間転移性能は低い(転移率79.8%)モデル規模効果 :小規模モデルはより敏感だが、順序と選択の相対的重要性は規模に伴って単調に変化しないモデルカバレッジ :GPT-5完全版やClaudeなどの最高級商用モデルを含まない(予算とAPI制限による)言語限定 :英語タスクのみを評価。多言語シナリオを考慮していないタスク類型 :コード生成、検索増強生成、対話など、タスク類型をカバーしていない評価指標 :精度のみを使用。他の次元(キャリブレーション、ロバスト性など)を考慮していない示例数 :k値は2|C|または8に固定。異なるショット数の影響を系統的に研究していないデフォルト順序定義 :アルファベット順序の選択は合理的だが、微小な偏差を導入する可能性がある計算コスト :128個の順列×10個の示例セットの評価は依然として大きな計算量を必要とし、実際のアプリケーションではトレードオフが必要な場合がある理論的説明の不足 :順序がなぜそれほど重要なのかについての深層的メカニズム分析が不足しているより大規模なモデル(GPT-5完全版)をテスト 他の言語への拡張 異なるショットレジーム(few-shot、many-shot)の探索 コード生成とRAGタスクの評価 メカニズム研究 :注意力可視化などの方法を通じて順序敏感性の内在的原因を理解自動化方法 :開発セットを必要としない適応的順序最適化アルゴリズムの開発クロスタスク転移 :タスク無関係な順序戦略を学習できるかどうかの研究他の要因との相互作用 :順序とプロンプトテンプレート、指示語選択の共同最適化の研究制御実験設計 :デフォルト順序を通じて選択と順序の完全な分離を実現。混同要因を回避系統的評価 :14モデル×8データセット×2タスク類型で、カバレッジが広い度量の合理性 :グループ化標準偏差を統一的度量として、2つの要因を直接比較可能従来の認識に異議 :順序と選択が同等に重要であることを証明。領域の仮定を覆す実践価値が高い :順序最適化は2~3ポイントの精度改善をゼロコストで実現可能理論的意義 :LLMの文脈構造に対する敏感性を明らかにし、モデル動作理解に新しい視点を提供方法がシンプル :複雑なアルゴリズムを必要とせず、開発セット上で候補順列を評価するだけリソース要件が合理的 :250サンプルの開発セット+64順列で良好な効果を達成再現性が高い :詳細な実験設定と疑似コードを提供構造が合理的 :論理が明確で、動機から方法から実験へと段階的に進む可視化が効果的 :図1の行列示意図が実験設計を直感的に示すデータが詳実 :付録に完全なモデル-データセットレベルの結果を提供メカニズム分析の欠如 :順序がなぜそれほど重要なのかについて深く探求していない注意力分析がない :注意力重みなどの方法を通じて仮説を検証していない解釈可能性の欠如 :どのような順序が「良い」順序なのかを分析していない順列サンプリング戦略 :ランダムサンプリングは特定の有効な順序パターンを見落とす可能性があるデフォルト順序の影響 :アルファベット順序自体が真の「中立」ベンチマークではない可能性示例セット構成 :M=10は選択の多様性を十分に代表していない可能性2つのデータセットのみテスト :GSM8KとMATHは両方とも数学タスク。領域間テストが不足失敗原因の分析がない :転移が失敗する理由を深く研究していない正の転移ケースが不足 :順序が転移できる状況が存在するかどうかが不明順序設計原則がない :実用的な順序構築ヒューリスティック規則を総括していない計算コスト分析が不足 :128個の順列評価の実際の時間とAPI費用を定量化していない複数示例セットシナリオ :実践では示例セットと順序を同時に最適化する方法が不明パラダイムシフト :ICL研究が「選択中心」から「選択+順序並重」へシフトする可能性後続研究の刺激 :順序最適化とメカニズム理解に関する大量の研究を触発すると予想実践への影響 :産業界のプロンプトエンジニアリングのベストプラクティスを変える可能性即座に利用可能 :方法がシンプルで、既存システムに即座に適用可能費用対効果が高い :小コストで顕著な改善を実現(2~3ポイント)適用範囲が広い :モデル、タスク間で有効利点 :
公開モデルとデータセットを使用 詳細なハイパーパラメータ設定を提供 付録に完全な結果を含む 不足 :
コードを公開していない(論文発表時点) 一部の実験には大量の計算リソースが必要 この論文はICL領域の重要な参考文献になると予想される理由:
順序vs選択のベンチマーク比較データを提供 方法がシンプルで使いやすく、後続研究での再現と拡張が容易 領域の基本的仮定に異議を唱える里程碑的意義 Few-shot分類タスク :論文は分類タスクで最も顕著な効果を証明(r≈1)リソース制約シーン :示例セットを拡大できない場合、順序最適化は低コストの改善方案固定示例セットシーン :示例セットが固定されている場合、順序最適化が唯一の選択肢開発セット充足シーン :250+のラベル付きサンプルが利用可能生成タスク :効果は分類より弱い(r=1.46)が、試す価値があるクロスタスク応用 :各新しいタスクについて順序を再検索する必要がある大規模モデル応用 :大規模モデルはより安定だが、依然として順序敏感性が存在ゼロショットシーン :方法は複数示例ICLに依存極小開発セット :<50サンプル時の効果が不安定リアルタイムインタラクティブシステム :128個の順列を事前評価できないドメイン間転移 :あるデータセットから学んだ順序は他のデータセットに転移しにくいICL仮定の再検討 :他の次要因と考えられている要因(プロンプト形式、ラベル語選択など)も過小評価されているのではないか?共同最適化フレームワーク :今後は選択と順序を独立に処理するのではなく、同時最適化する方法を開発すべきメカニズム研究 :順序敏感性の根源を説明する理論的研究が急務(位置バイアス?注意メカニズム?)自適応方法 :開発セットを必要としないオンライン順序最適化アルゴリズムの開発ロバスト性研究 :順序に対して不敏感なモデルを訓練する方法は?Brown et al. (2020) - Language Models are Few-Shot Learners (GPT-3論文、ICLパラダイムの基礎)Zhao et al. (2021) - Fantastically Ordered Prompts and Where to Find Them (順序敏感性の初期系統的研究)Lu et al. (2022) - Order Matters: Re-evaluating Few-Shot Prompting for Text Classification TasksMin et al. (2022) - Rethinking the Role of Demonstrations: What Makes In-Context Learning Work? (示例選択の強調)Guo et al. (2024) - DEmO: Dynamic Example Ordering for In-Context Learning (動的順序最適化)これは高品質で高影響力 の研究成果であり、その核心的価値は以下にある:
領域の基本的仮定に異議 :厳密な実験を通じて順序と選択が同等に重要であることを証明実用的解決策を提供 :シンプルで効果的な開発セット選択方法系統性が強い :モデル、タスク、規模にわたる包括的評価啓発性が高い :後続研究に複数の重要な方向を指示主な不足は理論的説明が不十分 で転移性研究が限定的 だが、これらはICL領域への重要な貢献としての地位に影響しない。
推奨読者 :ICL、プロンプトエンジニアリング、LLM応用に従事するすべての研究者とエンジニア。
評価 :⭐⭐⭐⭐½ (4.5/5)