2025-11-16T23:13:13.427433

Order Matters: Rethinking Prompt Construction in In-Context Learning

Li, Wang, Wang et al.

In-context learning (ICL) enables large language models to perform new tasks by conditioning on a sequence of examples. Most prior work reasonably and intuitively assumes that which examples are chosen has a far greater effect on performance than how those examples are ordered, leading to a focus on example selection. We revisit this assumption and conduct a systematic comparison between the effect of selection and ordering. Through controlled experiments on both classification and generation tasks, using multiple open-source model families (0.5B to 27B parameters) and GPT-5, we find that the variance in performance due to different example orderings is comparable to that from using entirely different example sets. Furthermore, we show that strong orderings can be identified using only a development set, achieving performance close to an oracle that selects the best ordering based on test labels. Our findings highlight the equal and intertwined importance of example selection and ordering in prompt design, calling for a reexamination of the assumptions held in ICL.

academic

順序が重要：文脈内学習におけるプロンプト構築の再考

基本情報

論文ID: 2511.09700
タイトル: Order Matters: Rethinking Prompt Construction in In-Context Learning
著者: Warren Li, Yiqian Wang, Zihan Wang, Jingbo Shang (UC San Diego & Cushing Academy)
分類: cs.CL (計算言語学)
発表日: 2025年11月12日 (arXiv プレプリント)
論文リンク: https://arxiv.org/abs/2511.09700

要約

本論文は、文脈内学習(ICL)分野の基本的な仮定に異議を唱えている：示例選択は示例順序よりも重要であるという仮定である。分類タスクと生成タスクにおける系統的な実験を通じて、著者らは示例順序による性能変動が示例集全体の置き換えの影響と同等であることを発見した。研究は0.5Bから27Bパラメータの複数のオープンソースモデルファミリーとGPT-5をカバーしている。さらに、開発セットのみを使用して、オラクル性能に近い強力な順序を特定できることが示されている。これらの発見は、ICLにおけるプロンプト構築戦略の再検討を促し、示例選択と順序が同等に重要であることを強調している。

実践的意義：順序が選択と同等に重要である場合、現在の示例選択のみに焦点を当てた研究パラダイムは、性能向上の重要な側面を見落としている可能性がある
理論的意義：順序敏感性の理解は、LLMの文脈処理メカニズムの解明に役立つ
応用価値：順序の最適化は、ゼロコストで模型性能を向上させる可能性がある

3. 既存方法の限界

研究バイアス：ほとんどの研究は暗黙的に順序が二次的な要因であると仮定し、系統的な定量比較が不足している
方法論的欠陥：過去の研究は順序と選択の効果を比較する際、両者の影響を混同することが多い
実践的指導の不足：実際のアプリケーションで最適な順序を特定する方法が不足している

4. 研究動機

著者らは制御実験設計を通じて、選択と順序を独立に変化させ、両者の相対的影響を系統的に定量化し、領域内の従来の認識に異議を唱えている。

核心的貢献

定量的証明：制御実験を通じて、示例順序の性能影響が示例選択と同等であることを証明。順序敏感性の平均標準偏差は0.01970、選択敏感性は0.02251（わずか14%高い）
実用的方法：開発セットに基づく順序特定方法を提案。64～128個の候補順列の評価のみで、オラクル性能に近い性能を回復（分類タスクで99%、生成タスクで95%）
系統的分析：8つのデータセット、14個のモデル（0.5B～27Bパラメータ）、2つのタスク類型（分類/生成）にわたる包括的評価
重要な発見：
- 順序効果はモデル規模に伴って単調に変化しない
- 生成タスクは選択に対してより敏感（r=1.46）、分類タスクではほぼ同等（r=1.09）
- 最適な順序はデータセットに大きく依存し、データセット間の転移性能は低い

方法の詳細

タスク定義

研究はfew-shot文脈内学習に焦点を当て、タスクには以下が含まれる：

分類タスク：k個のラベル付き示例と1つのテスト入力が与えられ、クラスラベルを予測
生成タスク：k個の示例とクエリが与えられ、自由形式の答えを生成

核心的研究問題：示例順序(ordering)と示例選択(selection)がICL性能に与える相対的影響を定量化

実験設計フレームワーク

1. デフォルト順序の定義

順序と選択の影響を分離するため、一貫したデフォルト順序を定義：

分類タスク：ラベルをアルファベット順にグループ化し、グループ内で示例をアルファベット順に並べ替え
生成タスク：すべての示例をアルファベット順に並べ替え

2. 制御変数実験

M=10個の異なる示例セットS₁,...,Sₘを構築し、各セットについてP=10個のランダム順列π₁,...,πₚを評価：

精度行列 A = [aᵢ,ⱼ]
ここで aᵢ,ⱼ = Acc(Sᵢ, πⱼ | Dₜₑₛₜ)

敏感性度量

順序敏感性（Order Sensitivity）

各示例セットの下で異なる順列の標準偏差を計算し、平均化：

$\sigma^{(M)} = \frac{1}{M}\sum_{i=1}^{M} \text{std}(a_{i,1}, ..., a_{i,P})$

これは固定示例セット時に、順序を変更した場合の影響を測定する。

選択敏感性（Selection Sensitivity）

各順列の下で異なる示例セットの標準偏差を計算し、平均化：

$\sigma^{(P)} = \frac{1}{P}\sum_{j=1}^{P} \text{std}(a_{1,j}, ..., a_{M,j})$

これは固定順序時に、示例セットを変更した場合の影響を測定する。

相対重要性比率

$r = \frac{\sigma^{(P)}}{\sigma^{(M)}}$

r ≈ 1：両者の影響が同等
r > 1：選択がより重要
r < 1：順序がより重要

最適順序を見つける方法

アルゴリズムフロー（Algorithm 1）

入力：示例セットSᵢ、開発セットDdev、テストセットDtest、順列数P=128
各示例セットSᵢについて (M=10回繰り返す):
    1. P個のランダム順列{πⱼ}を生成
    2. 開発セット上で各順列を評価：aⱼ = Acc(Sᵢ, πⱼ | Ddev)
    3. 最適順列を選択：π* = argmax aⱼ
    4. テストセット上で評価：a* = Acc(Sᵢ, π* | Dtest)
    5. オラクル性能を記録：amax = max Acc(Sᵢ, πⱼ | Dtest)
戻り値：{a*, amax}

主要パラメータの研究

順列数P：16から128の影響を研究
開発セットサイズ|Ddev|：50から1000サンプルの影響を研究

技術的革新点

実験設計の革新：デフォルト順序定義を通じて、選択と順序効果の完全な分離を初めて実現
度量方法：グループ化標準偏差(grouped standard deviation)を統一的な敏感性度量として提案し、2つの要因を公平に比較可能
実用性のバランス：方法はテストラベルへのオラクルアクセスを必要とせず、小規模開発セット（250サンプル）のみで十分
系統的評価：複数モデル、複数タスク、複数規模にわたる順序vs選択の包括的比較研究を初めて実施

データセット	クラス数	示例数k
AG News	4	8
NYT-Topics	9	18
NYT-Locations	10	20
DBPedia	14	28
MMLU	4	8

生成タスク（3つのデータセット）

GSM8K：数学応用問題（k=8）
MMLU-Pro：マルチタスク理解（k=8）
MATH：数学問題解法（k=8）

データ分割：

開発セットDdev：1000サンプル（順序選択用）
テストセットDtest：500サンプル（最終評価用）
分類タスクはオーバーサンプリングによってクラスバランスを確保

評価指標

分類タスク：精度(Accuracy)
生成タスク：完全一致(Exact Match)または数値許容度一致

比較方法

Average：すべてのランダム順列の平均性能（ベースライン）
Highest-Dev：開発セットで選択された最適順列のテストセット上での性能（本論文の方法）
Max：すべての順列のテストセット上での最適性能（オラクル上界）

実装詳細

モデルカバレッジ（14個のモデル）

Qwen2.5シリーズ：0.5B、1.5B、3B、7B
Gemma-2シリーズ：2B、9B
Gemmaシリーズ：2B、7B
Llama 3シリーズ：1B、3B、8B
DeepSeek-R1-Distill：1.5B、7B
Gemma-3：27B
GPT-5-Nano

実験パラメータ

敏感性実験：M=10示例セット、P=10順列
順序検索実験：M=10示例セット、P=128順列
開発セットサイズ研究：50～1000サンプル

順序敏感性：σ^(M) = 0.01970
選択敏感性：σ^(P) = 0.02251
相対差異：選択は順序よりわずか14%高い

この結果は従来の認識を覆し、順序の重要性が大きく過小評価されていたことを証明している。

モデル規模別分析（表2の核心的発見）

モデル	規模	順序	選択	r値
Qwen2.5	0.5B	0.0223	0.0245	1.10
Qwen2.5	7B	0.0119	0.0155	1.30
Gemma-3	27B	0.0157	0.0262	1.67
GPT-5-Nano	-	0.0234	0.0198	0.85

主要な洞察：

小規模モデルがより敏感：0.5Bモデルの敏感性は7Bモデルの約2倍
単調傾向がない：r値はモデル規模に伴って単調に変化しない
企業モデルの異常：GPT-5-nanoは順序に対してより敏感（r<1）、異なる訓練戦略を反映している可能性

タスク類型別分析（表3）

タスク類型	順序	選択	r値
分類（平均）	0.0226	0.0246	1.09
生成（平均）	0.0154	0.0222	1.46

重要な発見：

分類タスク：順序と選択がほぼ同等に重要（r≈1）
生成タスク：選択が相対的により重要（r=1.46）だが、順序は依然として全体影響の68%を占める

データセットレベルの差異

順序がより重要なケース：

NYT-Topics：r=0.97（順序がわずかに優位）
AG News：r=1.01（完全に同等）

選択がより重要なケース：

GSM8K：r=1.58
MATH：r=1.33

これはタスク特性が両者の相対的重要性に影響することを示している。

最適順序の発見効果

分類タスクの結果（図3a、3c）

順列数Pの影響：
- P=16時：オラクル性能の98%を回復
- P=128時：オラクル性能の99%を回復
- 平均性能は常に最適性能より5～6ポイント下回る
開発セットサイズの影響：
- 50サンプル：既に明らかな効果
- 250サンプル：性能が安定化
- 1000サンプル：限界効用が逓減

生成タスクの結果（図3b、3d）

順列数Pの影響：
- P=64～100時：オラクル性能の95%を回復
- 分類タスクの効果に達するにはより多くの順列が必要
開発セットサイズ：同様に250サンプル後に安定化

具体的なデータセット性能（表5、6）

分類タスク例（DBPedia、Qwen2.5-7B）：

Average: 0.774
Highest-Dev: 0.795
Max: 0.800
改善：+2.1ポイント（相対改善2.7%）

生成タスク例（GSM8K、Llama-3.1-8B）：

Average: 0.658
Highest-Dev: 0.669
Max: 0.696
改善：+1.1ポイント、ただしオラクルまでの差は依然存在

順序転移性実験（表7）

データセット間転移（GSM8K ↔ MATH）

モデル	GSM8K最適	MATH最適	GSM8K→MATH	MATH→GSM8K	転移率
Qwen2.5-7B	0.616	0.244	0.207	0.593	0.905
平均	0.439	0.188	0.145	0.400	0.798

主要な発見：

転移後の性能は目標データセットのランダム平均性能に近い
転移率は平均わずか79.8%で、最適順序がデータセット特性に大きく依存することを示している
関連タスク（2つの数学データセット）であっても、順序は転移しにくい

アブレーション実験：主要要因分析

論文は明示的なアブレーション実験を標記していないが、パラメータ変化実験を通じて以下が推測できる：

順列数Pの限界効用：
- 16→32：顕著な改善
- 32→64：中程度の改善
- 64→128：限界効用が逓減
開発セットサイズの閾値効果：
- <250サンプル：性能が急速に改善
- 250サンプル：趨勢が平坦化
- 実践では250～500サンプルの開発セットを推奨

ケース分析

論文は具体的な示例の定性的分析を提供していないが、数値結果から以下が推測できる：

最大変動ケース（表4）：

Llama-3.1-8B on DBPedia：
- 順序敏感性：0.08791
- 選択敏感性：0.13226
- これは順序のみの変更で±17.6%の精度変動を引き起こす可能性があることを意味する

最も安定したケース：

Gemma-3-27B on 複数タスク：
- 順序敏感性：0.00545～0.00802
- 大規模モデルはより良いロバスト性を示す

結論と議論

主要な結論

核心的発見：示例順序の性能影響は示例選択と同等。順序敏感性は平均して選択敏感性の88%（r=1.14）
実用的方法：64～128個の順列評価と250個の開発サンプルのみで、ほぼ最適な順序を見つけることができる
普遍性：この発見は0.5Bから27Bパラメータのモデル、分類タスクと生成タスクで成立
特異性：最適順序はデータセットに大きく依存し、データセット間転移性能は低い（転移率79.8%）
モデル規模効果：小規模モデルはより敏感だが、順序と選択の相対的重要性は規模に伴って単調に変化しない

限界

著者が認める限界

モデルカバレッジ：GPT-5完全版やClaudeなどの最高級商用モデルを含まない（予算とAPI制限による）
言語限定：英語タスクのみを評価。多言語シナリオを考慮していない
タスク類型：コード生成、検索増強生成、対話など、タスク類型をカバーしていない
評価指標：精度のみを使用。他の次元（キャリブレーション、ロバスト性など）を考慮していない

その他の潜在的限界

示例数：k値は2|C|または8に固定。異なるショット数の影響を系統的に研究していない
デフォルト順序定義：アルファベット順序の選択は合理的だが、微小な偏差を導入する可能性がある
計算コスト：128個の順列×10個の示例セットの評価は依然として大きな計算量を必要とし、実際のアプリケーションではトレードオフが必要な場合がある
理論的説明の不足：順序がなぜそれほど重要なのかについての深層的メカニズム分析が不足している

今後の方向

論文が提案する方向

より大規模なモデル（GPT-5完全版）をテスト
他の言語への拡張
異なるショットレジーム（few-shot、many-shot）の探索
コード生成とRAGタスクの評価

探索する価値のある他の方向

メカニズム研究：注意力可視化などの方法を通じて順序敏感性の内在的原因を理解
自動化方法：開発セットを必要としない適応的順序最適化アルゴリズムの開発
クロスタスク転移：タスク無関係な順序戦略を学習できるかどうかの研究
他の要因との相互作用：順序とプロンプトテンプレート、指示語選択の共同最適化の研究

制御実験設計：デフォルト順序を通じて選択と順序の完全な分離を実現。混同要因を回避
系統的評価：14モデル×8データセット×2タスク類型で、カバレッジが広い
度量の合理性：グループ化標準偏差を統一的度量として、2つの要因を直接比較可能

2. 発見の重要性 ⭐⭐⭐⭐⭐

従来の認識に異議：順序と選択が同等に重要であることを証明。領域の仮定を覆す
実践価値が高い：順序最適化は2～3ポイントの精度改善をゼロコストで実現可能
理論的意義：LLMの文脈構造に対する敏感性を明らかにし、モデル動作理解に新しい視点を提供

3. 実用性が強い ⭐⭐⭐⭐

方法がシンプル：複雑なアルゴリズムを必要とせず、開発セット上で候補順列を評価するだけ
リソース要件が合理的：250サンプルの開発セット+64順列で良好な効果を達成
再現性が高い：詳細な実験設定と疑似コードを提供

4. 執筆が明確 ⭐⭐⭐⭐⭐

構造が合理的：論理が明確で、動機から方法から実験へと段階的に進む
可視化が効果的：図1の行列示意図が実験設計を直感的に示す
データが詳実：付録に完全なモデル-データセットレベルの結果を提供

不足

1. 理論的説明が不足 ⭐⭐

メカニズム分析の欠如：順序がなぜそれほど重要なのかについて深く探求していない
注意力分析がない：注意力重みなどの方法を通じて仮説を検証していない
解釈可能性の欠如：どのような順序が「良い」順序なのかを分析していない

2. 実験設計の限界 ⭐⭐⭐

順列サンプリング戦略：ランダムサンプリングは特定の有効な順序パターンを見落とす可能性がある
デフォルト順序の影響：アルファベット順序自体が真の「中立」ベンチマークではない可能性
示例セット構成：M=10は選択の多様性を十分に代表していない可能性

3. 転移性研究が十分でない ⭐⭐

2つのデータセットのみテスト：GSM8KとMATHは両方とも数学タスク。領域間テストが不足
失敗原因の分析がない：転移が失敗する理由を深く研究していない
正の転移ケースが不足：順序が転移できる状況が存在するかどうかが不明

4. 実際のアプリケーション指導が限定的 ⭐⭐⭐

順序設計原則がない：実用的な順序構築ヒューリスティック規則を総括していない
計算コスト分析が不足：128個の順列評価の実際の時間とAPI費用を定量化していない
複数示例セットシナリオ：実践では示例セットと順序を同時に最適化する方法が不明

影響力評価

1. 領域への貢献 ⭐⭐⭐⭐⭐

パラダイムシフト：ICL研究が「選択中心」から「選択+順序並重」へシフトする可能性
後続研究の刺激：順序最適化とメカニズム理解に関する大量の研究を触発すると予想
実践への影響：産業界のプロンプトエンジニアリングのベストプラクティスを変える可能性

2. 実用価値 ⭐⭐⭐⭐

即座に利用可能：方法がシンプルで、既存システムに即座に適用可能
費用対効果が高い：小コストで顕著な改善を実現（2～3ポイント）
適用範囲が広い：モデル、タスク間で有効

3. 再現性 ⭐⭐⭐⭐

利点：
- 公開モデルとデータセットを使用
- 詳細なハイパーパラメータ設定を提供
- 付録に完全な結果を含む
不足：
- コードを公開していない（論文発表時点）
- 一部の実験には大量の計算リソースが必要

4. 潜在的引用価値

この論文はICL領域の重要な参考文献になると予想される理由：

順序vs選択のベンチマーク比較データを提供
方法がシンプルで使いやすく、後続研究での再現と拡張が容易
領域の基本的仮定に異議を唱える里程碑的意義

適用シーン

高度に適用可能 ✅

Few-shot分類タスク：論文は分類タスクで最も顕著な効果を証明（r≈1）
リソース制約シーン：示例セットを拡大できない場合、順序最適化は低コストの改善方案
固定示例セットシーン：示例セットが固定されている場合、順序最適化が唯一の選択肢
開発セット充足シーン：250+のラベル付きサンプルが利用可能

中程度に適用可能 ⚠️

生成タスク：効果は分類より弱い（r=1.46）が、試す価値がある
クロスタスク応用：各新しいタスクについて順序を再検索する必要がある
大規模モデル応用：大規模モデルはより安定だが、依然として順序敏感性が存在

適用性が低い ❌

ゼロショットシーン：方法は複数示例ICLに依存
極小開発セット：<50サンプル時の効果が不安定
リアルタイムインタラクティブシステム：128個の順列を事前評価できない
ドメイン間転移：あるデータセットから学んだ順序は他のデータセットに転移しにくい

後続研究への示唆

ICL仮定の再検討：他の次要因と考えられている要因（プロンプト形式、ラベル語選択など）も過小評価されているのではないか？
共同最適化フレームワーク：今後は選択と順序を独立に処理するのではなく、同時最適化する方法を開発すべき
メカニズム研究：順序敏感性の根源を説明する理論的研究が急務（位置バイアス？注意メカニズム？）
自適応方法：開発セットを必要としないオンライン順序最適化アルゴリズムの開発
ロバスト性研究：順序に対して不敏感なモデルを訓練する方法は？

参考文献（主要文献）

Brown et al. (2020) - Language Models are Few-Shot Learners (GPT-3論文、ICLパラダイムの基礎)
Zhao et al. (2021) - Fantastically Ordered Prompts and Where to Find Them (順序敏感性の初期系統的研究)
Lu et al. (2022) - Order Matters: Re-evaluating Few-Shot Prompting for Text Classification Tasks
Min et al. (2022) - Rethinking the Role of Demonstrations: What Makes In-Context Learning Work? (示例選択の強調)
Guo et al. (2024) - DEmO: Dynamic Example Ordering for In-Context Learning (動的順序最適化)

総括的評価

これは高品質で高影響力の研究成果であり、その核心的価値は以下にある：

領域の基本的仮定に異議：厳密な実験を通じて順序と選択が同等に重要であることを証明
実用的解決策を提供：シンプルで効果的な開発セット選択方法
系統性が強い：モデル、タスク、規模にわたる包括的評価
啓発性が高い：後続研究に複数の重要な方向を指示

主な不足は理論的説明が不十分で転移性研究が限定的だが、これらはICL領域への重要な貢献としての地位に影響しない。

推奨読者：ICL、プロンプトエンジニアリング、LLM応用に従事するすべての研究者とエンジニア。

評価：⭐⭐⭐⭐½ (4.5/5)