2025-11-16T23:13:13.427433

Order Matters: Rethinking Prompt Construction in In-Context Learning

Li, Wang, Wang et al.

In-context learning (ICL) enables large language models to perform new tasks by conditioning on a sequence of examples. Most prior work reasonably and intuitively assumes that which examples are chosen has a far greater effect on performance than how those examples are ordered, leading to a focus on example selection. We revisit this assumption and conduct a systematic comparison between the effect of selection and ordering. Through controlled experiments on both classification and generation tasks, using multiple open-source model families (0.5B to 27B parameters) and GPT-5, we find that the variance in performance due to different example orderings is comparable to that from using entirely different example sets. Furthermore, we show that strong orderings can be identified using only a development set, achieving performance close to an oracle that selects the best ordering based on test labels. Our findings highlight the equal and intertwined importance of example selection and ordering in prompt design, calling for a reexamination of the assumptions held in ICL.

academic

Order Matters: Rethinking Prompt Construction in In-Context Learning

基本信息

论文ID: 2511.09700
标题: Order Matters: Rethinking Prompt Construction in In-Context Learning
作者: Warren Li, Yiqian Wang, Zihan Wang, Jingbo Shang (UC San Diego & Cushing Academy)
分类: cs.CL (Computational Linguistics)
发表时间: 2025年11月12日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2511.09700

实践意义：如果顺序与选择同等重要，当前仅关注示例选择的研究范式可能错失性能提升的重要维度
理论意义：理解顺序敏感性有助于揭示LLM的上下文处理机制
应用价值：优化顺序可能以零成本提升模型性能

3. 现有方法的局限性

研究偏见：大多数工作隐含地认为顺序是次要因素，缺乏系统性的定量比较
方法论缺陷：以往研究在比较顺序和选择效果时，往往混淆了两者的影响
实践指导不足：缺乏如何在实际应用中识别最优顺序的有效方法

4. 研究动机

作者通过受控实验设计，独立变化选择和顺序，系统性地量化两者的相对影响，挑战领域内的传统认知。

核心贡献

定量证明：通过受控实验证明示例顺序的性能影响与示例选择相当，顺序敏感性平均标准差为0.01970，选择敏感性为0.02251（仅高14%）
实用方法：提出基于开发集的顺序识别方法，仅需评估64-128个候选排列即可恢复接近oracle的性能（分类任务达99%，生成任务达95%）
系统分析：跨8个数据集、14个模型（0.5B-27B参数）和两类任务（分类/生成）进行全面评估
重要发现：
- 顺序效应不随模型规模单调变化
- 生成任务对选择更敏感（r=1.46），分类任务两者几乎相等（r=1.09）
- 最优顺序高度依赖数据集，跨数据集迁移性能差

方法详解

任务定义

研究聚焦于few-shot上下文学习，任务包括：

分类任务：给定k个标注示例和一个测试输入，预测类别标签
生成任务：给定k个示例和一个查询，生成自由形式的答案

核心研究问题：量化示例顺序(ordering)和示例选择(selection)对ICL性能的相对影响

实验设计框架

1. 默认顺序定义

为隔离顺序和选择的影响，定义一致的默认顺序：

分类任务：按标签字母顺序分组，组内按示例字母顺序排序
生成任务：所有示例按字母顺序排序

2. 受控变量实验

构建M=10个不同的示例集S₁,...,Sₘ，每个集合评估P=10个随机排列π₁,...,πₚ：

准确率矩阵 A = [aᵢ,ⱼ]
其中 aᵢ,ⱼ = Acc(Sᵢ, πⱼ | Dₜₑₛₜ)

敏感性度量

顺序敏感性（Order Sensitivity）

计算每个示例集下不同排列的标准差，然后平均：

$\sigma^{(M)} = \frac{1}{M}\sum_{i=1}^{M} \text{std}(a_{i,1}, ..., a_{i,P})$

这度量了固定示例集时，改变顺序的影响。

选择敏感性（Selection Sensitivity）

计算每个排列下不同示例集的标准差，然后平均：

$\sigma^{(P)} = \frac{1}{P}\sum_{j=1}^{P} \text{std}(a_{1,j}, ..., a_{M,j})$

这度量了固定顺序时，改变示例集的影响。

相对重要性比率

$r = \frac{\sigma^{(P)}}{\sigma^{(M)}}$

r ≈ 1：两者影响相当
r > 1：选择更重要
r < 1：顺序更重要

寻找最优顺序的方法

算法流程（Algorithm 1）

输入：示例集Sᵢ, 开发集Ddev, 测试集Dtest, 排列数P=128
对于每个示例集Sᵢ (重复M=10次):
    1. 生成P个随机排列{πⱼ}
    2. 在开发集上评估每个排列：aⱼ = Acc(Sᵢ, πⱼ | Ddev)
    3. 选择最优排列：π* = argmax aⱼ
    4. 在测试集上评估：a* = Acc(Sᵢ, π* | Dtest)
    5. 记录oracle性能：amax = max Acc(Sᵢ, πⱼ | Dtest)
返回：{a*, amax}

关键参数研究

排列数P：研究从16到128的影响
开发集大小|Ddev|：研究从50到1000样本的影响

技术创新点

实验设计创新：通过默认顺序定义，首次实现了选择和顺序效应的完全解耦
度量方法：提出分组标准差(grouped standard deviation)作为统一的敏感性度量，可公平比较两种因素
实用性平衡：方法无需oracle访问测试标签，仅需小规模开发集（250样本即可）
系统性评估：首次跨多模型、多任务、多规模进行全面的顺序vs选择比较研究

数据集	类别数	示例数k
AG News	4	8
NYT-Topics	9	18
NYT-Locations	10	20
DBPedia	14	28
MMLU	4	8

生成任务（3个数据集）

GSM8K：数学应用题（k=8）
MMLU-Pro：多任务理解（k=8）
MATH：数学问题求解（k=8）

数据划分：

开发集Ddev：1000样本（用于顺序选择）
测试集Dtest：500样本（用于最终评估）
分类任务通过过采样保证类别平衡

评价指标

分类任务：准确率(Accuracy)
生成任务：精确匹配(Exact Match)或数值容差匹配

对比方法

Average：所有随机排列的平均性能（baseline）
Highest-Dev：开发集选出的最优排列在测试集上的性能（本文方法）
Max：所有排列在测试集上的最优性能（oracle上界）

实现细节

模型覆盖（14个模型）

Qwen2.5系列：0.5B, 1.5B, 3B, 7B
Gemma-2系列：2B, 9B
Gemma系列：2B, 7B
Llama 3系列：1B, 3B, 8B
DeepSeek-R1-Distill：1.5B, 7B
Gemma-3：27B
GPT-5-Nano

实验参数

敏感性实验：M=10示例集，P=10排列
顺序搜索实验：M=10示例集，P=128排列
开发集大小研究：50-1000样本

顺序敏感性：σ^(M) = 0.01970
选择敏感性：σ^(P) = 0.02251
相对差异：选择仅比顺序高14%

这一结果颠覆了传统认知，证明顺序的重要性被严重低估。

按模型规模分析（表2核心发现）

模型	规模	顺序	选择	r值
Qwen2.5	0.5B	0.0223	0.0245	1.10
Qwen2.5	7B	0.0119	0.0155	1.30
Gemma-3	27B	0.0157	0.0262	1.67
GPT-5-Nano	-	0.0234	0.0198	0.85

关键洞察：

小模型更敏感：0.5B模型的敏感性约为7B模型的2倍
无单调趋势：r值不随模型规模单调变化
企业模型异常：GPT-5-nano对顺序更敏感（r<1），可能反映不同的训练策略

按任务类型分析（表3）

任务类型	顺序	选择	r值
分类（平均）	0.0226	0.0246	1.09
生成（平均）	0.0154	0.0222	1.46

重要发现：

分类任务：顺序和选择几乎同等重要（r≈1）
生成任务：选择相对更重要（r=1.46），但顺序仍占主导影响的68%

数据集级别差异

顺序更重要的案例：

NYT-Topics：r=0.97（顺序略胜）
AG News：r=1.01（完全相等）

选择更重要的案例：

GSM8K：r=1.58
MATH：r=1.33

这表明任务特性影响两者的相对重要性。

寻找最优顺序的效果

分类任务结果（图3a, 3c）

排列数P的影响：
- P=16时：恢复98%的oracle性能
- P=128时：恢复99%的oracle性能
- 平均性能始终落后最优性能5-6个百分点
开发集大小影响：
- 50样本：已有明显效果
- 250样本：性能趋于稳定
- 1000样本：边际收益递减

生成任务结果（图3b, 3d）

排列数P的影响：
- P=64-100时：恢复95%的oracle性能
- 需要更多排列才能达到分类任务的效果
开发集大小：同样在250样本后趋于稳定

具体数据集表现（表5, 6）

分类任务示例（DBPedia, Qwen2.5-7B）：

Average: 0.774
Highest-Dev: 0.795
Max: 0.800
提升：+2.1个百分点（相对提升2.7%）

生成任务示例（GSM8K, Llama-3.1-8B）：

Average: 0.658
Highest-Dev: 0.669
Max: 0.696
提升：+1.1个百分点，但距oracle仍有差距

顺序迁移性实验（表7）

跨数据集迁移（GSM8K ↔ MATH）

模型	GSM8K最优	MATH最优	GSM8K→MATH	MATH→GSM8K	迁移率
Qwen2.5-7B	0.616	0.244	0.207	0.593	0.905
平均	0.439	0.188	0.145	0.400	0.798

关键发现：

迁移后性能接近目标数据集的随机平均性能
迁移率平均仅为79.8%，表明最优顺序高度依赖数据集特性
即使是相关任务（两个数学数据集），顺序也难以迁移

消融实验：关键因素分析

虽然论文未明确标注消融实验，但通过参数变化实验可以得出：

排列数P的边际效应：
- 16→32：显著提升
- 32→64：中等提升
- 64→128：边际收益递减
开发集大小的阈值效应：
- <250样本：性能快速提升
- 250样本：趋于平稳
- 建议实践中使用250-500样本的开发集

案例分析

论文未提供具体示例的定性分析，但从数值结果可以推断：

最大波动案例（表4）：

Llama-3.1-8B在DBPedia上：
- 顺序敏感性：0.08791
- 选择敏感性：0.13226
- 这意味着仅改变顺序可导致±17.6%的准确率波动

最稳定案例：

Gemma-3-27B在多数任务上：
- 顺序敏感性：0.00545-0.00802
- 大模型展现更好的鲁棒性

结论与讨论

主要结论

核心发现：示例顺序的性能影响与示例选择相当，顺序敏感性平均为选择敏感性的88%（r=1.14）
实用方法：仅需评估64-128个排列和250个开发样本，即可找到接近最优的顺序
普遍性：该发现在0.5B到27B参数的模型、分类和生成任务上均成立
特异性：最优顺序高度依赖数据集，跨数据集迁移性能差（迁移率79.8%）
模型规模效应：小模型更敏感，但顺序与选择的相对重要性不随规模单调变化

局限性

作者承认的局限

模型覆盖：未包含GPT-5完整版和Claude等顶级商业模型（受预算和API限制）
语言局限：仅评估英语任务，未考虑多语言场景
任务类型：未涵盖代码生成、检索增强生成、对话等任务
评价指标：仅使用准确率，未考虑其他维度（如校准性、鲁棒性）

潜在的其他局限

示例数量：k值固定为2|C|或8，未系统研究不同shot数的影响
默认顺序定义：字母顺序的选择虽然合理，但可能引入微小偏差
计算成本：评估128个排列×10个示例集仍需较大计算量，实际应用中可能需要权衡
理论解释不足：缺乏对为什么顺序如此重要的深层机制分析

未来方向

论文提出的方向

测试更大规模的模型（GPT-5完整版）
扩展到其他语言
探索不同shot regime（few-shot, many-shot）
评估代码生成和RAG任务

值得探索的其他方向

机制研究：通过注意力可视化等方法理解顺序敏感性的内在原因
自动化方法：开发无需开发集的自适应顺序优化算法
跨任务迁移：研究能否学习任务无关的顺序策略
与其他因素的交互：研究顺序与提示模板、指令的联合优化

受控实验设计：通过默认顺序实现选择和顺序的完全解耦，避免混淆因素
系统性评估：14模型×8数据集×2任务类型，覆盖面广
度量合理：分组标准差作为统一度量，可直接比较两种因素

2. 发现的重要性 ⭐⭐⭐⭐⭐

挑战传统认知：证明顺序与选择同等重要，颠覆领域假设
实践价值高：优化顺序可零成本提升性能2-3个百分点
理论意义：揭示LLM对上下文结构的敏感性，为理解模型行为提供新视角

3. 实用性强 ⭐⭐⭐⭐

方法简单：无需复杂算法，仅需在开发集上评估候选排列
资源需求合理：250样本开发集+64排列即可达到良好效果
易于复现：论文提供详细的实验设置和伪代码

4. 写作清晰 ⭐⭐⭐⭐⭐

结构合理：逻辑清晰，从动机到方法到实验层层递进
可视化有效：图1的矩阵示意图直观展示实验设计
数据详实：附录提供完整的模型-数据集级别结果

不足

1. 理论解释不足 ⭐⭐

缺乏机制分析：未深入探讨为什么顺序如此重要
无注意力分析：没有通过注意力权重等方法验证假设
缺少可解释性：未分析什么样的顺序是"好"的顺序

2. 实验设计的局限 ⭐⭐⭐

排列采样策略：随机采样可能错过某些特殊的有效顺序模式
默认顺序的影响：字母顺序本身可能不是真正的"中性"基准
示例集构造：M=10可能不足以充分代表选择的多样性

3. 迁移性研究不够深入 ⭐⭐

仅测试两个数据集：GSM8K和MATH都是数学任务，缺乏跨领域测试
未分析失败原因：没有深入研究为什么迁移失败
缺少正迁移案例：是否存在某些情况下顺序可以迁移？

4. 实际应用指导有限 ⭐⭐⭐

无顺序设计原则：未总结出实用的顺序构造启发式规则
计算成本分析不足：未量化评估128个排列的实际时间和API成本
多示例集场景：实践中如何同时优化示例集和顺序？

影响力评估

1. 对领域的贡献 ⭐⭐⭐⭐⭐

范式转变：可能引发ICL研究从"选择为主"向"选择+顺序并重"的转变
激发后续研究：预计会催生大量关于顺序优化和机制理解的工作
实践影响：可能改变工业界prompt engineering的最佳实践

2. 实用价值 ⭐⭐⭐⭐

即时可用：方法简单，可立即应用于现有系统
成本效益高：小成本获得显著提升（2-3个百分点）
适用范围广：跨模型、跨任务均有效

3. 可复现性 ⭐⭐⭐⭐

优点：
- 使用公开模型和数据集
- 提供详细的超参数设置
- 附录包含完整结果
不足：
- 未开源代码（截至论文发表）
- 部分实验需要大量计算资源

4. 潜在引用价值

预计该论文会成为ICL领域的重要参考文献，因为：

提供了顺序vs选择的基准比较数据
方法简单易用，便于在后续工作中复现和扩展
挑战了领域的基本假设，具有里程碑意义

适用场景

高度适用 ✅

Few-shot分类任务：论文证明在分类任务上效果最显著（r≈1）
资源受限场景：当无法扩大示例集时，优化顺序是低成本提升方案
固定示例集场景：某些应用中示例集固定，此时顺序优化是唯一选择
开发集充足场景：有250+标注样本可用于顺序选择

中度适用 ⚠️

生成任务：效果略弱于分类（r=1.46），但仍值得尝试
跨任务应用：需要为每个新任务重新搜索顺序
大模型应用：大模型虽然更稳定，但仍存在顺序敏感性

不太适用 ❌

零样本场景：方法依赖多示例ICL
极小开发集：<50样本时效果不稳定
实时交互系统：无法预先评估128个排列
跨域迁移：从一个数据集学到的顺序难以迁移到其他数据集

对后续研究的启示

重新审视ICL假设：其他被认为次要的因素（如示例格式、标签词选择）是否也被低估？
联合优化框架：未来应开发同时优化选择和顺序的方法，而非独立处理
机制研究：急需理论工作解释顺序敏感性的根源（位置偏差？注意力机制？）
自适应方法：开发无需开发集的在线顺序优化算法
鲁棒性研究：如何训练对顺序不敏感的模型？

参考文献（关键文献）

Brown et al. (2020) - Language Models are Few-Shot Learners (GPT-3论文，奠定ICL范式)
Zhao et al. (2021) - Fantastically Ordered Prompts and Where to Find Them (首次系统研究顺序敏感性)
Lu et al. (2022) - Order Matters: Re-evaluating Few-Shot Prompting for Text Classification Tasks
Min et al. (2022) - Rethinking the Role of Demonstrations: What Makes In-Context Learning Work? (强调示例选择)
Guo et al. (2024) - DEmO: Dynamic Example Ordering for In-Context Learning (动态顺序优化)

总结性评价

这是一篇高质量、高影响力的研究工作，其核心价值在于：

挑战了领域的基本假设：用严谨的实验证明顺序与选择同等重要
提供了实用的解决方案：简单有效的开发集选择方法
系统性强：跨模型、跨任务、跨规模的全面评估
启发性强：为后续研究指明了多个重要方向

主要不足在于理论解释不够深入和迁移性研究有限，但这些不足不影响其作为ICL领域重要贡献的地位。

推荐阅读对象：所有从事ICL、prompt engineering和LLM应用的研究者和工程师。

评分：⭐⭐⭐⭐½ (4.5/5)