In-context learning (ICL) enables large language models to perform new tasks by conditioning on a sequence of examples. Most prior work reasonably and intuitively assumes that which examples are chosen has a far greater effect on performance than how those examples are ordered, leading to a focus on example selection. We revisit this assumption and conduct a systematic comparison between the effect of selection and ordering. Through controlled experiments on both classification and generation tasks, using multiple open-source model families (0.5B to 27B parameters) and GPT-5, we find that the variance in performance due to different example orderings is comparable to that from using entirely different example sets. Furthermore, we show that strong orderings can be identified using only a development set, achieving performance close to an oracle that selects the best ordering based on test labels. Our findings highlight the equal and intertwined importance of example selection and ordering in prompt design, calling for a reexamination of the assumptions held in ICL.
논문 ID : 2511.09700제목 : Order Matters: Rethinking Prompt Construction in In-Context Learning저자 : Warren Li, Yiqian Wang, Zihan Wang, Jingbo Shang (UC San Diego & Cushing Academy)분류 : cs.CL (계산언어학)발표 시간 : 2025년 11월 12일 (arXiv 사전인쇄본)논문 링크 : https://arxiv.org/abs/2511.09700 본 논문은 맥락 내 학습(ICL) 분야의 기본 가정에 도전한다: 예제 선택이 예제 순서보다 더 중요하다는 것. 분류 및 생성 작업에 대한 체계적 실험을 통해, 저자들은 예제 순서로 인한 성능 변동이 완전히 다른 예제 집합으로 교체하는 영향과 동등하다 는 것을 발견했다. 연구는 0.5B에서 27B 매개변수의 여러 오픈소스 모델 계열과 GPT-5를 포함한다. 또한 개발 집합만 사용하여 오라클 성능에 가까운 강력한 순서를 식별할 수 있음을 보여준다. 이러한 발견은 ICL에서 프롬프트 구성 전략을 재검토할 것을 촉구하며, 예제 선택과 순서가 동등하게 중요함을 강조한다.
맥락 내 학습에서 대규모 언어 모델은 소수의 예제를 조건으로 하여 새로운 작업을 수행하며, 기울기 업데이트나 작업별 미세 조정이 필요하지 않다. ICL 성능이 예제에 민감하다는 것이 알려져 있지만, 기존 연구는 일반적으로 예제 선택이 예제 순서보다 더 중요하다고 가정 하여, 연구 초점이 예제 선택에 집중되어 있다.
실무적 의의 : 순서가 선택과 동등하게 중요하다면, 현재 예제 선택만 중점을 두는 연구 패러다임은 성능 향상의 중요한 차원을 놓칠 수 있다이론적 의의 : 순서 민감성을 이해하는 것은 LLM의 맥락 처리 메커니즘을 밝히는 데 도움이 된다응용 가치 : 순서 최적화는 비용 없이 모델 성능을 향상시킬 수 있다연구 편향 : 대부분의 작업은 암묵적으로 순서가 부차적 요소라고 가정하며, 체계적인 정량적 비교가 부족하다방법론적 결함 : 이전 연구는 순서와 선택의 효과를 비교할 때 종종 두 가지의 영향을 혼동했다실무 지침 부족 : 실제 응용에서 최적 순서를 식별하는 효과적인 방법이 부족하다저자들은 제어된 실험 설계 를 통해 선택과 순서를 독립적으로 변화시켜 두 가지의 상대적 영향을 체계적으로 정량화하고, 분야 내 기존 인식에 도전한다.
정량적 증명 : 제어된 실험을 통해 예제 순서의 성능 영향이 예제 선택과 동등함을 증명. 순서 민감성 평균 표준편차는 0.01970, 선택 민감성은 0.02251 (단 14% 높음)실용적 방법 : 개발 집합 기반 순서 식별 방법 제안. 64-128개의 후보 순열 평가만으로 오라클 성능에 가까운 성능 회복 가능 (분류 작업 99%, 생성 작업 95%)체계적 분석 : 8개 데이터셋, 14개 모델 (0.5B-27B 매개변수), 두 가지 작업 유형 (분류/생성)에 걸친 포괄적 평가중요 발견 :순서 효과는 모델 규모에 따라 단조적으로 변하지 않음 생성 작업은 선택에 더 민감함 (r=1.46), 분류 작업은 두 가지가 거의 동등함 (r=1.09) 최적 순서는 데이터셋에 매우 의존적이며, 데이터셋 간 이전 성능이 낮음 연구는 소수 샷 맥락 내 학습에 초점을 맞추며, 작업에는 다음이 포함된다:
분류 작업 : k개의 주석이 있는 예제와 테스트 입력이 주어졌을 때, 클래스 레이블 예측생성 작업 : k개의 예제와 쿼리가 주어졌을 때, 자유 형식의 답변 생성핵심 연구 질문 : 예제 순서(ordering)와 예제 선택(selection)이 ICL 성능에 미치는 상대적 영향을 정량화
순서와 선택의 영향을 분리하기 위해 일관된 기본 순서를 정의:
분류 작업 : 레이블 알파벳 순서로 그룹화, 그룹 내 예제 알파벳 순서로 정렬생성 작업 : 모든 예제를 알파벳 순서로 정렬M=10개의 서로 다른 예제 집합 S₁,...,Sₘ을 구성하고, 각 집합에 대해 P=10개의 무작위 순열 π₁,...,πₚ을 평가:
정확도 행렬 A = [aᵢ,ⱼ]
여기서 aᵢ,ⱼ = Acc(Sᵢ, πⱼ | Dₜₑₛₜ)
각 예제 집합에서 서로 다른 순열의 표준편차를 계산한 후 평균:
σ ( M ) = 1 M ∑ i = 1 M std ( a i , 1 , . . . , a i , P ) \sigma^{(M)} = \frac{1}{M}\sum_{i=1}^{M} \text{std}(a_{i,1}, ..., a_{i,P}) σ ( M ) = M 1 ∑ i = 1 M std ( a i , 1 , ... , a i , P )
이는 고정된 예제 집합에서 순서 변경의 영향 을 측정한다.
각 순열에서 서로 다른 예제 집합의 표준편차를 계산한 후 평균:
σ ( P ) = 1 P ∑ j = 1 P std ( a 1 , j , . . . , a M , j ) \sigma^{(P)} = \frac{1}{P}\sum_{j=1}^{P} \text{std}(a_{1,j}, ..., a_{M,j}) σ ( P ) = P 1 ∑ j = 1 P std ( a 1 , j , ... , a M , j )
이는 고정된 순서에서 예제 집합 변경의 영향 을 측정한다.
r = σ ( P ) σ ( M ) r = \frac{\sigma^{(P)}}{\sigma^{(M)}} r = σ ( M ) σ ( P )
r ≈ 1: 두 가지 영향이 동등함 r > 1: 선택이 더 중요함 r < 1: 순서가 더 중요함 입력: 예제 집합 Sᵢ, 개발 집합 Ddev, 테스트 집합 Dtest, 순열 수 P=128
각 예제 집합 Sᵢ에 대해 (M=10회 반복):
1. P개의 무작위 순열 {πⱼ} 생성
2. 개발 집합에서 각 순열 평가: aⱼ = Acc(Sᵢ, πⱼ | Ddev)
3. 최적 순열 선택: π* = argmax aⱼ
4. 테스트 집합에서 평가: a* = Acc(Sᵢ, π* | Dtest)
5. 오라클 성능 기록: amax = max Acc(Sᵢ, πⱼ | Dtest)
반환: {a*, amax}
순열 수 P : 16에서 128까지의 영향 연구개발 집합 크기 |Ddev| : 50에서 1000 샘플의 영향 연구실험 설계 혁신 : 기본 순서 정의를 통해 선택과 순서 효과의 완전한 분리 달성측정 방법 : 그룹화된 표준편차(grouped standard deviation)를 통일된 민감성 측정으로 제안하여 두 요소를 공정하게 비교 가능실용성 균형 : 방법은 오라클 테스트 레이블 접근이 필요 없으며, 소규모 개발 집합만 필요 (250 샘플로 충분)체계적 평가 : 처음으로 여러 모델, 여러 작업, 여러 규모에 걸쳐 순서 vs 선택의 포괄적 비교 연구 수행데이터셋 클래스 수 예제 수 k AG News 4 8 NYT-Topics 9 18 NYT-Locations 10 20 DBPedia 14 28 MMLU 4 8
GSM8K : 수학 응용 문제 (k=8)MMLU-Pro : 다중 작업 이해 (k=8)MATH : 수학 문제 풀이 (k=8)데이터 분할 :
개발 집합 Ddev: 1000 샘플 (순서 선택용) 테스트 집합 Dtest: 500 샘플 (최종 평가용) 분류 작업은 클래스 균형을 위해 오버샘플링 분류 작업 : 정확도(Accuracy)생성 작업 : 정확 일치(Exact Match) 또는 수치 허용 범위 일치Average : 모든 무작위 순열의 평균 성능 (기준선)Highest-Dev : 개발 집합에서 선택한 최적 순열의 테스트 집합 성능 (본 논문 방법)Max : 모든 순열의 테스트 집합 최적 성능 (오라클 상한)Qwen2.5 시리즈 : 0.5B, 1.5B, 3B, 7BGemma-2 시리즈 : 2B, 9BGemma 시리즈 : 2B, 7BLlama 3 시리즈 : 1B, 3B, 8BDeepSeek-R1-Distill : 1.5B, 7BGemma-3 : 27BGPT-5-Nano 민감성 실험 : M=10 예제 집합, P=10 순열순서 검색 실험 : M=10 예제 집합, P=128 순열개발 집합 크기 연구 : 50-1000 샘플순서 민감성 : σ^(M) = 0.01970선택 민감성 : σ^(P) = 0.02251상대적 차이 : 선택이 순서보다 단 14% 높음이 결과는 기존 인식을 뒤집으며 , 순서의 중요성이 심각하게 과소평가되었음을 증명한다.
모델 규모 순서 선택 r값 Qwen2.5 0.5B 0.0223 0.0245 1.10 Qwen2.5 7B 0.0119 0.0155 1.30 Gemma-3 27B 0.0157 0.0262 1.67 GPT-5-Nano - 0.0234 0.0198 0.85
핵심 통찰 :
소형 모델이 더 민감함 : 0.5B 모델의 민감성은 7B 모델의 약 2배단조 추세 없음 : r값은 모델 규모에 따라 단조적으로 변하지 않음기업 모델 이상 : GPT-5-nano는 순서에 더 민감함 (r<1), 다른 훈련 전략을 반영할 수 있음작업 유형 순서 선택 r값 분류 (평균) 0.0226 0.0246 1.09 생성 (평균) 0.0154 0.0222 1.46
중요 발견 :
분류 작업 : 순서와 선택이 거의 동등하게 중요함 (r≈1)생성 작업 : 선택이 상대적으로 더 중요함 (r=1.46), 하지만 순서는 여전히 주요 영향의 68%를 차지순서가 더 중요한 경우 :
NYT-Topics: r=0.97 (순서가 약간 우수) AG News: r=1.01 (완전히 동등) 선택이 더 중요한 경우 :
GSM8K: r=1.58 MATH: r=1.33 이는 작업 특성이 두 가지의 상대적 중요성에 영향을 미친다 는 것을 나타낸다.
순열 수 P의 영향 :P=16일 때: 오라클 성능의 98% 회복 P=128일 때: 오라클 성능의 99% 회복 평균 성능은 항상 최적 성능보다 5-6 백분점 뒤짐 개발 집합 크기 영향 :50 샘플: 이미 명백한 효과 250 샘플: 성능이 안정화됨 1000 샘플: 한계 수익 감소 순열 수 P의 영향 :P=64-100일 때: 오라클 성능의 95% 회복 분류 작업의 효과에 도달하려면 더 많은 순열 필요 개발 집합 크기 : 마찬가지로 250 샘플 후 안정화분류 작업 예시 (DBPedia, Qwen2.5-7B) :
Average: 0.774 Highest-Dev: 0.795 Max: 0.800 향상 : +2.1 백분점 (상대 향상 2.7%)생성 작업 예시 (GSM8K, Llama-3.1-8B) :
Average: 0.658 Highest-Dev: 0.669 Max: 0.696 향상 : +1.1 백분점, 하지만 오라클과의 격차 여전함모델 GSM8K 최적 MATH 최적 GSM8K→MATH MATH→GSM8K 이전율 Qwen2.5-7B 0.616 0.244 0.207 0.593 0.905 평균 0.439 0.188 0.145 0.400 0.798
핵심 발견 :
이전 후 성능이 대상 데이터셋의 무작위 평균 성능에 가까움 평균 이전율은 79.8%에 불과하며, 최적 순서가 데이터셋 특성에 매우 의존적 임을 나타냄 관련 작업 (두 수학 데이터셋)이라도 순서는 이전되기 어려움 논문이 명시적으로 소거 실험을 표시하지는 않았지만, 매개변수 변화 실험을 통해 다음을 도출할 수 있다:
순열 수 P의 한계 효과 :16→32: 현저한 향상 32→64: 중간 정도 향상 64→128: 한계 수익 감소 개발 집합 크기의 임계값 효과 :<250 샘플: 빠른 성능 향상 250 샘플: 평탄화 추세
실무에서는 250-500 샘플의 개발 집합 사용 권장 논문은 구체적 예제의 정성적 분석을 제공하지 않았지만, 수치 결과에서 다음을 추론할 수 있다:
최대 변동 사례 (표4):
Llama-3.1-8B on DBPedia:
순서 민감성: 0.08791 선택 민감성: 0.13226 이는 순서만 변경해도 ±17.6%의 정확도 변동을 초래할 수 있음을 의미 가장 안정적인 사례 :
Gemma-3-27B on 다수 작업:
순서 민감성: 0.00545-0.00802 대형 모델은 더 나은 견고성을 보임 Zhao et al. (2021) : GPT-3가 예제 순서에 매우 민감함을 처음 체계적으로 증명. 정확도가 수십 백분점 변동할 수 있으며, 모델의 초기 맥락에 대한 과도한 의존성으로 귀인Lu et al. (2022) : 최적 순서가 SOTA에 가까운 성능에 도달할 수 있으며, 나쁜 순서는 정확도를 무작위 수준으로 낮춘다는 것을 증명본 논문의 기여 : 순서의 존재만 관찰하는 것이 아니라, 순서와 선택의 상대적 영향을 정량적으로 처음 비교
Min et al. (2022) : 예제 선택의 중요성 강조Rubin et al. (2022) : 검색 기반 예제 선택 방법 제안Zhang et al. (2022), Guo et al. (2024) : 최근 연구는 순서가 선택과 동등하게 중요할 수 있음을 인식하기 시작본 논문의 기여 : 제어된 실험 설계를 통해 두 가지 영향의 정량적 비교(r값) 처음 제공
휴리스틱 방법 : 개발 집합에서 순열 샘플링 (Zhao et al., 2021; Zhang et al., 2022)적응형 방법 : 테스트 쿼리 기반 동적 재정렬 (Guo et al., 2024)강화학습 : RL 기반 검색 (Bhope et al., 2023)본 논문의 기여 : 복잡한 알고리즘 없이도 개발 집합 선택만으로 최적에 가까운 순서를 얻을 수 있는 간단하고 효과적인 방법 제안
본 논문은 다음 측면에서 기존 연구를 확장한다:
범위 더 광범위 : 14개 모델, 8개 데이터셋, 분류+생성 작업방법 더 엄밀 : 기본 순서를 통해 선택과 순서의 완전한 분리 달성발견 더 체계적 : 상대적 영향 정량화, 이전성 연구, 모델 규모 효과 분석핵심 발견 : 예제 순서의 성능 영향이 예제 선택과 동등하며, 순서 민감성 평균이 선택 민감성의 88% (r=1.14)실용적 방법 : 64-128개 순열 평가와 250개 개발 샘플만으로 최적에 가까운 순서를 찾을 수 있음보편성 : 이 발견은 0.5B에서 27B 매개변수의 모델, 분류 및 생성 작업에서 성립특이성 : 최적 순서는 데이터셋에 매우 의존적이며, 데이터셋 간 이전 성능이 낮음 (이전율 79.8%)모델 규모 효과 : 소형 모델이 더 민감하지만, 순서와 선택의 상대적 중요성은 규모에 따라 단조적으로 변하지 않음모델 커버리지 : GPT-5 완전판 및 Claude 등 최고급 상용 모델 미포함 (예산 및 API 제한)언어 한계 : 영어 작업만 평가, 다국어 시나리오 미고려작업 유형 : 코드 생성, 검색 증강 생성, 대화 등 미포함평가 지표 : 정확도만 사용, 보정성, 견고성 등 다른 차원 미고려예제 수 : k값이 2|C| 또는 8로 고정, 다양한 샷 수의 영향을 체계적으로 연구하지 않음기본 순서 정의 : 알파벳 순서 선택이 합리적이지만, 미세한 편향을 초래할 수 있음계산 비용 : 128개 순열 × 10개 예제 집합 평가는 여전히 상당한 계산량 필요, 실제 응용에서 권형 필요이론적 설명 부족 : 순서가 왜 그렇게 중요한지에 대한 심층 메커니즘 분석 부족더 큰 규모 모델 테스트 (GPT-5 완전판) 다른 언어로 확장 다양한 샷 체계 탐색 (소수 샷, 다수 샷) 코드 생성 및 RAG 작업 평가 메커니즘 연구 : 주의력 시각화 등 방법을 통해 순서 민감성의 내재적 원인 이해자동화 방법 : 개발 집합 없이 적응형 순서 최적화 알고리즘 개발작업 간 이전 : 작업 무관 순서 전략 학습 가능 여부 연구다른 요소와의 상호작용 : 순서와 프롬프트 템플릿, 지시사항의 결합 최적화 연구제어된 실험 설계 : 기본 순서를 통해 선택과 순서의 완전한 분리 달성, 혼동 요소 회피체계적 평가 : 14개 모델 × 8개 데이터셋 × 2개 작업 유형, 광범위한 커버리지합리적 측정 : 그룹화된 표준편차를 통일된 측정으로 사용, 두 요소 직접 비교 가능기존 인식 도전 : 순서와 선택이 동등하게 중요함을 증명, 분야 가정 뒤집음실무 가치 높음 : 순서 최적화로 2-3 백분점 비용 없는 성능 향상 가능이론적 의의 : LLM의 맥락 구조 민감성 노출, 모델 행동 이해에 새로운 관점 제공방법 간단 : 복잡한 알고리즘 불필요, 개발 집합에서 후보 순열만 평가자원 요구 합리적 : 250 샘플 개발 집합 + 64 순열로 좋은 효과 달성재현 용이 : 상세한 실험 설정 및 의사 코드 제공구조 합리적 : 논리 명확, 동기에서 방법에서 실험으로 단계적 진행시각화 효과적 : 그림1의 행렬 示意도가 실험 설계를 직관적으로 표현데이터 상세 : 부록에 완전한 모델-데이터셋 수준 결과 제공메커니즘 분석 부족 : 순서가 왜 그렇게 중요한지 심층 탐구 부족주의력 분석 없음 : 주의력 가중치 등 방법을 통한 가설 검증 부재해석성 부족 : 어떤 종류의 순서가 "좋은" 순서인지 분석 부족순열 샘플링 전략 : 무작위 샘플링이 특정 효과적 순열 패턴을 놓칠 수 있음기본 순서의 영향 : 알파벳 순서 자체가 진정한 "중립" 기준이 아닐 수 있음예제 집합 구성 : M=10이 선택의 다양성을 충분히 대표하기에 부족할 수 있음제한된 데이터셋 : GSM8K와 MATH만 테스트, 둘 다 수학 작업으로 영역 간 테스트 부족실패 원인 분석 부족 : 이전이 실패하는 이유에 대한 심층 연구 부재긍정적 이전 사례 부족 : 순서가 이전될 수 있는 경우가 있는지 여부 불명확순서 설계 원칙 없음 : 실용적 순서 구성 휴리스틱 규칙 미정리계산 비용 분석 부족 : 128개 순열 평가의 실제 시간 및 API 비용 정량화 부족다중 예제 집합 시나리오 : 실무에서 예제 집합과 순서를 동시에 최적화하는 방법 미제시패러다임 전환 : ICL 연구가 "선택 중심"에서 "선택+순서 동등"으로 전환될 가능성후속 연구 촉발 : 순서 최적화 및 메커니즘 이해 관련 대량 연구 예상실무 영향 : 산업계 프롬프트 엔지니어링 최고 실무 관행 변경 가능즉시 적용 가능 : 방법 간단, 기존 시스템에 즉시 적용 가능비용 효율 높음 : 적은 비용으로 현저한 향상 (2-3 백분점)적용 범위 광범위 : 모델, 작업 간 효과적장점 :
공개 모델 및 데이터셋 사용 상세한 초매개변수 설정 제공 부록에 완전한 결과 포함 부족점 :
코드 공개 안 됨 (논문 발표 시점) 일부 실험은 대량 계산 자원 필요 이 논문이 ICL 분야의 중요 참고 문헌이 될 것으로 예상되는 이유:
순서 vs 선택의 기준 비교 데이터 제공 방법 간단하고 사용하기 쉬워 후속 연구에서 재현 및 확장 용이 분야의 기본 가정에 도전, 이정표적 의의 소수 샷 분류 작업 : 논문이 분류 작업에서 가장 현저한 효과 증명 (r≈1)자원 제약 시나리오 : 예제 집합 확대 불가능할 때 순서 최적화는 저비용 향상 방안고정 예제 집합 시나리오 : 일부 응용에서 예제 집합이 고정되어 있을 때 순서 최적화가 유일한 선택개발 집합 충분 시나리오 : 250+ 주석 샘플 사용 가능생성 작업 : 분류보다 효과 약함 (r=1.46), 하지만 여전히 시도 가치작업 간 응용 : 새로운 작업마다 순서를 다시 검색해야 함대형 모델 응용 : 대형 모델이 더 안정적이지만 여전히 순서 민감성 존재영 샷 시나리오 : 방법은 다중 예제 ICL에 의존극소 개발 집합 : <50 샘플일 때 효과 불안정실시간 상호작용 시스템 : 128개 순열 사전 평가 불가능도메인 간 이전 : 한 데이터셋에서 학습한 순서가 다른 데이터셋으로 이전되기 어려움ICL 가정 재검토 : 차순위로 간주되는 다른 요소들 (예: 예제 형식, 레이블 단어 선택)도 과소평가되었는가?결합 최적화 프레임워크 : 향후 선택과 순서를 독립적으로 처리하지 않고 동시에 최적화하는 방법 개발 필요메커니즘 연구 : 순서 민감성의 근본 원인을 설명하는 이론 연구 시급 (위치 편향? 주의력 메커니즘?)적응형 방법 : 개발 집합 없이 온라인 순서 최적화 알고리즘 개발견고성 연구 : 순서에 민감하지 않은 모델을 훈련할 수 있는가?Brown et al. (2020) - Language Models are Few-Shot Learners (GPT-3 논문, ICL 패러다임 수립)Zhao et al. (2021) - Fantastically Ordered Prompts and Where to Find Them (순서 민감성 최초 체계적 연구)Lu et al. (2022) - Order Matters: Re-evaluating Few-Shot Prompting for Text Classification TasksMin et al. (2022) - Rethinking the Role of Demonstrations: What Makes In-Context Learning Work? (예제 선택 강조)Guo et al. (2024) - DEmO: Dynamic Example Ordering for In-Context Learning (동적 순서 최적화)이는 높은 품질, 높은 영향력 의 연구 작업이며, 핵심 가치는 다음에 있다:
분야의 기본 가정에 도전 : 엄밀한 실험으로 순서와 선택이 동등하게 중요함을 증명실용적 해결책 제공 : 간단하고 효과적인 개발 집합 선택 방법강한 체계성 : 모델, 작업, 규모 간 포괄적 평가높은 영감성 : 후속 연구의 여러 중요 방향 제시주요 부족점은 이론적 설명 부족 과 이전성 연구 제한 이지만, 이는 ICL 분야의 중요 기여로서의 지위에 영향을 주지 않는다.
추천 독자 : ICL, 프롬프트 엔지니어링, LLM 응용에 종사하는 모든 연구자 및 엔지니어.
평점 : ⭐⭐⭐⭐½ (4.5/5)