2025-11-16T23:13:13.427433

Order Matters: Rethinking Prompt Construction in In-Context Learning

Li, Wang, Wang et al.

In-context learning (ICL) enables large language models to perform new tasks by conditioning on a sequence of examples. Most prior work reasonably and intuitively assumes that which examples are chosen has a far greater effect on performance than how those examples are ordered, leading to a focus on example selection. We revisit this assumption and conduct a systematic comparison between the effect of selection and ordering. Through controlled experiments on both classification and generation tasks, using multiple open-source model families (0.5B to 27B parameters) and GPT-5, we find that the variance in performance due to different example orderings is comparable to that from using entirely different example sets. Furthermore, we show that strong orderings can be identified using only a development set, achieving performance close to an oracle that selects the best ordering based on test labels. Our findings highlight the equal and intertwined importance of example selection and ordering in prompt design, calling for a reexamination of the assumptions held in ICL.

academic

순서가 중요하다: 맥락 내 학습에서 프롬프트 구성 재검토

기본 정보

논문 ID: 2511.09700
제목: Order Matters: Rethinking Prompt Construction in In-Context Learning
저자: Warren Li, Yiqian Wang, Zihan Wang, Jingbo Shang (UC San Diego & Cushing Academy)
분류: cs.CL (계산언어학)
발표 시간: 2025년 11월 12일 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2511.09700

초록

본 논문은 맥락 내 학습(ICL) 분야의 기본 가정에 도전한다: 예제 선택이 예제 순서보다 더 중요하다는 것. 분류 및 생성 작업에 대한 체계적 실험을 통해, 저자들은 예제 순서로 인한 성능 변동이 완전히 다른 예제 집합으로 교체하는 영향과 동등하다는 것을 발견했다. 연구는 0.5B에서 27B 매개변수의 여러 오픈소스 모델 계열과 GPT-5를 포함한다. 또한 개발 집합만 사용하여 오라클 성능에 가까운 강력한 순서를 식별할 수 있음을 보여준다. 이러한 발견은 ICL에서 프롬프트 구성 전략을 재검토할 것을 촉구하며, 예제 선택과 순서가 동등하게 중요함을 강조한다.

실무적 의의: 순서가 선택과 동등하게 중요하다면, 현재 예제 선택만 중점을 두는 연구 패러다임은 성능 향상의 중요한 차원을 놓칠 수 있다
이론적 의의: 순서 민감성을 이해하는 것은 LLM의 맥락 처리 메커니즘을 밝히는 데 도움이 된다
응용 가치: 순서 최적화는 비용 없이 모델 성능을 향상시킬 수 있다

3. 기존 방법의 한계

연구 편향: 대부분의 작업은 암묵적으로 순서가 부차적 요소라고 가정하며, 체계적인 정량적 비교가 부족하다
방법론적 결함: 이전 연구는 순서와 선택의 효과를 비교할 때 종종 두 가지의 영향을 혼동했다
실무 지침 부족: 실제 응용에서 최적 순서를 식별하는 효과적인 방법이 부족하다

4. 연구 동기

저자들은 제어된 실험 설계를 통해 선택과 순서를 독립적으로 변화시켜 두 가지의 상대적 영향을 체계적으로 정량화하고, 분야 내 기존 인식에 도전한다.

핵심 기여

정량적 증명: 제어된 실험을 통해 예제 순서의 성능 영향이 예제 선택과 동등함을 증명. 순서 민감성 평균 표준편차는 0.01970, 선택 민감성은 0.02251 (단 14% 높음)
실용적 방법: 개발 집합 기반 순서 식별 방법 제안. 64-128개의 후보 순열 평가만으로 오라클 성능에 가까운 성능 회복 가능 (분류 작업 99%, 생성 작업 95%)
체계적 분석: 8개 데이터셋, 14개 모델 (0.5B-27B 매개변수), 두 가지 작업 유형 (분류/생성)에 걸친 포괄적 평가
중요 발견:
- 순서 효과는 모델 규모에 따라 단조적으로 변하지 않음
- 생성 작업은 선택에 더 민감함 (r=1.46), 분류 작업은 두 가지가 거의 동등함 (r=1.09)
- 최적 순서는 데이터셋에 매우 의존적이며, 데이터셋 간 이전 성능이 낮음

방법 상세 설명

작업 정의

연구는 소수 샷 맥락 내 학습에 초점을 맞추며, 작업에는 다음이 포함된다:

분류 작업: k개의 주석이 있는 예제와 테스트 입력이 주어졌을 때, 클래스 레이블 예측
생성 작업: k개의 예제와 쿼리가 주어졌을 때, 자유 형식의 답변 생성

핵심 연구 질문: 예제 순서(ordering)와 예제 선택(selection)이 ICL 성능에 미치는 상대적 영향을 정량화

실험 설계 프레임워크

1. 기본 순서 정의

순서와 선택의 영향을 분리하기 위해 일관된 기본 순서를 정의:

분류 작업: 레이블 알파벳 순서로 그룹화, 그룹 내 예제 알파벳 순서로 정렬
생성 작업: 모든 예제를 알파벳 순서로 정렬

2. 제어된 변수 실험

M=10개의 서로 다른 예제 집합 S₁,...,Sₘ을 구성하고, 각 집합에 대해 P=10개의 무작위 순열 π₁,...,πₚ을 평가:

정확도 행렬 A = [aᵢ,ⱼ]
여기서 aᵢ,ⱼ = Acc(Sᵢ, πⱼ | Dₜₑₛₜ)

민감성 측정

순서 민감성(Order Sensitivity)

각 예제 집합에서 서로 다른 순열의 표준편차를 계산한 후 평균:

$\sigma^{(M)} = \frac{1}{M}\sum_{i=1}^{M} \text{std}(a_{i,1}, ..., a_{i,P})$

이는 고정된 예제 집합에서 순서 변경의 영향을 측정한다.

선택 민감성(Selection Sensitivity)

각 순열에서 서로 다른 예제 집합의 표준편차를 계산한 후 평균:

$\sigma^{(P)} = \frac{1}{P}\sum_{j=1}^{P} \text{std}(a_{1,j}, ..., a_{M,j})$

이는 고정된 순서에서 예제 집합 변경의 영향을 측정한다.

상대적 중요도 비율

$r = \frac{\sigma^{(P)}}{\sigma^{(M)}}$

r ≈ 1: 두 가지 영향이 동등함
r > 1: 선택이 더 중요함
r < 1: 순서가 더 중요함

최적 순서 찾기 방법

알고리즘 흐름 (Algorithm 1)

입력: 예제 집합 Sᵢ, 개발 집합 Ddev, 테스트 집합 Dtest, 순열 수 P=128
각 예제 집합 Sᵢ에 대해 (M=10회 반복):
    1. P개의 무작위 순열 {πⱼ} 생성
    2. 개발 집합에서 각 순열 평가: aⱼ = Acc(Sᵢ, πⱼ | Ddev)
    3. 최적 순열 선택: π* = argmax aⱼ
    4. 테스트 집합에서 평가: a* = Acc(Sᵢ, π* | Dtest)
    5. 오라클 성능 기록: amax = max Acc(Sᵢ, πⱼ | Dtest)
반환: {a*, amax}

주요 매개변수 연구

순열 수 P: 16에서 128까지의 영향 연구
개발 집합 크기 |Ddev|: 50에서 1000 샘플의 영향 연구

기술적 혁신점

실험 설계 혁신: 기본 순서 정의를 통해 선택과 순서 효과의 완전한 분리 달성
측정 방법: 그룹화된 표준편차(grouped standard deviation)를 통일된 민감성 측정으로 제안하여 두 요소를 공정하게 비교 가능
실용성 균형: 방법은 오라클 테스트 레이블 접근이 필요 없으며, 소규모 개발 집합만 필요 (250 샘플로 충분)
체계적 평가: 처음으로 여러 모델, 여러 작업, 여러 규모에 걸쳐 순서 vs 선택의 포괄적 비교 연구 수행

데이터셋	클래스 수	예제 수 k
AG News	4	8
NYT-Topics	9	18
NYT-Locations	10	20
DBPedia	14	28
MMLU	4	8

생성 작업 (3개 데이터셋)

GSM8K: 수학 응용 문제 (k=8)
MMLU-Pro: 다중 작업 이해 (k=8)
MATH: 수학 문제 풀이 (k=8)

데이터 분할:

개발 집합 Ddev: 1000 샘플 (순서 선택용)
테스트 집합 Dtest: 500 샘플 (최종 평가용)
분류 작업은 클래스 균형을 위해 오버샘플링

평가 지표

분류 작업: 정확도(Accuracy)
생성 작업: 정확 일치(Exact Match) 또는 수치 허용 범위 일치

비교 방법

Average: 모든 무작위 순열의 평균 성능 (기준선)
Highest-Dev: 개발 집합에서 선택한 최적 순열의 테스트 집합 성능 (본 논문 방법)
Max: 모든 순열의 테스트 집합 최적 성능 (오라클 상한)

구현 세부사항

모델 커버리지 (14개 모델)

Qwen2.5 시리즈: 0.5B, 1.5B, 3B, 7B
Gemma-2 시리즈: 2B, 9B
Gemma 시리즈: 2B, 7B
Llama 3 시리즈: 1B, 3B, 8B
DeepSeek-R1-Distill: 1.5B, 7B
Gemma-3: 27B
GPT-5-Nano

실험 매개변수

민감성 실험: M=10 예제 집합, P=10 순열
순서 검색 실험: M=10 예제 집합, P=128 순열
개발 집합 크기 연구: 50-1000 샘플

순서 민감성: σ^(M) = 0.01970
선택 민감성: σ^(P) = 0.02251
상대적 차이: 선택이 순서보다 단 14% 높음

이 결과는 기존 인식을 뒤집으며, 순서의 중요성이 심각하게 과소평가되었음을 증명한다.

모델 규모별 분석 (표2 핵심 발견)

모델	규모	순서	선택	r값
Qwen2.5	0.5B	0.0223	0.0245	1.10
Qwen2.5	7B	0.0119	0.0155	1.30
Gemma-3	27B	0.0157	0.0262	1.67
GPT-5-Nano	-	0.0234	0.0198	0.85

핵심 통찰:

소형 모델이 더 민감함: 0.5B 모델의 민감성은 7B 모델의 약 2배
단조 추세 없음: r값은 모델 규모에 따라 단조적으로 변하지 않음
기업 모델 이상: GPT-5-nano는 순서에 더 민감함 (r<1), 다른 훈련 전략을 반영할 수 있음

작업 유형별 분석 (표3)

작업 유형	순서	선택	r값
분류 (평균)	0.0226	0.0246	1.09
생성 (평균)	0.0154	0.0222	1.46

중요 발견:

분류 작업: 순서와 선택이 거의 동등하게 중요함 (r≈1)
생성 작업: 선택이 상대적으로 더 중요함 (r=1.46), 하지만 순서는 여전히 주요 영향의 68%를 차지

데이터셋 수준 차이

순서가 더 중요한 경우:

NYT-Topics: r=0.97 (순서가 약간 우수)
AG News: r=1.01 (완전히 동등)

선택이 더 중요한 경우:

GSM8K: r=1.58
MATH: r=1.33

이는 작업 특성이 두 가지의 상대적 중요성에 영향을 미친다는 것을 나타낸다.

최적 순서 찾기의 효과

분류 작업 결과 (그림3a, 3c)

순열 수 P의 영향:
- P=16일 때: 오라클 성능의 98% 회복
- P=128일 때: 오라클 성능의 99% 회복
- 평균 성능은 항상 최적 성능보다 5-6 백분점 뒤짐
개발 집합 크기 영향:
- 50 샘플: 이미 명백한 효과
- 250 샘플: 성능이 안정화됨
- 1000 샘플: 한계 수익 감소

생성 작업 결과 (그림3b, 3d)

순열 수 P의 영향:
- P=64-100일 때: 오라클 성능의 95% 회복
- 분류 작업의 효과에 도달하려면 더 많은 순열 필요
개발 집합 크기: 마찬가지로 250 샘플 후 안정화

구체적 데이터셋 성능 (표5, 6)

분류 작업 예시 (DBPedia, Qwen2.5-7B):

Average: 0.774
Highest-Dev: 0.795
Max: 0.800
향상: +2.1 백분점 (상대 향상 2.7%)

생성 작업 예시 (GSM8K, Llama-3.1-8B):

Average: 0.658
Highest-Dev: 0.669
Max: 0.696
향상: +1.1 백분점, 하지만 오라클과의 격차 여전함

순서 이전 실험 (표7)

데이터셋 간 이전 (GSM8K ↔ MATH)

모델	GSM8K 최적	MATH 최적	GSM8K→MATH	MATH→GSM8K	이전율
Qwen2.5-7B	0.616	0.244	0.207	0.593	0.905
평균	0.439	0.188	0.145	0.400	0.798

핵심 발견:

이전 후 성능이 대상 데이터셋의 무작위 평균 성능에 가까움
평균 이전율은 79.8%에 불과하며, 최적 순서가 데이터셋 특성에 매우 의존적임을 나타냄
관련 작업 (두 수학 데이터셋)이라도 순서는 이전되기 어려움

소거 실험: 주요 요소 분석

논문이 명시적으로 소거 실험을 표시하지는 않았지만, 매개변수 변화 실험을 통해 다음을 도출할 수 있다:

순열 수 P의 한계 효과:
- 16→32: 현저한 향상
- 32→64: 중간 정도 향상
- 64→128: 한계 수익 감소
개발 집합 크기의 임계값 효과:
- <250 샘플: 빠른 성능 향상
- 250 샘플: 평탄화 추세
- 실무에서는 250-500 샘플의 개발 집합 사용 권장

사례 분석

논문은 구체적 예제의 정성적 분석을 제공하지 않았지만, 수치 결과에서 다음을 추론할 수 있다:

최대 변동 사례 (표4):

Llama-3.1-8B on DBPedia:
- 순서 민감성: 0.08791
- 선택 민감성: 0.13226
- 이는 순서만 변경해도 ±17.6%의 정확도 변동을 초래할 수 있음을 의미

가장 안정적인 사례:

Gemma-3-27B on 다수 작업:
- 순서 민감성: 0.00545-0.00802
- 대형 모델은 더 나은 견고성을 보임

결론 및 논의

주요 결론

핵심 발견: 예제 순서의 성능 영향이 예제 선택과 동등하며, 순서 민감성 평균이 선택 민감성의 88% (r=1.14)
실용적 방법: 64-128개 순열 평가와 250개 개발 샘플만으로 최적에 가까운 순서를 찾을 수 있음
보편성: 이 발견은 0.5B에서 27B 매개변수의 모델, 분류 및 생성 작업에서 성립
특이성: 최적 순서는 데이터셋에 매우 의존적이며, 데이터셋 간 이전 성능이 낮음 (이전율 79.8%)
모델 규모 효과: 소형 모델이 더 민감하지만, 순서와 선택의 상대적 중요성은 규모에 따라 단조적으로 변하지 않음

한계

저자가 인정한 한계

모델 커버리지: GPT-5 완전판 및 Claude 등 최고급 상용 모델 미포함 (예산 및 API 제한)
언어 한계: 영어 작업만 평가, 다국어 시나리오 미고려
작업 유형: 코드 생성, 검색 증강 생성, 대화 등 미포함
평가 지표: 정확도만 사용, 보정성, 견고성 등 다른 차원 미고려

잠재적 기타 한계

예제 수: k값이 2|C| 또는 8로 고정, 다양한 샷 수의 영향을 체계적으로 연구하지 않음
기본 순서 정의: 알파벳 순서 선택이 합리적이지만, 미세한 편향을 초래할 수 있음
계산 비용: 128개 순열 × 10개 예제 집합 평가는 여전히 상당한 계산량 필요, 실제 응용에서 권형 필요
이론적 설명 부족: 순서가 왜 그렇게 중요한지에 대한 심층 메커니즘 분석 부족

향후 방향

논문이 제시한 방향

더 큰 규모 모델 테스트 (GPT-5 완전판)
다른 언어로 확장
다양한 샷 체계 탐색 (소수 샷, 다수 샷)
코드 생성 및 RAG 작업 평가

탐색할 가치가 있는 기타 방향

메커니즘 연구: 주의력 시각화 등 방법을 통해 순서 민감성의 내재적 원인 이해
자동화 방법: 개발 집합 없이 적응형 순서 최적화 알고리즘 개발
작업 간 이전: 작업 무관 순서 전략 학습 가능 여부 연구
다른 요소와의 상호작용: 순서와 프롬프트 템플릿, 지시사항의 결합 최적화 연구

제어된 실험 설계: 기본 순서를 통해 선택과 순서의 완전한 분리 달성, 혼동 요소 회피
체계적 평가: 14개 모델 × 8개 데이터셋 × 2개 작업 유형, 광범위한 커버리지
합리적 측정: 그룹화된 표준편차를 통일된 측정으로 사용, 두 요소 직접 비교 가능

2. 발견의 중요성 ⭐⭐⭐⭐⭐

기존 인식 도전: 순서와 선택이 동등하게 중요함을 증명, 분야 가정 뒤집음
실무 가치 높음: 순서 최적화로 2-3 백분점 비용 없는 성능 향상 가능
이론적 의의: LLM의 맥락 구조 민감성 노출, 모델 행동 이해에 새로운 관점 제공

3. 실용성 강함 ⭐⭐⭐⭐

방법 간단: 복잡한 알고리즘 불필요, 개발 집합에서 후보 순열만 평가
자원 요구 합리적: 250 샘플 개발 집합 + 64 순열로 좋은 효과 달성
재현 용이: 상세한 실험 설정 및 의사 코드 제공

4. 작문 명확성 ⭐⭐⭐⭐⭐

구조 합리적: 논리 명확, 동기에서 방법에서 실험으로 단계적 진행
시각화 효과적: 그림1의 행렬 示意도가 실험 설계를 직관적으로 표현
데이터 상세: 부록에 완전한 모델-데이터셋 수준 결과 제공

부족점

1. 이론적 설명 부족 ⭐⭐

메커니즘 분석 부족: 순서가 왜 그렇게 중요한지 심층 탐구 부족
주의력 분석 없음: 주의력 가중치 등 방법을 통한 가설 검증 부재
해석성 부족: 어떤 종류의 순서가 "좋은" 순서인지 분석 부족

2. 실험 설계의 한계 ⭐⭐⭐

순열 샘플링 전략: 무작위 샘플링이 특정 효과적 순열 패턴을 놓칠 수 있음
기본 순서의 영향: 알파벳 순서 자체가 진정한 "중립" 기준이 아닐 수 있음
예제 집합 구성: M=10이 선택의 다양성을 충분히 대표하기에 부족할 수 있음

3. 이전성 연구 불충분 ⭐⭐

제한된 데이터셋: GSM8K와 MATH만 테스트, 둘 다 수학 작업으로 영역 간 테스트 부족
실패 원인 분석 부족: 이전이 실패하는 이유에 대한 심층 연구 부재
긍정적 이전 사례 부족: 순서가 이전될 수 있는 경우가 있는지 여부 불명확

4. 실제 응용 지침 제한 ⭐⭐⭐

순서 설계 원칙 없음: 실용적 순서 구성 휴리스틱 규칙 미정리
계산 비용 분석 부족: 128개 순열 평가의 실제 시간 및 API 비용 정량화 부족
다중 예제 집합 시나리오: 실무에서 예제 집합과 순서를 동시에 최적화하는 방법 미제시

영향력 평가

1. 분야에 대한 기여 ⭐⭐⭐⭐⭐

패러다임 전환: ICL 연구가 "선택 중심"에서 "선택+순서 동등"으로 전환될 가능성
후속 연구 촉발: 순서 최적화 및 메커니즘 이해 관련 대량 연구 예상
실무 영향: 산업계 프롬프트 엔지니어링 최고 실무 관행 변경 가능

2. 실용 가치 ⭐⭐⭐⭐

즉시 적용 가능: 방법 간단, 기존 시스템에 즉시 적용 가능
비용 효율 높음: 적은 비용으로 현저한 향상 (2-3 백분점)
적용 범위 광범위: 모델, 작업 간 효과적

3. 재현성 ⭐⭐⭐⭐

장점:
- 공개 모델 및 데이터셋 사용
- 상세한 초매개변수 설정 제공
- 부록에 완전한 결과 포함
부족점:
- 코드 공개 안 됨 (논문 발표 시점)
- 일부 실험은 대량 계산 자원 필요

4. 잠재적 인용 가치

이 논문이 ICL 분야의 중요 참고 문헌이 될 것으로 예상되는 이유:

순서 vs 선택의 기준 비교 데이터 제공
방법 간단하고 사용하기 쉬워 후속 연구에서 재현 및 확장 용이
분야의 기본 가정에 도전, 이정표적 의의

적용 시나리오

높은 적용성 ✅

소수 샷 분류 작업: 논문이 분류 작업에서 가장 현저한 효과 증명 (r≈1)
자원 제약 시나리오: 예제 집합 확대 불가능할 때 순서 최적화는 저비용 향상 방안
고정 예제 집합 시나리오: 일부 응용에서 예제 집합이 고정되어 있을 때 순서 최적화가 유일한 선택
개발 집합 충분 시나리오: 250+ 주석 샘플 사용 가능

중간 적용성 ⚠️

생성 작업: 분류보다 효과 약함 (r=1.46), 하지만 여전히 시도 가치
작업 간 응용: 새로운 작업마다 순서를 다시 검색해야 함
대형 모델 응용: 대형 모델이 더 안정적이지만 여전히 순서 민감성 존재

낮은 적용성 ❌

영 샷 시나리오: 방법은 다중 예제 ICL에 의존
극소 개발 집합: <50 샘플일 때 효과 불안정
실시간 상호작용 시스템: 128개 순열 사전 평가 불가능
도메인 간 이전: 한 데이터셋에서 학습한 순서가 다른 데이터셋으로 이전되기 어려움

후속 연구에 대한 시사

ICL 가정 재검토: 차순위로 간주되는 다른 요소들 (예: 예제 형식, 레이블 단어 선택)도 과소평가되었는가?
결합 최적화 프레임워크: 향후 선택과 순서를 독립적으로 처리하지 않고 동시에 최적화하는 방법 개발 필요
메커니즘 연구: 순서 민감성의 근본 원인을 설명하는 이론 연구 시급 (위치 편향? 주의력 메커니즘?)
적응형 방법: 개발 집합 없이 온라인 순서 최적화 알고리즘 개발
견고성 연구: 순서에 민감하지 않은 모델을 훈련할 수 있는가?

참고 문헌 (주요 문헌)

Brown et al. (2020) - Language Models are Few-Shot Learners (GPT-3 논문, ICL 패러다임 수립)
Zhao et al. (2021) - Fantastically Ordered Prompts and Where to Find Them (순서 민감성 최초 체계적 연구)
Lu et al. (2022) - Order Matters: Re-evaluating Few-Shot Prompting for Text Classification Tasks
Min et al. (2022) - Rethinking the Role of Demonstrations: What Makes In-Context Learning Work? (예제 선택 강조)
Guo et al. (2024) - DEmO: Dynamic Example Ordering for In-Context Learning (동적 순서 최적화)

종합 평가

이는 높은 품질, 높은 영향력의 연구 작업이며, 핵심 가치는 다음에 있다:

분야의 기본 가정에 도전: 엄밀한 실험으로 순서와 선택이 동등하게 중요함을 증명
실용적 해결책 제공: 간단하고 효과적인 개발 집합 선택 방법
강한 체계성: 모델, 작업, 규모 간 포괄적 평가
높은 영감성: 후속 연구의 여러 중요 방향 제시

주요 부족점은 이론적 설명 부족과 이전성 연구 제한이지만, 이는 ICL 분야의 중요 기여로서의 지위에 영향을 주지 않는다.

추천 독자: ICL, 프롬프트 엔지니어링, LLM 응용에 종사하는 모든 연구자 및 엔지니어.

평점: ⭐⭐⭐⭐½ (4.5/5)