2025-11-26T01:46:17.989246

LLMDistill4Ads: Using Cross-Encoders to Distill from LLM Signals for Advertiser Keyphrase Recommendations

Dey, Braun, Ravipati et al.

E-commerce sellers are advised to bid on keyphrases to boost their advertising campaigns. These keyphrases must be relevant to prevent irrelevant items from cluttering search systems and to maintain positive seller perception. It is vital that keyphrase suggestions align with seller, search and buyer judgments. Given the challenges in collecting negative feedback in these systems, LLMs have been used as a scalable proxy to human judgments. This paper presents an empirical study on a major ecommerce platform of a distillation framework involving an LLM teacher, a cross-encoder assistant and a bi-encoder Embedding Based Retrieval (EBR) student model, aimed at mitigating click-induced biases in keyphrase recommendations.

academic

LLMDistill4Ads: 광고주 키프레이즈 추천을 위해 크로스-인코더를 사용하여 LLM 신호에서 증류하기

기본 정보

논문 ID: 2508.03628
제목: LLMDistill4Ads: Using Cross-Encoders to Distill from LLM Signals for Advertiser Keyphrase Recommendations
저자: Soumik Dey, Benjamin Braun, Naveen Ravipati, Hansi Wu, Binbin Li (eBay Inc)
분류: cs.IR (정보 검색), cs.AI, cs.LG
발표 시간: arXiv v5, 2025년 11월 20일
논문 링크: https://arxiv.org/abs/2508.03628v5

초록

전자상거래 판매자는 광고 효과를 높이기 위해 키프레이즈에 입찰해야 하며, 이러한 키프레이즈는 관련성이 있어야 무관한 상품이 검색 시스템을 오염시키고 판매자 만족도를 저하시키는 것을 방지할 수 있습니다. 부정적 피드백 수집의 어려움으로 인해, 본 논문은 LLM을 인간 판단의 확장 가능한 대리자로 사용할 것을 제안합니다. 연구는 대규모 전자상거래 플랫폼에서 지식 증류 프레임워크를 구현했습니다: LLM 교사 모델 → 크로스-인코더 조수 → 이중 인코더 EBR 학생 모델. 이는 키프레이즈 추천에서 클릭 편향 문제를 완화하는 것을 목표로 합니다.

연구 배경 및 동기

1. 핵심 문제

전자상거래 광고 시스템에서 판매자를 위해 관련성 있는 키프레이즈(구매자 검색어)를 추천하여 광고 입찰에 사용하도록 합니다. 주요 과제는 다음을 포함합니다:

클릭 데이터의 신뢰성 부족: 높은 클릭/판매량은 관련성을 나타내지만, 클릭 부재가 무관련성을 의미하지는 않음
MNAR 편향(Missing Not At Random): 인기 없는 상품은 순위가 낮아 노출과 클릭이 적음
중개자 편향(Middleman Bias): 훈련 데이터는 검색 관련성 필터를 통과한 키프레이즈만 포함하여 표본 선택 편향 발생

2. 문제의 중요성

키프레이즈 관련성은 판매자 전략과 검색 시스템 품질에 직접 영향
무관련 추천은 판매자 만족도 저하, 자원 낭비, 광고 효과 감소
판매자, 광고 시스템, 검색 시스템 세 방의 판단 기준을 동시에 만족해야 함

3. 기존 방법의 한계

CTR만 기반 훈련: 훈련 데이터의 인기도 및 노출 편향 복제 용이
신뢰할 수 없는 부정 샘플: 클릭 로그의 부정 샘플이 무관련성을 실제로 반영하지 못함
인간 주석의 어려움: 높은 비용, 제한된 규모, 모달리티 편향 존재(주석자는 이미지를 볼 수 있지만 모델은 불가)

4. 연구 동기

LLM의 세계 지식과 판단 능력을 인간 판단의 대리자로 활용하고, 다중 작업 학습과 지식 증류 프레임워크를 통해 CTR, 검색 관련성, LLM 신호를 결합하여 효율적인 이중 인코더 검색 모델을 훈련합니다.

핵심 기여

교사-조수-학생 증류 프레임워크 제안: LLM 교사 → 크로스-인코더 조수 → 이중 인코더 학생의 3단계 아키텍처
다중 신호 융합 훈련 전략: CTR, 검색 관련성(SR), LLM 레이블의 다중 작업 학습 패러다임 통합
체계적 손실 함수 비교 연구: 8가지 지식 증류 손실 함수 평가, Pearson 상관 손실이 최적임을 발견
생산 환경 평가 프로토콜: 실제 광고 경매 시나리오를 모의하는 오프라인 평가 방법 제안
현저한 비즈니스 영향: A/B 테스트에서 GMB 51.26% 증가, ROAS 38.69% 증가, 키프레이즈 채택률 11.75% 증가

방법 상세 설명

작업 정의

입력: 상품 제목(item title) + 카테고리(category) 및 구매자 검색어(keyphrase)
출력: 관련성 판단(이진 분류 또는 연속 유사도 점수)
목표: 각 상품에 대해 광고 입찰에 사용할 상위-K 관련 키프레이즈 검색
제약: 낮은 지연 시간 필요(생산 환경에 적합), 높은 정확성(다중 방 판단과 정렬)

모델 아키텍처

1. 데이터셋 구성(3가지 레이블 소스)

CTR 레이블(10,702,747개):

지난 30일간의 클릭-노출 비율 계산
CTR > 0.05를 양성 샘플로 표시
양성 샘플은 신뢰할 수 있고, 부정 샘플은 신뢰할 수 없음(MNR 손실에만 사용)

검색 관련성(SR) 레이블(18,721,682개):

경매 프로세스에서 3개월간 SR 모델 점수 수집
비즈니스 임계값 초과를 양성 샘플로 표시
중개자 편향 및 표본 선택 편향 없음

LLM 레이블(훈련 세트 50,078,315개, 테스트 세트 3,524,414개):

Mixtral 8X7B Instruct-v0.1 사용하여 생성
클릭 데이터와 90% 일치율
프롬프트 설계:

Given an item with title: "{title}", 
determine whether the keyphrase: "{keyphrase}", 
is relevant for cpc targeting or not by giving 
ONLY yes or no answer

2. 크로스-인코더(조수)

기본 모델: microBERT(eBERT의 증류 버전)

eBERT보다 4.3배 작고 5.5배 빠름
eBay 상품 데이터에서 사전 훈련됨

입력 형식:

query [SEP] category name [SEP] item title

훈련:

50M LLM 레이블에서 교차 엔트로피 손실로 미세 조정
테스트 세트 F1=96%(7.5M 샘플)

역할: 중간 조수 모델로서 증류에 사용할 소프트 레이블 제공

3. 이중 인코더(학생)

기본 모델: microBERT 이중 타워 아키텍처

입력 처리:

상품 타워: item title [SEP] category name
키프레이즈 타워: buyer query
독립적 인코딩 후 코사인 유사도 계산

출력 차원 최적화:

Matryoshka 손실을 사용하여 임베딩을 64차원으로 축소(ANN 지연 감소)

4. 다중 작업 훈련 패러다임

핵심 개념: 각 배치는 하나의 데이터셋의 샘플만 포함하며, 데이터셋 규모 비율에 따라 샘플링

손실 함수 조합:

데이터 소스	손실 함수	이유
CTR 레이블	MNR 손실	신뢰할 수 있는 양성 샘플만 있고, 부정 샘플은 IRNS로 생성
SR 레이블	대조 손실	명확한 양성/부정 샘플 있음
LLM 레이블	대조 손실	명확한 양성/부정 샘플 있음
크로스-인코더 증류	Pearson 상관 손실	순서 정렬

기술 혁신점

1. 교사-조수 아키텍처의 필요성

LLM에서 이중 인코더로 직접 증류 효과 저조(F1=0.66 vs 0.88)
크로스-인코더를 중간 다리로 사용:
- 이중 인코더보다 강한 학습 능력(공동 인코딩 가능)
- LLM보다 효율적(대규모 소프트 레이블 생성 가능)
- 지식의 점진적 전이 실현

2. 다중 신호 융합의 합리성

LLM+CTR+KD 모델 성능 최적:
- 중앙값 키프레이즈 수: 12
- LLM 통과율: 71%
- 검색 통과율: >99%

설계 원리:

CTR은 실제 상호작용 신호 제공(신뢰할 수 있는 양성 샘플)
LLM은 편향 없는 판단 제공(미노출 샘플 커버)
SR은 검색 시스템 수용도 보장
크로스-인코더는 세밀한 순서 신호 제공

3. Pearson 손실의 우월성

실험 비교(표1):

KD 손실	F1	정밀도	재현율	ρ (Pearson 상관)
MSE	0.81	0.77	0.86	0.78
CoSENT	0.87	0.86	0.88	0.82
Pearson	0.88	0.87	0.88	0.87
MSEmar	0.86	0.84	0.88	0.80
KL-Div	0.85	0.83	0.88	0.66

원인 분석:

MSE는 점별 손실로 순서 관계 포착 불가
CoSENT는 쌍별 순서 손실로 보정 능력 있음
Pearson은 배치 순서 손실로 전체 선형 상관성 최적화
크로스-인코더와의 Pearson 상관 계수 최고(0.87)

실험 설정

데이터셋

플랫폼 규모: 23억 상품
훈련 세트:
- CTR: 10.7M
- SR: 18.7M
- LLM: 50M(훈련) + 3.5M(테스트)
평가 세트: 10,000 샘플(각 모델당)
A/B 테스트: 미국 시장 12일

평가 지표

오프라인 지표:

F1, 정밀도, 재현율: 분류 성능
ρ (Pearson 상관): 크로스-인코더와의 정렬도
KP(키프레이즈 수): 관련성 필터 후 중앙값 키프레이즈 수
PR(통과율): 다양한 순위 위치에서의 LLM/SR 통과율

온라인 지표:

GMB(총 상품 구매액): 판매액
ROAS(광고 지출 수익률): 광고 투자 수익률
채택률: 판매자가 실제 사용한 키프레이즈 수

비교 방법

CTR만 사용: CTR만으로 훈련한 기준선
LLM: LLM 레이블만 + 대조 손실
LLM+KD: LLM 레이블 + 크로스-인코더 증류
LLM+SR+KD: LLM+SR 레이블 + 증류
LLM+CTR+KD: 최적 조합
LLM+SR+CTR+KD: 전체 신호 조합

구현 세부사항

기본 모델: microBERT(선택 이유는 표3 참조)
훈련 프레임워크: PyTorch + Transformers
배치 샘플링: 데이터셋 규모 비율에 따라
생산 배포:
- 배치 추론: PySpark(1500 executors)
- NRT 추론: Triton + ONNX(V100 GPU)
- 일일 증분 지연: 35분(2000만 상품)
- ANN 검색: 추가 2.5시간

실험 결과

주요 결과

표2: 레이블 제거 실험

모델	KP	PR	Pass@5	Pass@10	Pass@15	Pass@20
LLM+CTR+KD	12.0	71	68	60	55	52
LLM+SR+CTR+KD	11.0	70	67	59	54	51
LLM+SR+KD	12.0	51	47	42	41	39
LLM+KD	11.0	49	36	35	33	32
LLM	11.0	61	45	41	38	35
CTR	7	60	51	42	37	34

주요 발견:

LLM+CTR+KD 최적: 효율성(KP=12)과 품질(PR=71%) 간 최적 균형 달성
CTR만 사용 효율 저조: 7개 키프레이즈만으로 커버리지 제한
증류로 현저한 개선: LLM → LLM+KD(PR: 61% → 49%, 하지만 Pass@5 개선)
SR 신호의 역할: 검색 통과율을 >99%로 향상

제거 실험

1. 지식 증류 손실 비교(표1)

Pearson 손실 최적: F1=0.88, ρ=0.87
CoSENT 차선: F1=0.87, ρ=0.82
MSE 실패: CUPID 논문의 발견 검증
직접 증류(LLM→BE) 효과 저조: 대조 F1=0.83, Softmax F1=0.66

2. 기본 모델 선택(표3)

기본 모델	재현율	정밀도	F1
eBERT	0.92	0.81	0.86
microBERT	0.92	0.78	0.85
ModernBERT	0.91	0.76	0.83

microBERT 선택 이유:

eBERT에 가까운 성능(F1 차이 0.01만)
추론 속도 30% 빠름
플랫폼 데이터에서 사전 훈련됨(ModernBERT는 미사전 훈련)

3. 다중 작업 프레임워크 점진적 구성

CTR (F1=0.66) 
→ CTR+LLM (F1=0.83) 
→ LLM+CTR+KD (F1=0.88)

각 구성 요소가 증가를 가져옴

A/B 테스트 결과(온라인 검증)

테스트 설정: 미국 시장, 12일, CTR만 사용하는 EBR 모델 교체

비즈니스 지표 개선:

GMB +51.26% (p=0.01) - 판매액 대폭 증가
ROAS +38.69% (p=0.02) - 투자 수익률 현저히 향상
채택률 +11.75% (p=0.03) - 판매자가 추천을 더 많이 사용

의의: 오프라인 지표 개선이 실제 비즈니스 가치로 전환됨을 증명

사례 분석

긍정적 사례(LLM과 모델 일치):

상품: "Genuine 15V 4A Power AC Adapter Laptop Charger For Surface Pro 3 4 5 6"
키프레이즈: "microsoft surface charger"
판단: 관련 ✓

부정적 사례(미세 조정 LLM 실패):

상품: "iPhone 11 64GB 128G Unlocked..."
키프레이즈: "yellow iphone"(이미지가 노란색 표시)
범용 LLM: 무관련(텍스트만 기반)
미세 조정 LLM: 관련(인간 주석 모달리티 편향 영향)

실험 발견

범용 LLM이 미세 조정 LLM보다 우수:
- 범용 LLM: 68% 키프레이즈 감소, 판매액 +10%
- 미세 조정 LLM: 75% 키프레이즈 유지, 판매액 -20%
- 원인: 인간 주석의 모달리티 편향
교사-조수 필요성:
- 크로스-인코더 보정 능력 더 우수
- 대규모 데이터 처리 가능
다중 신호 상호 보완:
- CTR: 신뢰할 수 있는 양성 샘플
- LLM: 롱테일 커버
- SR: 검색 시스템 정렬
- 셋 중 하나라도 빠지면 안 됨

결론 및 논의

주요 결론

LLM 신호가 클릭 편향 효과적으로 완화: 광고 키프레이즈 추천 시나리오에서 LLM 생성 레이블이 CTR만 사용하는 것보다 현저히 우수
교사-조수 아키텍처가 직접 증류보다 우수: 크로스-인코더를 중간 다리로 사용하는 것이 중요
Pearson 손실이 순서 증류에 가장 적합: 배치 순서 손실이 점별 및 쌍별 손실보다 우수
다중 신호 융합이 협력 효과 생성: CTR+LLM+KD 조합이 최고의 비즈니스 효과 달성
범용 LLM이 미세 조정 LLM보다 우수: 모달리티 편향이 있는 인간 주석 데이터에서

한계

영역 특정성:
- 연구는 전자상거래 광고 시나리오로 제한
- 방법의 이전 가능성 검증 필요
인간 주석 품질 문제:
- 주석자는 이미지를 볼 수 있지만 모델은 불가(모달리티 편향)
- 레이블 세분화 과도(excellent/good/fair/bad)
- 표본 규모가 23억 상품을 커버하기에 부족
부정 샘플 마이닝 전략 단순:
- CTR 데이터는 IRNS(배치 내 무작위 부정 샘플링)만 사용
- ANCE, N-Game 등 고급 방법 미탐색
- 향후 연구로 남겨짐
LLM 선택 제한:
- Mixtral 8X7B 사용(오픈소스, 중간 규모)
- 더 큰 모델(GPT-4)은 API 제한
- LLM 미세 조정 미수행(인간 데이터 품질 문제)
평가 한계:
- 오프라인 평가는 LLM 레이블 테스트 세트에서만 수행
- A/B 테스트는 미국 시장에서만 수행
- 장기 효과 미평가

향후 방향

더 나은 인간 판단 데이터 수집:
- 입력 모달리티 통일(텍스트만 또는 다중 모달)
- 레이블 단순화(이진 분류)
- 표본 규모 확대
고급 부정 샘플 마이닝:
- ANCE, N-Game 등 방법 탐색
- 계산 비용과 효과 균형
다중 모달 확장:
- 이미지 정보를 모델에 포함
- 모달리티 편향 문제 해결
LLM 미세 조정 탐색:
- 고품질 데이터에서 미세 조정
- 추가 효과 향상 가능성
교차 영역 이전:
- 다른 전자상거래 플랫폼에서 방법 검증
- 비광고 시나리오로 확장

심층 평가

장점

1. 방법 혁신성 ⭐⭐⭐⭐⭐

교사-조수-학생 3단계 아키텍처: LLM, 크로스-인코더, 이중 인코더를 창의적으로 결합
다중 작업 혼합 훈련: 3가지 이질적 신호 소스를 영리하게 융합
체계적 손실 함수 연구: 8가지 KD 손실 비교, 명확한 지침 제공

2. 실험 충분성 ⭐⭐⭐⭐⭐

대규모 실제 데이터: 50M LLM 레이블, 23억 상품
포괄적 제거 실험: 레이블, 손실, 기본 모델, 아키텍처
온라인 검증: A/B 테스트로 비즈니스 가치 증명
상세한 부록: LLM 평가, 손실 함수 수학 유도, 시스템 아키텍처

3. 실용적 가치 ⭐⭐⭐⭐⭐

현저한 비즈니스 개선: GMB +51%, ROAS +39%
생산 배포 세부사항: 완전한 시스템 아키텍처 및 지연 분석
높은 재현성: 오픈소스 모델(Mixtral), 명확한 방법 설명

4. 통찰력 깊이 ⭐⭐⭐⭐

모달리티 편향 발견: 인간 주석의 숨겨진 문제 노출
범용 LLM 우월성: "미세 조정이 항상 더 낫다"는 관례적 인식 도전
중개자 편향: 새로운 편향 유형 제안 및 해결책 제시

5. 작성 품질 ⭐⭐⭐⭐

구조 명확, 논리 엄밀
풍부한 그래프(경매 메커니즘 그림, 아키텍처 그림, 생산 시스템 그림)
완전한 수학 공식(부록 8.3 상세 유도)

부족한 점

1. 방법 한계

계산 비용 미정량화: 50M LLM 레이블 생성의 GPU 시간/비용 미보고
초매개변수 민감도: 학습률, 배치 크기, 온도 매개변수 등 영향 미분석
LLM 선택 제한: Mixtral 8X7B는 최적이 아니지만 오픈소스 및 비용 제약

2. 실험 설정 결함

단일 테스트 세트 평가: 오프라인 실험은 LLM 레이블 테스트 세트에서만, SR/CTR 테스트 세트에서 검증 미실시
A/B 테스트 기간 짧음: 12일은 장기 효과(예: 판매자 피로) 관찰에 부족할 수 있음
지역 제한: 미국 시장만, 다른 국가 효과 미확인

3. 분석 부족

실패 사례 분석 적음: 모달리티 편향 예시 1개만 제시
순서 품질 미평가: NDCG, MRR 등 순서 지표 없음
다양성 미정량화: 고유성 및 다양성 언급하지만 구체적 지표 없음

4. 재현성 문제

플랫폼 익명화: eBay 특정 eBERT/microBERT 획득 불가
데이터 비공개: 상업 데이터 공유 불가
완전 코드 미공개: 방법만 설명

5. 이론 분석 부재

Pearson 최적 이유: 이론적 설명 부재, 실험 검증만
교사-조수 증가 출처: 각 단계 기여도 미정량화
다중 작업 학습 이론: 작업 간 간섭/협력 분석 미실시

영향력 평가

영역에 대한 기여 ⭐⭐⭐⭐⭐

광고 시스템 편향: 중개자 편향 체계적 설명, 해결 패러다임 제공
지식 증류: 검색 작업에서 교사-조수 아키텍처 유효성 검증
LLM 적용: 대규모 LLM 레이블 생성의 성공 사례(50M)
산업 실무: 완전한 생산 시스템 설계 참고

학술 영향

인용 가능성 높음: 실제 문제 해결, 방법 이전 가능
후속 연구 방향: 다중 모달 LLM, 더 나은 인간 주석 프로토콜
벤치마크 역할: Pearson 손실이 증류 표준이 될 가능성

산업 영향

직접 상업 가치: GMB +51%는 eBay에 중대한 의미
복제 가능성 높음: 다른 전자상거래 플랫폼 적용 가능(Amazon, Alibaba)
비용 효율 현저: LLM 레이블이 대규모 인간 주석 대체

적용 시나리오

높은 적용성 ✅

전자상거래 광고 추천: 키프레이즈, 상품 추천
검색 관련성: 쿼리-문서 매칭
정보 검색: 다중 방 판단 정렬이 필요한 모든 시나리오
편향 완화: 클릭/노출 편향이 있는 추천 시스템

중간 적용성 ⚠️

다른 추천 시나리오: 신호 소스 조정 필요(예: 비디오 추천)
교차 언어 검색: 다중 언어 LLM 및 사전 훈련 모델 필요
실시간 시스템: NRT 추론 지연 최적화 필요

부적용 ❌

소규모 데이터: 방법은 대량 데이터 필요(백만 단위)
편향 없는 시나리오: 클릭 데이터가 신뢰할 수 있으면 방법 증가 제한
순수 탐색 작업: 관련성보다 다양성이 필요한 시나리오

재현 제안

본 논문 작업을 재현하려면:

LLM 대체: Llama 3.1 70B 또는 Qwen 2.5 72B 사용
기본 모델 대체: 공개 sentence-transformers 모델 사용
단순화 버전: 먼저 LLM+CTR+Pearson 손실 검증(SR 데이터 불필요)
평가 프로토콜: 부록 8.2의 오프라인 평가 프로세스 참조
시작 규모: 백만 단위 데이터에서 시작, 점진적 확장

참고 문헌(정선)

핵심 관련 연구

D2LLM (Liao et al., 2024): LLM→이중 인코더 증류에 Pearson 손실 처음 제안
CUPID (Bhattacharya et al., 2023): MSE 손실이 크로스→이중 인코더 증류에 부적합함을 증명
ERNIE-search (Lu et al., 2022): 교사-조수 아키텍처 초기 탐색
Middleman Bias (Dey et al., 2025b): 본 논문 저자가 제안한 중개자 편향 이론

편향 및 추천

Chen et al. (2023): 추천 시스템 편향 종합 검토
Joachims et al. (2017): 편향 피드백 기반 편향 없는 학습

LLM 평가

Zheng et al. (2023): MT-Bench 및 LLM 판단자
Gu et al. (2025): LLM 판단자 종합 검토

전체 평점: ⭐⭐⭐⭐⭐ (5/5)

이것은 우수한 산업 응용 논문으로, 실제 대규모 시나리오에서 LLM 보조 훈련의 유효성을 검증하고 이론에서 실무까지 완전한 해결책을 제공합니다. 일부 한계(이론 분석 부족, 단일 시장 테스트)가 있지만, 실용적 가치, 방법 혁신성, 실험 충분성 모두 최고 수준입니다. 특히 범용 LLM vs 미세 조정 LLM에 대한 심층 분석과 인간 주석의 모달리티 편향 문제 노출은 영역에 중요한 경고를 제공합니다.