E-commerce sellers are advised to bid on keyphrases to boost their advertising campaigns. These keyphrases must be relevant to prevent irrelevant items from cluttering search systems and to maintain positive seller perception. It is vital that keyphrase suggestions align with seller, search and buyer judgments. Given the challenges in collecting negative feedback in these systems, LLMs have been used as a scalable proxy to human judgments. This paper presents an empirical study on a major ecommerce platform of a distillation framework involving an LLM teacher, a cross-encoder assistant and a bi-encoder Embedding Based Retrieval (EBR) student model, aimed at mitigating click-induced biases in keyphrase recommendations.
논문 ID : 2508.03628제목 : LLMDistill4Ads: Using Cross-Encoders to Distill from LLM Signals for Advertiser Keyphrase Recommendations저자 : Soumik Dey, Benjamin Braun, Naveen Ravipati, Hansi Wu, Binbin Li (eBay Inc)분류 : cs.IR (정보 검색), cs.AI, cs.LG발표 시간 : arXiv v5, 2025년 11월 20일논문 링크 : https://arxiv.org/abs/2508.03628v5 전자상거래 판매자는 광고 효과를 높이기 위해 키프레이즈에 입찰해야 하며, 이러한 키프레이즈는 관련성이 있어야 무관한 상품이 검색 시스템을 오염시키고 판매자 만족도를 저하시키는 것을 방지할 수 있습니다. 부정적 피드백 수집의 어려움으로 인해, 본 논문은 LLM을 인간 판단의 확장 가능한 대리자로 사용할 것을 제안합니다. 연구는 대규모 전자상거래 플랫폼에서 지식 증류 프레임워크를 구현했습니다: LLM 교사 모델 → 크로스-인코더 조수 → 이중 인코더 EBR 학생 모델. 이는 키프레이즈 추천에서 클릭 편향 문제를 완화하는 것을 목표로 합니다.
전자상거래 광고 시스템에서 판매자를 위해 관련성 있는 키프레이즈(구매자 검색어)를 추천하여 광고 입찰에 사용하도록 합니다. 주요 과제는 다음을 포함합니다:
클릭 데이터의 신뢰성 부족 : 높은 클릭/판매량은 관련성을 나타내지만, 클릭 부재가 무관련성을 의미하지는 않음MNAR 편향 (Missing Not At Random): 인기 없는 상품은 순위가 낮아 노출과 클릭이 적음중개자 편향 (Middleman Bias): 훈련 데이터는 검색 관련성 필터를 통과한 키프레이즈만 포함하여 표본 선택 편향 발생키프레이즈 관련성은 판매자 전략과 검색 시스템 품질에 직접 영향 무관련 추천은 판매자 만족도 저하, 자원 낭비, 광고 효과 감소 판매자, 광고 시스템, 검색 시스템 세 방의 판단 기준을 동시에 만족해야 함 CTR만 기반 훈련 : 훈련 데이터의 인기도 및 노출 편향 복제 용이신뢰할 수 없는 부정 샘플 : 클릭 로그의 부정 샘플이 무관련성을 실제로 반영하지 못함인간 주석의 어려움 : 높은 비용, 제한된 규모, 모달리티 편향 존재(주석자는 이미지를 볼 수 있지만 모델은 불가)LLM의 세계 지식과 판단 능력을 인간 판단의 대리자로 활용하고, 다중 작업 학습과 지식 증류 프레임워크를 통해 CTR, 검색 관련성, LLM 신호를 결합하여 효율적인 이중 인코더 검색 모델을 훈련합니다.
교사-조수-학생 증류 프레임워크 제안 : LLM 교사 → 크로스-인코더 조수 → 이중 인코더 학생의 3단계 아키텍처다중 신호 융합 훈련 전략 : CTR, 검색 관련성(SR), LLM 레이블의 다중 작업 학습 패러다임 통합체계적 손실 함수 비교 연구 : 8가지 지식 증류 손실 함수 평가, Pearson 상관 손실이 최적임을 발견생산 환경 평가 프로토콜 : 실제 광고 경매 시나리오를 모의하는 오프라인 평가 방법 제안현저한 비즈니스 영향 : A/B 테스트에서 GMB 51.26% 증가, ROAS 38.69% 증가, 키프레이즈 채택률 11.75% 증가입력 : 상품 제목(item title) + 카테고리(category) 및 구매자 검색어(keyphrase)출력 : 관련성 판단(이진 분류 또는 연속 유사도 점수)목표 : 각 상품에 대해 광고 입찰에 사용할 상위-K 관련 키프레이즈 검색제약 : 낮은 지연 시간 필요(생산 환경에 적합), 높은 정확성(다중 방 판단과 정렬)
CTR 레이블 (10,702,747개):
지난 30일간의 클릭-노출 비율 계산 CTR > 0.05를 양성 샘플로 표시 양성 샘플은 신뢰할 수 있고, 부정 샘플은 신뢰할 수 없음(MNR 손실에만 사용) 검색 관련성(SR) 레이블 (18,721,682개):
경매 프로세스에서 3개월간 SR 모델 점수 수집 비즈니스 임계값 초과를 양성 샘플로 표시 중개자 편향 및 표본 선택 편향 없음 LLM 레이블 (훈련 세트 50,078,315개, 테스트 세트 3,524,414개):
Mixtral 8X7B Instruct-v0.1 사용하여 생성 클릭 데이터와 90% 일치율 프롬프트 설계: Given an item with title: "{title}",
determine whether the keyphrase: "{keyphrase}",
is relevant for cpc targeting or not by giving
ONLY yes or no answer
기본 모델 : microBERT(eBERT의 증류 버전)
eBERT보다 4.3배 작고 5.5배 빠름 eBay 상품 데이터에서 사전 훈련됨 입력 형식 :
query [SEP] category name [SEP] item title
훈련 :
50M LLM 레이블에서 교차 엔트로피 손실로 미세 조정 테스트 세트 F1=96%(7.5M 샘플) 역할 : 중간 조수 모델로서 증류에 사용할 소프트 레이블 제공
기본 모델 : microBERT 이중 타워 아키텍처
입력 처리 :
상품 타워: item title [SEP] category name 키프레이즈 타워: buyer query 독립적 인코딩 후 코사인 유사도 계산 출력 차원 최적화 :
Matryoshka 손실을 사용하여 임베딩을 64차원으로 축소(ANN 지연 감소) 핵심 개념 : 각 배치는 하나의 데이터셋의 샘플만 포함하며, 데이터셋 규모 비율에 따라 샘플링
손실 함수 조합 :
데이터 소스 손실 함수 이유 CTR 레이블 MNR 손실 신뢰할 수 있는 양성 샘플만 있고, 부정 샘플은 IRNS로 생성 SR 레이블 대조 손실 명확한 양성/부정 샘플 있음 LLM 레이블 대조 손실 명확한 양성/부정 샘플 있음 크로스-인코더 증류 Pearson 상관 손실 순서 정렬
LLM에서 이중 인코더로 직접 증류 효과 저조(F1=0.66 vs 0.88) 크로스-인코더를 중간 다리로 사용:
이중 인코더보다 강한 학습 능력(공동 인코딩 가능) LLM보다 효율적(대규모 소프트 레이블 생성 가능) 지식의 점진적 전이 실현 LLM+CTR+KD 모델 성능 최적:
- 중앙값 키프레이즈 수: 12
- LLM 통과율: 71%
- 검색 통과율: >99%
설계 원리 :
CTR은 실제 상호작용 신호 제공(신뢰할 수 있는 양성 샘플) LLM은 편향 없는 판단 제공(미노출 샘플 커버) SR은 검색 시스템 수용도 보장 크로스-인코더는 세밀한 순서 신호 제공 실험 비교(표1):
KD 손실 F1 정밀도 재현율 ρ (Pearson 상관) MSE 0.81 0.77 0.86 0.78 CoSENT 0.87 0.86 0.88 0.82 Pearson 0.88 0.87 0.88 0.87 MSEmar 0.86 0.84 0.88 0.80 KL-Div 0.85 0.83 0.88 0.66
원인 분석 :
MSE는 점별 손실로 순서 관계 포착 불가 CoSENT는 쌍별 순서 손실로 보정 능력 있음 Pearson은 배치 순서 손실로 전체 선형 상관성 최적화 크로스-인코더와의 Pearson 상관 계수 최고(0.87) 플랫폼 규모 : 23억 상품훈련 세트 :
CTR: 10.7M SR: 18.7M LLM: 50M(훈련) + 3.5M(테스트) 평가 세트 : 10,000 샘플(각 모델당)A/B 테스트 : 미국 시장 12일오프라인 지표 :
F1, 정밀도, 재현율 : 분류 성능ρ (Pearson 상관) : 크로스-인코더와의 정렬도KP(키프레이즈 수) : 관련성 필터 후 중앙값 키프레이즈 수PR(통과율) : 다양한 순위 위치에서의 LLM/SR 통과율온라인 지표 :
GMB(총 상품 구매액) : 판매액ROAS(광고 지출 수익률) : 광고 투자 수익률채택률 : 판매자가 실제 사용한 키프레이즈 수CTR만 사용 : CTR만으로 훈련한 기준선LLM : LLM 레이블만 + 대조 손실LLM+KD : LLM 레이블 + 크로스-인코더 증류LLM+SR+KD : LLM+SR 레이블 + 증류LLM+CTR+KD : 최적 조합LLM+SR+CTR+KD : 전체 신호 조합기본 모델 : microBERT(선택 이유는 표3 참조)훈련 프레임워크 : PyTorch + Transformers배치 샘플링 : 데이터셋 규모 비율에 따라생산 배포 :
배치 추론: PySpark(1500 executors) NRT 추론: Triton + ONNX(V100 GPU) 일일 증분 지연: 35분(2000만 상품) ANN 검색: 추가 2.5시간 표2: 레이블 제거 실험
모델 KP PR Pass@5 Pass@10 Pass@15 Pass@20 LLM+CTR+KD 12.0 71 68 60 55 52 LLM+SR+CTR+KD 11.0 70 67 59 54 51 LLM+SR+KD 12.0 51 47 42 41 39 LLM+KD 11.0 49 36 35 33 32 LLM 11.0 61 45 41 38 35 CTR 7 60 51 42 37 34
주요 발견 :
LLM+CTR+KD 최적 : 효율성(KP=12)과 품질(PR=71%) 간 최적 균형 달성CTR만 사용 효율 저조 : 7개 키프레이즈만으로 커버리지 제한증류로 현저한 개선 : LLM → LLM+KD(PR: 61% → 49%, 하지만 Pass@5 개선)SR 신호의 역할 : 검색 통과율을 >99%로 향상Pearson 손실 최적 : F1=0.88, ρ=0.87CoSENT 차선 : F1=0.87, ρ=0.82MSE 실패 : CUPID 논문의 발견 검증직접 증류(LLM→BE) 효과 저조 : 대조 F1=0.83, Softmax F1=0.66기본 모델 재현율 정밀도 F1 eBERT 0.92 0.81 0.86 microBERT 0.92 0.78 0.85 ModernBERT 0.91 0.76 0.83
microBERT 선택 이유 :
eBERT에 가까운 성능(F1 차이 0.01만) 추론 속도 30% 빠름 플랫폼 데이터에서 사전 훈련됨(ModernBERT는 미사전 훈련) CTR (F1=0.66)
→ CTR+LLM (F1=0.83)
→ LLM+CTR+KD (F1=0.88)
각 구성 요소가 증가를 가져옴
테스트 설정 : 미국 시장, 12일, CTR만 사용하는 EBR 모델 교체
비즈니스 지표 개선 :
GMB +51.26% (p=0.01) - 판매액 대폭 증가ROAS +38.69% (p=0.02) - 투자 수익률 현저히 향상채택률 +11.75% (p=0.03) - 판매자가 추천을 더 많이 사용의의 : 오프라인 지표 개선이 실제 비즈니스 가치로 전환됨을 증명
긍정적 사례 (LLM과 모델 일치):
상품: "Genuine 15V 4A Power AC Adapter Laptop Charger For Surface Pro 3 4 5 6" 키프레이즈: "microsoft surface charger" 판단: 관련 ✓ 부정적 사례 (미세 조정 LLM 실패):
상품: "iPhone 11 64GB 128G Unlocked..." 키프레이즈: "yellow iphone"(이미지가 노란색 표시) 범용 LLM: 무관련(텍스트만 기반) 미세 조정 LLM: 관련(인간 주석 모달리티 편향 영향) 범용 LLM이 미세 조정 LLM보다 우수 :범용 LLM: 68% 키프레이즈 감소, 판매액 +10% 미세 조정 LLM: 75% 키프레이즈 유지, 판매액 -20% 원인: 인간 주석의 모달리티 편향 교사-조수 필요성 :크로스-인코더 보정 능력 더 우수 대규모 데이터 처리 가능 다중 신호 상호 보완 :CTR: 신뢰할 수 있는 양성 샘플 LLM: 롱테일 커버 SR: 검색 시스템 정렬 셋 중 하나라도 빠지면 안 됨 이중 인코더 vs 크로스-인코더 :
이중 인코더: 독립 인코딩, ANN 지원, 낮은 지연 크로스-인코더: 공동 인코딩, 우수한 효과, 높은 지연 본 논문 기여 : 증류를 통해 두 가지 장점 결합MNAR 편향 : Chen et al. (2023)중개자 편향 : Dey et al. (2025b) - 본 논문 저자 선행 연구본 논문 방안 : LLM 및 SR 신호로 클릭 데이터 보완TwinBERT (Lu et al., 2020): 크로스→이중 타워 BERTERNIE-search (Lu et al., 2022): 교사-조수 아키텍처PROD (Lin et al., 2023): 점진적 증류D2LLM (Liao et al., 2024): LLM 증류에 Pearson 손실 사용본 논문 기여 : 다중 작업 학습과 교사-조수 아키텍처 결합GPT-4 평가 : Zheng et al. (2023) - MT-Bench검색 시나리오 적용 : Wang et al. (2024) - Pinterest본 논문 기여 :
대규모 적용(50M 레이블) 범용 LLM vs 미세 조정 LLM 체계적 평가 모달리티 편향 문제 발견 LLM 신호가 클릭 편향 효과적으로 완화 : 광고 키프레이즈 추천 시나리오에서 LLM 생성 레이블이 CTR만 사용하는 것보다 현저히 우수교사-조수 아키텍처가 직접 증류보다 우수 : 크로스-인코더를 중간 다리로 사용하는 것이 중요Pearson 손실이 순서 증류에 가장 적합 : 배치 순서 손실이 점별 및 쌍별 손실보다 우수다중 신호 융합이 협력 효과 생성 : CTR+LLM+KD 조합이 최고의 비즈니스 효과 달성범용 LLM이 미세 조정 LLM보다 우수 : 모달리티 편향이 있는 인간 주석 데이터에서영역 특정성 :연구는 전자상거래 광고 시나리오로 제한 방법의 이전 가능성 검증 필요 인간 주석 품질 문제 :주석자는 이미지를 볼 수 있지만 모델은 불가(모달리티 편향) 레이블 세분화 과도(excellent/good/fair/bad) 표본 규모가 23억 상품을 커버하기에 부족 부정 샘플 마이닝 전략 단순 :CTR 데이터는 IRNS(배치 내 무작위 부정 샘플링)만 사용 ANCE, N-Game 등 고급 방법 미탐색 향후 연구로 남겨짐 LLM 선택 제한 :Mixtral 8X7B 사용(오픈소스, 중간 규모) 더 큰 모델(GPT-4)은 API 제한 LLM 미세 조정 미수행(인간 데이터 품질 문제) 평가 한계 :오프라인 평가는 LLM 레이블 테스트 세트에서만 수행 A/B 테스트는 미국 시장에서만 수행 장기 효과 미평가 더 나은 인간 판단 데이터 수집 :입력 모달리티 통일(텍스트만 또는 다중 모달) 레이블 단순화(이진 분류) 표본 규모 확대 고급 부정 샘플 마이닝 :ANCE, N-Game 등 방법 탐색 계산 비용과 효과 균형 다중 모달 확장 :이미지 정보를 모델에 포함 모달리티 편향 문제 해결 LLM 미세 조정 탐색 :고품질 데이터에서 미세 조정 추가 효과 향상 가능성 교차 영역 이전 :다른 전자상거래 플랫폼에서 방법 검증 비광고 시나리오로 확장 교사-조수-학생 3단계 아키텍처 : LLM, 크로스-인코더, 이중 인코더를 창의적으로 결합다중 작업 혼합 훈련 : 3가지 이질적 신호 소스를 영리하게 융합체계적 손실 함수 연구 : 8가지 KD 손실 비교, 명확한 지침 제공대규모 실제 데이터 : 50M LLM 레이블, 23억 상품포괄적 제거 실험 : 레이블, 손실, 기본 모델, 아키텍처온라인 검증 : A/B 테스트로 비즈니스 가치 증명상세한 부록 : LLM 평가, 손실 함수 수학 유도, 시스템 아키텍처현저한 비즈니스 개선 : GMB +51%, ROAS +39%생산 배포 세부사항 : 완전한 시스템 아키텍처 및 지연 분석높은 재현성 : 오픈소스 모델(Mixtral), 명확한 방법 설명모달리티 편향 발견 : 인간 주석의 숨겨진 문제 노출범용 LLM 우월성 : "미세 조정이 항상 더 낫다"는 관례적 인식 도전중개자 편향 : 새로운 편향 유형 제안 및 해결책 제시구조 명확, 논리 엄밀 풍부한 그래프(경매 메커니즘 그림, 아키텍처 그림, 생산 시스템 그림) 완전한 수학 공식(부록 8.3 상세 유도) 계산 비용 미정량화 : 50M LLM 레이블 생성의 GPU 시간/비용 미보고초매개변수 민감도 : 학습률, 배치 크기, 온도 매개변수 등 영향 미분석LLM 선택 제한 : Mixtral 8X7B는 최적이 아니지만 오픈소스 및 비용 제약단일 테스트 세트 평가 : 오프라인 실험은 LLM 레이블 테스트 세트에서만, SR/CTR 테스트 세트에서 검증 미실시A/B 테스트 기간 짧음 : 12일은 장기 효과(예: 판매자 피로) 관찰에 부족할 수 있음지역 제한 : 미국 시장만, 다른 국가 효과 미확인실패 사례 분석 적음 : 모달리티 편향 예시 1개만 제시순서 품질 미평가 : NDCG, MRR 등 순서 지표 없음다양성 미정량화 : 고유성 및 다양성 언급하지만 구체적 지표 없음플랫폼 익명화 : eBay 특정 eBERT/microBERT 획득 불가데이터 비공개 : 상업 데이터 공유 불가완전 코드 미공개 : 방법만 설명Pearson 최적 이유 : 이론적 설명 부재, 실험 검증만교사-조수 증가 출처 : 각 단계 기여도 미정량화다중 작업 학습 이론 : 작업 간 간섭/협력 분석 미실시광고 시스템 편향 : 중개자 편향 체계적 설명, 해결 패러다임 제공지식 증류 : 검색 작업에서 교사-조수 아키텍처 유효성 검증LLM 적용 : 대규모 LLM 레이블 생성의 성공 사례(50M)산업 실무 : 완전한 생산 시스템 설계 참고인용 가능성 높음 : 실제 문제 해결, 방법 이전 가능후속 연구 방향 : 다중 모달 LLM, 더 나은 인간 주석 프로토콜벤치마크 역할 : Pearson 손실이 증류 표준이 될 가능성직접 상업 가치 : GMB +51%는 eBay에 중대한 의미복제 가능성 높음 : 다른 전자상거래 플랫폼 적용 가능(Amazon, Alibaba)비용 효율 현저 : LLM 레이블이 대규모 인간 주석 대체전자상거래 광고 추천 : 키프레이즈, 상품 추천검색 관련성 : 쿼리-문서 매칭정보 검색 : 다중 방 판단 정렬이 필요한 모든 시나리오편향 완화 : 클릭/노출 편향이 있는 추천 시스템다른 추천 시나리오 : 신호 소스 조정 필요(예: 비디오 추천)교차 언어 검색 : 다중 언어 LLM 및 사전 훈련 모델 필요실시간 시스템 : NRT 추론 지연 최적화 필요소규모 데이터 : 방법은 대량 데이터 필요(백만 단위)편향 없는 시나리오 : 클릭 데이터가 신뢰할 수 있으면 방법 증가 제한순수 탐색 작업 : 관련성보다 다양성이 필요한 시나리오본 논문 작업을 재현하려면 :
LLM 대체 : Llama 3.1 70B 또는 Qwen 2.5 72B 사용기본 모델 대체 : 공개 sentence-transformers 모델 사용단순화 버전 : 먼저 LLM+CTR+Pearson 손실 검증(SR 데이터 불필요)평가 프로토콜 : 부록 8.2의 오프라인 평가 프로세스 참조시작 규모 : 백만 단위 데이터에서 시작, 점진적 확장D2LLM (Liao et al., 2024): LLM→이중 인코더 증류에 Pearson 손실 처음 제안CUPID (Bhattacharya et al., 2023): MSE 손실이 크로스→이중 인코더 증류에 부적합함을 증명ERNIE-search (Lu et al., 2022): 교사-조수 아키텍처 초기 탐색Middleman Bias (Dey et al., 2025b): 본 논문 저자가 제안한 중개자 편향 이론Chen et al. (2023) : 추천 시스템 편향 종합 검토Joachims et al. (2017) : 편향 피드백 기반 편향 없는 학습Zheng et al. (2023) : MT-Bench 및 LLM 판단자Gu et al. (2025) : LLM 판단자 종합 검토전체 평점 : ⭐⭐⭐⭐⭐ (5/5)
이것은 우수한 산업 응용 논문 으로, 실제 대규모 시나리오에서 LLM 보조 훈련의 유효성을 검증하고 이론에서 실무까지 완전한 해결책을 제공합니다. 일부 한계(이론 분석 부족, 단일 시장 테스트)가 있지만, 실용적 가치, 방법 혁신성, 실험 충분성 모두 최고 수준입니다. 특히 범용 LLM vs 미세 조정 LLM에 대한 심층 분석과 인간 주석의 모달리티 편향 문제 노출은 영역에 중요한 경고를 제공합니다.