2025-11-26T01:46:17.989246

LLMDistill4Ads: Using Cross-Encoders to Distill from LLM Signals for Advertiser Keyphrase Recommendations

Dey, Braun, Ravipati et al.
E-commerce sellers are advised to bid on keyphrases to boost their advertising campaigns. These keyphrases must be relevant to prevent irrelevant items from cluttering search systems and to maintain positive seller perception. It is vital that keyphrase suggestions align with seller, search and buyer judgments. Given the challenges in collecting negative feedback in these systems, LLMs have been used as a scalable proxy to human judgments. This paper presents an empirical study on a major ecommerce platform of a distillation framework involving an LLM teacher, a cross-encoder assistant and a bi-encoder Embedding Based Retrieval (EBR) student model, aimed at mitigating click-induced biases in keyphrase recommendations.
academic

LLMDistill4Ads: Using Cross-Encoders to Distill from LLM Signals for Advertiser Keyphrase Recommendations

基本信息

  • 论文ID: 2508.03628
  • 标题: LLMDistill4Ads: Using Cross-Encoders to Distill from LLM Signals for Advertiser Keyphrase Recommendations
  • 作者: Soumik Dey, Benjamin Braun, Naveen Ravipati, Hansi Wu, Binbin Li (eBay Inc)
  • 分类: cs.IR (Information Retrieval), cs.AI, cs.LG
  • 发表时间: arXiv v5, 2025年11月20日
  • 论文链接: https://arxiv.org/abs/2508.03628v5

摘要

电商卖家需要对关键词出价以提升广告效果,这些关键词必须具有相关性以防止无关商品污染搜索系统并维持卖家满意度。由于负反馈收集困难,本文提出使用LLM作为人类判断的可扩展代理。研究在大型电商平台上实施了一个知识蒸馏框架:LLM教师模型 → 交叉编码器助手 → 双编码器EBR学生模型,旨在缓解关键词推荐中的点击偏差问题。

研究背景与动机

1. 核心问题

在电商广告系统中,为卖家推荐相关的关键词(买家查询词)用于竞价广告。关键挑战包括:

  • 点击数据的不可靠性:高点击/销量表明相关性,但缺乏点击不代表不相关
  • MNAR偏差(Missing Not At Random):不受欢迎的商品排名低,获得更少曝光和点击
  • 中间商偏差(Middleman Bias):训练数据仅包含通过搜索相关性过滤的关键词,导致样本选择偏差

2. 问题重要性

  • 关键词相关性直接影响卖家策略和搜索系统质量
  • 不相关推荐会降低卖家满意度、浪费资源、影响广告效果
  • 需要同时满足卖家、广告系统和搜索系统三方的判断标准

3. 现有方法局限性

  • 仅基于CTR训练:容易复制训练数据中的流行度和曝光偏差
  • 负样本不可靠:点击日志中的负样本不能真实反映不相关性
  • 人工标注困难:成本高、规模有限、存在模态偏差(标注者能看到图片但模型不能)

4. 研究动机

利用LLM的世界知识和判断能力作为人类判断的代理,通过多任务学习和知识蒸馏框架,结合CTR、搜索相关性和LLM信号,训练高效的双编码器检索模型。

核心贡献

  1. 提出Teacher-Assistant-Student蒸馏框架:LLM教师 → 交叉编码器助手 → 双编码器学生的三级架构
  2. 多信号融合训练策略:整合CTR、搜索相关性(SR)和LLM标签的多任务学习范式
  3. 系统性损失函数对比研究:评估了8种知识蒸馏损失函数,发现Pearson相关损失最优
  4. 生产环境评估协议:提出模拟真实广告拍卖场景的离线评估方法
  5. 显著业务影响:A/B测试显示GMB提升51.26%,ROAS提升38.69%,关键词采纳率提升11.75%

方法详解

任务定义

输入:商品标题(item title)+ 类目(category)和买家查询词(keyphrase)
输出:相关性判断(二分类或连续相似度分数)
目标:为每个商品检索Top-K最相关的关键词用于广告竞价
约束:需要低延迟(适合生产环境)、高准确性(对齐多方判断)

模型架构

1. 数据集构建(三种标签源)

CTR标签(10,702,747条):

  • 计算过去30天的点击-曝光比
  • CTR > 0.05标记为正样本
  • 正样本可靠,负样本不可靠(仅用于MNR loss)

搜索相关性(SR)标签(18,721,682条):

  • 从拍卖过程收集3个月的SR模型评分
  • 超过业务阈值标记为正样本
  • 无中间商偏差和样本选择偏差

LLM标签(50,078,315条训练集,3,524,414条测试集):

  • 使用Mixtral 8X7B Instruct-v0.1生成
  • 与点击数据90%一致性
  • Prompt设计:
Given an item with title: "{title}", 
determine whether the keyphrase: "{keyphrase}", 
is relevant for cpc targeting or not by giving 
ONLY yes or no answer

2. 交叉编码器(Assistant)

基础模型:microBERT(eBERT的蒸馏版本)

  • 比eBERT小4.3倍,快5.5倍
  • 在eBay商品数据上预训练

输入格式

query [SEP] category name [SEP] item title

训练

  • 在50M LLM标签上用交叉熵损失微调
  • 测试集F1=96%(7.5M样本)

作用:作为中间助手模型,提供软标签用于蒸馏

3. 双编码器(Student)

基础模型:microBERT双塔架构

输入处理

  • 商品塔:item title [SEP] category name
  • 关键词塔:buyer query
  • 独立编码后计算余弦相似度

输出维度优化

  • 使用Matryoshka Loss将嵌入截断至64维(降低ANN延迟)

4. 多任务训练范式

核心思想:每个batch仅包含一个数据集的样本,按数据集规模比例采样

损失函数组合

数据源损失函数原因
CTR标签MNR Loss仅有可靠正样本,负样本通过IRNS生成
SR标签Contrastive Loss有明确正负样本
LLM标签Contrastive Loss有明确正负样本
交叉编码器蒸馏Pearson Correlation Loss对齐排序顺序

技术创新点

1. Teacher-Assistant架构的必要性

  • 直接从LLM蒸馏到双编码器效果差(F1=0.66 vs 0.88)
  • 交叉编码器作为中间桥梁:
    • 学习能力强于双编码器(可以联合编码)
    • 比LLM更高效(可以生成大规模软标签)
    • 实现了知识的渐进式转移

2. 多信号融合的合理性

LLM+CTR+KD模型性能最优:
- 中位关键词数:12
- LLM通过率:71%
- 搜索通过率:>99%

设计原理

  • CTR提供真实交互信号(可靠正样本)
  • LLM提供无偏判断(覆盖未曝光样本)
  • SR确保搜索系统接受度
  • 交叉编码器提供细粒度排序信号

3. Pearson损失的优越性

实验对比(表1):

KD损失F1PrecisionRecallρ (Pearson相关)
MSE0.810.770.860.78
CoSENT0.870.860.880.82
Pearson0.880.870.880.87
MSEmar0.860.840.880.80
KL-Div0.850.830.880.66

原因分析

  • MSE是逐点损失,无法捕捉排序关系
  • CoSENT是成对排序损失,有校准能力
  • Pearson是批量排序损失,优化整体线性相关性
  • 与交叉编码器的Pearson相关系数最高(0.87)

实验设置

数据集

  • 平台规模:23亿商品
  • 训练集
    • CTR: 10.7M
    • SR: 18.7M
    • LLM: 50M(训练)+ 3.5M(测试)
  • 评估集:10,000样本(每个模型)
  • A/B测试:美国市场12天

评价指标

离线指标

  • F1, Precision, Recall:分类性能
  • ρ (Pearson相关):与交叉编码器的对齐度
  • KP(关键词数):通过相关性过滤后的中位关键词数
  • PR(通过率):在不同排名位置的LLM/SR通过率

在线指标

  • GMB(Gross Merchandise Bought):销售额
  • ROAS(Return on Ad Spend):广告投资回报率
  • 采纳率:卖家实际使用的关键词数

对比方法

  1. CTR-only:仅用CTR训练的基线
  2. LLM:仅用LLM标签+Contrastive Loss
  3. LLM+KD:LLM标签+交叉编码器蒸馏
  4. LLM+SR+KD:LLM+SR标签+蒸馏
  5. LLM+CTR+KD:最优组合
  6. LLM+SR+CTR+KD:全信号组合

实现细节

  • 基础模型:microBERT(选择原因见表3)
  • 训练框架:PyTorch + Transformers
  • 批量采样:按数据集规模比例
  • 生产部署
    • Batch推理:PySpark(1500 executors)
    • NRT推理:Triton + ONNX(V100 GPU)
    • 日增量延迟:35分钟(2000万商品)
    • ANN检索:额外2.5小时

实验结果

主要结果

表2:标签消融实验

模型KPPRPass@5Pass@10Pass@15Pass@20
LLM+CTR+KD12.07168605552
LLM+SR+CTR+KD11.07067595451
LLM+SR+KD12.05147424139
LLM+KD11.04936353332
LLM11.06145413835
CTR76051423734

关键发现

  1. LLM+CTR+KD最优:在效率(KP=12)和质量(PR=71%)间达到最佳平衡
  2. CTR-only效率低:仅7个关键词,限制了覆盖度
  3. 蒸馏带来显著提升:LLM → LLM+KD(PR: 61% → 49%,但Pass@5提升)
  4. SR信号的作用:提升搜索通过率至>99%

消融实验

1. 知识蒸馏损失对比(表1)

  • Pearson Loss最优:F1=0.88, ρ=0.87
  • CoSENT次优:F1=0.87, ρ=0.82
  • MSE失效:验证了CUPID论文的发现
  • 直接蒸馏(LLM→BE)效果差:Contrastive F1=0.83, Softmax F1=0.66

2. 基础模型选择(表3)

基础模型RecallPrecisionF1
eBERT0.920.810.86
microBERT0.920.780.85
ModernBERT0.910.760.83

选择microBERT原因

  • 性能接近eBERT(F1仅差0.01)
  • 推理速度快30%
  • 在平台数据上预训练(ModernBERT未预训练)

3. 多任务框架渐进构建

CTR (F1=0.66) 
→ CTR+LLM (F1=0.83) 
→ LLM+CTR+KD (F1=0.88)

每个组件都带来增益

A/B测试结果(在线验证)

测试设置:美国市场,12天,替换CTR-only EBR模型

业务指标提升

  • GMB +51.26% (p=0.01) - 销售额大幅增长
  • ROAS +38.69% (p=0.02) - 投资回报率显著提升
  • 采纳率 +11.75% (p=0.03) - 卖家更愿意使用推荐

意义:证明离线指标改进转化为真实业务价值

案例分析

正面案例(LLM与模型一致):

  • 商品:"Genuine 15V 4A Power AC Adapter Laptop Charger For Surface Pro 3 4 5 6"
  • 关键词:"microsoft surface charger"
  • 判断:相关 ✓

负面案例(微调LLM失败):

  • 商品:"iPhone 11 64GB 128G Unlocked..."
  • 关键词:"yellow iphone"(图片显示黄色)
  • 通用LLM:不相关(仅基于文本)
  • 微调LLM:相关(受模态偏差影响)

实验发现

  1. 通用LLM优于微调LLM
    • 通用LLM:减少68%关键词,销售额+10%
    • 微调LLM:保留75%关键词,销售额-20%
    • 原因:人工标注存在模态偏差
  2. Teacher-Assistant必要性
    • 交叉编码器校准性更好
    • 能处理大规模数据生成软标签
  3. 多信号互补
    • CTR:可靠正样本
    • LLM:覆盖长尾
    • SR:搜索系统对齐
    • 三者缺一不可

相关工作

1. 嵌入式检索(EBR)

  • 双编码器 vs 交叉编码器
    • 双编码器:独立编码,支持ANN,延迟低
    • 交叉编码器:联合编码,效果好,延迟高
  • 本文贡献:通过蒸馏结合两者优势

2. 点击偏差问题

  • MNAR偏差:Chen et al. (2023)
  • 中间商偏差:Dey et al. (2025b) - 本文作者前期工作
  • 本文方案:用LLM和SR信号补充点击数据

3. 知识蒸馏方法

  • TwinBERT (Lu et al., 2020):交叉→双塔BERT
  • ERNIE-search (Lu et al., 2022):Teacher-Assistant架构
  • PROD (Lin et al., 2023):渐进式蒸馏
  • D2LLM (Liao et al., 2024):Pearson损失用于LLM蒸馏
  • 本文贡献:结合多任务学习和Teacher-Assistant架构

4. LLM作为判断者

  • GPT-4评估:Zheng et al. (2023) - MT-Bench
  • 搜索场景应用:Wang et al. (2024) - Pinterest
  • 本文贡献
    • 大规模应用(50M标签)
    • 系统性评估通用LLM vs 微调LLM
    • 发现模态偏差问题

结论与讨论

主要结论

  1. LLM信号有效缓解点击偏差:在广告关键词推荐场景中,LLM生成的标签显著优于仅用CTR
  2. Teacher-Assistant架构优于直接蒸馏:交叉编码器作为中间桥梁至关重要
  3. Pearson损失最适合排序蒸馏:批量排序损失优于逐点和成对损失
  4. 多信号融合产生协同效应:CTR+LLM+KD组合达到最佳业务效果
  5. 通用LLM优于微调LLM:在存在模态偏差的人工标注数据上

局限性

  1. 领域特定性
    • 研究局限于电商广告场景
    • 方法可迁移性需验证
  2. 人工标注质量问题
    • 标注者能看图片但模型不能(模态偏差)
    • 标签粒度过细(excellent/good/fair/bad)
    • 样本量不足以覆盖23亿商品
  3. 负样本挖掘策略简单
    • CTR数据仅用IRNS(In-batch Random Negative Sampling)
    • 未探索ANCE、N-Game等高级方法
    • 留待未来研究
  4. LLM选择受限
    • 使用Mixtral 8X7B(开源、中等规模)
    • 更大模型(GPT-4)受API限制
    • 未微调LLM(因人工数据质量问题)
  5. 评估局限
    • 离线评估仅在LLM标签测试集
    • A/B测试仅在美国市场
    • 长期效果未评估

未来方向

  1. 更好的人工判断数据收集
    • 统一输入模态(仅文本或多模态)
    • 简化标签(二分类)
    • 扩大样本规模
  2. 高级负样本挖掘
    • 探索ANCE、N-Game等方法
    • 平衡计算成本和效果
  3. 多模态扩展
    • 将图像信息纳入模型
    • 解决模态偏差问题
  4. 微调LLM探索
    • 在高质量数据上微调
    • 可能进一步提升效果
  5. 跨领域迁移
    • 验证方法在其他电商平台
    • 扩展到非广告场景

深度评价

优点

1. 方法创新性 ⭐⭐⭐⭐⭐

  • Teacher-Assistant-Student三级架构:创新性地结合LLM、交叉编码器和双编码器
  • 多任务混合训练:巧妙融合三种异构信号源
  • 系统性损失函数研究:对比8种KD损失,提供清晰指导

2. 实验充分性 ⭐⭐⭐⭐⭐

  • 大规模真实数据:50M LLM标签,23亿商品
  • 全面消融实验:标签、损失、基础模型、架构
  • 在线验证:A/B测试证明业务价值
  • 详尽附录:LLM评估、损失函数数学推导、系统架构

3. 实用价值 ⭐⭐⭐⭐⭐

  • 显著业务提升:GMB +51%, ROAS +39%
  • 生产部署细节:完整的系统架构和延迟分析
  • 可复现性强:开源模型(Mixtral),清晰方法描述

4. 洞察深度 ⭐⭐⭐⭐

  • 模态偏差发现:揭示人工标注的隐藏问题
  • 通用LLM优势:挑战"微调总是更好"的常规认知
  • 中间商偏差:提出新的偏差类型并给出解决方案

5. 写作质量 ⭐⭐⭐⭐

  • 结构清晰,逻辑严密
  • 图表丰富(拍卖机制图、架构图、生产系统图)
  • 数学公式完整(附录8.3详细推导)

不足

1. 方法局限性

  • 计算成本未量化:生成50M LLM标签的GPU时间/成本未报告
  • 超参数敏感性:未分析学习率、batch size、温度参数等影响
  • LLM选择局限:Mixtral 8X7B非最优,但受限于开源和成本

2. 实验设置缺陷

  • 单一测试集评估:离线实验仅在LLM标签测试集,未在SR/CTR测试集验证
  • A/B测试时长短:12天可能不足以观察长期效应(如卖家疲劳)
  • 地域局限:仅美国市场,其他国家效果未知

3. 分析不足

  • 失败案例分析少:仅举1个模态偏差例子
  • 排序质量未评估:无NDCG、MRR等排序指标
  • 多样性未量化:虽提到uniqueness和diversity,但无具体指标

4. 可复现性问题

  • 平台匿名:无法获取eBay特定的eBERT/microBERT
  • 数据不公开:商业数据无法共享
  • 完整代码未开源:仅描述方法

5. 理论分析缺失

  • 为何Pearson最优:缺乏理论解释,仅实验验证
  • Teacher-Assistant增益来源:未量化各级贡献
  • 多任务学习理论:未分析任务间干扰/协同

影响力评估

对领域的贡献 ⭐⭐⭐⭐⭐

  1. 广告系统偏差:系统性阐述中间商偏差,提供解决范式
  2. 知识蒸馏:验证Teacher-Assistant架构在检索任务的有效性
  3. LLM应用:大规模LLM标签生成的成功案例(50M)
  4. 工业实践:完整的生产系统设计参考

学术影响

  • 引用潜力高:解决实际问题,方法可迁移
  • 后续研究方向:多模态LLM、更好的人工标注协议
  • 基准作用:Pearson损失可能成为蒸馏标准

工业影响

  • 直接商业价值:GMB +51%对eBay意义重大
  • 可复制性强:其他电商平台可借鉴(Amazon, Alibaba)
  • 成本效益显著:LLM标签替代大规模人工标注

适用场景

高度适用 ✅

  1. 电商广告推荐:关键词、商品推荐
  2. 搜索相关性:查询-文档匹配
  3. 信息检索:任何需要对齐多方判断的场景
  4. 偏差缓解:存在点击/曝光偏差的推荐系统

中度适用 ⚠️

  1. 其他推荐场景:需要调整信号源(如视频推荐)
  2. 跨语言检索:需要多语言LLM和预训练模型
  3. 实时系统:需要优化NRT推理延迟

不适用 ❌

  1. 小规模数据:方法需要大量数据(百万级)
  2. 无偏差场景:若点击数据可靠,方法增益有限
  3. 纯探索任务:需要多样性而非相关性的场景

复现建议

如果要复现本文工作

  1. 替代LLM:使用Llama 3.1 70B或Qwen 2.5 72B
  2. 替代基础模型:使用公开的sentence-transformers模型
  3. 简化版本:先验证LLM+CTR+Pearson Loss(不需SR数据)
  4. 评估协议:参考附录8.2的离线评估流程
  5. 开始规模:从百万级数据开始,逐步扩展

参考文献(精选)

核心相关工作

  1. D2LLM (Liao et al., 2024): 首次提出Pearson损失用于LLM→双编码器蒸馏
  2. CUPID (Bhattacharya et al., 2023): 证明MSE损失不适合交叉→双编码器蒸馏
  3. ERNIE-search (Lu et al., 2022): Teacher-Assistant架构的早期探索
  4. Middleman Bias (Dey et al., 2025b): 本文作者提出的中间商偏差理论

偏差与推荐

  1. Chen et al. (2023): 推荐系统偏差综述
  2. Joachims et al. (2017): 基于偏差反馈的无偏学习

LLM评估

  1. Zheng et al. (2023): MT-Bench和LLM-as-a-judge
  2. Gu et al. (2025): LLM作为判断者的综述

总体评分: ⭐⭐⭐⭐⭐ (5/5)

这是一篇优秀的工业应用论文,在真实大规模场景中验证了LLM辅助训练的有效性,提供了完整的从理论到实践的解决方案。尽管存在一些局限性(如理论分析不足、单一市场测试),但其实用价值、方法创新性和实验充分性都达到顶级水平。特别值得称赞的是作者对通用LLM vs 微调LLM的深入分析,揭示了人工标注中的模态偏差问题,为领域提供了重要警示。