E-commerce sellers are advised to bid on keyphrases to boost their advertising campaigns. These keyphrases must be relevant to prevent irrelevant items from cluttering search systems and to maintain positive seller perception. It is vital that keyphrase suggestions align with seller, search and buyer judgments. Given the challenges in collecting negative feedback in these systems, LLMs have been used as a scalable proxy to human judgments. This paper presents an empirical study on a major ecommerce platform of a distillation framework involving an LLM teacher, a cross-encoder assistant and a bi-encoder Embedding Based Retrieval (EBR) student model, aimed at mitigating click-induced biases in keyphrase recommendations.
论文ID : 2508.03628标题 : LLMDistill4Ads: Using Cross-Encoders to Distill from LLM Signals for Advertiser Keyphrase Recommendations作者 : Soumik Dey, Benjamin Braun, Naveen Ravipati, Hansi Wu, Binbin Li (eBay Inc)分类 : cs.IR (Information Retrieval), cs.AI, cs.LG发表时间 : arXiv v5, 2025年11月20日论文链接 : https://arxiv.org/abs/2508.03628v5 电商卖家需要对关键词出价以提升广告效果,这些关键词必须具有相关性以防止无关商品污染搜索系统并维持卖家满意度。由于负反馈收集困难,本文提出使用LLM作为人类判断的可扩展代理。研究在大型电商平台上实施了一个知识蒸馏框架:LLM教师模型 → 交叉编码器助手 → 双编码器EBR学生模型,旨在缓解关键词推荐中的点击偏差问题。
在电商广告系统中,为卖家推荐相关的关键词(买家查询词)用于竞价广告。关键挑战包括:
点击数据的不可靠性 :高点击/销量表明相关性,但缺乏点击不代表不相关MNAR偏差 (Missing Not At Random):不受欢迎的商品排名低,获得更少曝光和点击中间商偏差 (Middleman Bias):训练数据仅包含通过搜索相关性过滤的关键词,导致样本选择偏差关键词相关性直接影响卖家策略和搜索系统质量 不相关推荐会降低卖家满意度、浪费资源、影响广告效果 需要同时满足卖家、广告系统和搜索系统三方的判断标准 仅基于CTR训练 :容易复制训练数据中的流行度和曝光偏差负样本不可靠 :点击日志中的负样本不能真实反映不相关性人工标注困难 :成本高、规模有限、存在模态偏差(标注者能看到图片但模型不能)利用LLM的世界知识和判断能力作为人类判断的代理,通过多任务学习和知识蒸馏框架,结合CTR、搜索相关性和LLM信号,训练高效的双编码器检索模型。
提出Teacher-Assistant-Student蒸馏框架 :LLM教师 → 交叉编码器助手 → 双编码器学生的三级架构多信号融合训练策略 :整合CTR、搜索相关性(SR)和LLM标签的多任务学习范式系统性损失函数对比研究 :评估了8种知识蒸馏损失函数,发现Pearson相关损失最优生产环境评估协议 :提出模拟真实广告拍卖场景的离线评估方法显著业务影响 :A/B测试显示GMB提升51.26%,ROAS提升38.69%,关键词采纳率提升11.75%输入 :商品标题(item title)+ 类目(category)和买家查询词(keyphrase)输出 :相关性判断(二分类或连续相似度分数)目标 :为每个商品检索Top-K最相关的关键词用于广告竞价约束 :需要低延迟(适合生产环境)、高准确性(对齐多方判断)
CTR标签 (10,702,747条):
计算过去30天的点击-曝光比 CTR > 0.05标记为正样本 正样本可靠,负样本不可靠(仅用于MNR loss) 搜索相关性(SR)标签 (18,721,682条):
从拍卖过程收集3个月的SR模型评分 超过业务阈值标记为正样本 无中间商偏差和样本选择偏差 LLM标签 (50,078,315条训练集,3,524,414条测试集):
使用Mixtral 8X7B Instruct-v0.1生成 与点击数据90%一致性 Prompt设计: Given an item with title: "{title}",
determine whether the keyphrase: "{keyphrase}",
is relevant for cpc targeting or not by giving
ONLY yes or no answer
基础模型 :microBERT(eBERT的蒸馏版本)
比eBERT小4.3倍,快5.5倍 在eBay商品数据上预训练 输入格式 :
query [SEP] category name [SEP] item title
训练 :
在50M LLM标签上用交叉熵损失微调 测试集F1=96%(7.5M样本) 作用 :作为中间助手模型,提供软标签用于蒸馏
基础模型 :microBERT双塔架构
输入处理 :
商品塔:item title [SEP] category name 关键词塔:buyer query 独立编码后计算余弦相似度 输出维度优化 :
使用Matryoshka Loss将嵌入截断至64维(降低ANN延迟) 核心思想 :每个batch仅包含一个数据集的样本,按数据集规模比例采样
损失函数组合 :
数据源 损失函数 原因 CTR标签 MNR Loss 仅有可靠正样本,负样本通过IRNS生成 SR标签 Contrastive Loss 有明确正负样本 LLM标签 Contrastive Loss 有明确正负样本 交叉编码器蒸馏 Pearson Correlation Loss 对齐排序顺序
直接从LLM蒸馏到双编码器效果差(F1=0.66 vs 0.88) 交叉编码器作为中间桥梁:
学习能力强于双编码器(可以联合编码) 比LLM更高效(可以生成大规模软标签) 实现了知识的渐进式转移 LLM+CTR+KD模型性能最优:
- 中位关键词数:12
- LLM通过率:71%
- 搜索通过率:>99%
设计原理 :
CTR提供真实交互信号(可靠正样本) LLM提供无偏判断(覆盖未曝光样本) SR确保搜索系统接受度 交叉编码器提供细粒度排序信号 实验对比(表1):
KD损失 F1 Precision Recall ρ (Pearson相关) MSE 0.81 0.77 0.86 0.78 CoSENT 0.87 0.86 0.88 0.82 Pearson 0.88 0.87 0.88 0.87 MSEmar 0.86 0.84 0.88 0.80 KL-Div 0.85 0.83 0.88 0.66
原因分析 :
MSE是逐点损失,无法捕捉排序关系 CoSENT是成对排序损失,有校准能力 Pearson是批量排序损失,优化整体线性相关性 与交叉编码器的Pearson相关系数最高(0.87) 平台规模 :23亿商品训练集 :
CTR: 10.7M SR: 18.7M LLM: 50M(训练)+ 3.5M(测试) 评估集 :10,000样本(每个模型)A/B测试 :美国市场12天离线指标 :
F1, Precision, Recall :分类性能ρ (Pearson相关) :与交叉编码器的对齐度KP(关键词数) :通过相关性过滤后的中位关键词数PR(通过率) :在不同排名位置的LLM/SR通过率在线指标 :
GMB(Gross Merchandise Bought) :销售额ROAS(Return on Ad Spend) :广告投资回报率采纳率 :卖家实际使用的关键词数CTR-only :仅用CTR训练的基线LLM :仅用LLM标签+Contrastive LossLLM+KD :LLM标签+交叉编码器蒸馏LLM+SR+KD :LLM+SR标签+蒸馏LLM+CTR+KD :最优组合LLM+SR+CTR+KD :全信号组合基础模型 :microBERT(选择原因见表3)训练框架 :PyTorch + Transformers批量采样 :按数据集规模比例生产部署 :
Batch推理:PySpark(1500 executors) NRT推理:Triton + ONNX(V100 GPU) 日增量延迟:35分钟(2000万商品) ANN检索:额外2.5小时 表2:标签消融实验
模型 KP PR Pass@5 Pass@10 Pass@15 Pass@20 LLM+CTR+KD 12.0 71 68 60 55 52 LLM+SR+CTR+KD 11.0 70 67 59 54 51 LLM+SR+KD 12.0 51 47 42 41 39 LLM+KD 11.0 49 36 35 33 32 LLM 11.0 61 45 41 38 35 CTR 7 60 51 42 37 34
关键发现 :
LLM+CTR+KD最优 :在效率(KP=12)和质量(PR=71%)间达到最佳平衡CTR-only效率低 :仅7个关键词,限制了覆盖度蒸馏带来显著提升 :LLM → LLM+KD(PR: 61% → 49%,但Pass@5提升)SR信号的作用 :提升搜索通过率至>99%Pearson Loss最优 :F1=0.88, ρ=0.87CoSENT次优 :F1=0.87, ρ=0.82MSE失效 :验证了CUPID论文的发现直接蒸馏(LLM→BE)效果差 :Contrastive F1=0.83, Softmax F1=0.66基础模型 Recall Precision F1 eBERT 0.92 0.81 0.86 microBERT 0.92 0.78 0.85 ModernBERT 0.91 0.76 0.83
选择microBERT原因 :
性能接近eBERT(F1仅差0.01) 推理速度快30% 在平台数据上预训练(ModernBERT未预训练) CTR (F1=0.66)
→ CTR+LLM (F1=0.83)
→ LLM+CTR+KD (F1=0.88)
每个组件都带来增益
测试设置 :美国市场,12天,替换CTR-only EBR模型
业务指标提升 :
GMB +51.26% (p=0.01) - 销售额大幅增长ROAS +38.69% (p=0.02) - 投资回报率显著提升采纳率 +11.75% (p=0.03) - 卖家更愿意使用推荐意义 :证明离线指标改进转化为真实业务价值
正面案例 (LLM与模型一致):
商品:"Genuine 15V 4A Power AC Adapter Laptop Charger For Surface Pro 3 4 5 6" 关键词:"microsoft surface charger" 判断:相关 ✓ 负面案例 (微调LLM失败):
商品:"iPhone 11 64GB 128G Unlocked..." 关键词:"yellow iphone"(图片显示黄色) 通用LLM:不相关(仅基于文本) 微调LLM:相关(受模态偏差影响) 通用LLM优于微调LLM :通用LLM:减少68%关键词,销售额+10% 微调LLM:保留75%关键词,销售额-20% 原因:人工标注存在模态偏差 Teacher-Assistant必要性 :多信号互补 :CTR:可靠正样本 LLM:覆盖长尾 SR:搜索系统对齐 三者缺一不可 双编码器 vs 交叉编码器 :
双编码器:独立编码,支持ANN,延迟低 交叉编码器:联合编码,效果好,延迟高 本文贡献 :通过蒸馏结合两者优势MNAR偏差 :Chen et al. (2023)中间商偏差 :Dey et al. (2025b) - 本文作者前期工作本文方案 :用LLM和SR信号补充点击数据TwinBERT (Lu et al., 2020):交叉→双塔BERTERNIE-search (Lu et al., 2022):Teacher-Assistant架构PROD (Lin et al., 2023):渐进式蒸馏D2LLM (Liao et al., 2024):Pearson损失用于LLM蒸馏本文贡献 :结合多任务学习和Teacher-Assistant架构GPT-4评估 :Zheng et al. (2023) - MT-Bench搜索场景应用 :Wang et al. (2024) - Pinterest本文贡献 :
大规模应用(50M标签) 系统性评估通用LLM vs 微调LLM 发现模态偏差问题 LLM信号有效缓解点击偏差 :在广告关键词推荐场景中,LLM生成的标签显著优于仅用CTRTeacher-Assistant架构优于直接蒸馏 :交叉编码器作为中间桥梁至关重要Pearson损失最适合排序蒸馏 :批量排序损失优于逐点和成对损失多信号融合产生协同效应 :CTR+LLM+KD组合达到最佳业务效果通用LLM优于微调LLM :在存在模态偏差的人工标注数据上领域特定性 :人工标注质量问题 :标注者能看图片但模型不能(模态偏差) 标签粒度过细(excellent/good/fair/bad) 样本量不足以覆盖23亿商品 负样本挖掘策略简单 :CTR数据仅用IRNS(In-batch Random Negative Sampling) 未探索ANCE、N-Game等高级方法 留待未来研究 LLM选择受限 :使用Mixtral 8X7B(开源、中等规模) 更大模型(GPT-4)受API限制 未微调LLM(因人工数据质量问题) 评估局限 :离线评估仅在LLM标签测试集 A/B测试仅在美国市场 长期效果未评估 更好的人工判断数据收集 :统一输入模态(仅文本或多模态) 简化标签(二分类) 扩大样本规模 高级负样本挖掘 :探索ANCE、N-Game等方法 平衡计算成本和效果 多模态扩展 :微调LLM探索 :跨领域迁移 :Teacher-Assistant-Student三级架构 :创新性地结合LLM、交叉编码器和双编码器多任务混合训练 :巧妙融合三种异构信号源系统性损失函数研究 :对比8种KD损失,提供清晰指导大规模真实数据 :50M LLM标签,23亿商品全面消融实验 :标签、损失、基础模型、架构在线验证 :A/B测试证明业务价值详尽附录 :LLM评估、损失函数数学推导、系统架构显著业务提升 :GMB +51%, ROAS +39%生产部署细节 :完整的系统架构和延迟分析可复现性强 :开源模型(Mixtral),清晰方法描述模态偏差发现 :揭示人工标注的隐藏问题通用LLM优势 :挑战"微调总是更好"的常规认知中间商偏差 :提出新的偏差类型并给出解决方案结构清晰,逻辑严密 图表丰富(拍卖机制图、架构图、生产系统图) 数学公式完整(附录8.3详细推导) 计算成本未量化 :生成50M LLM标签的GPU时间/成本未报告超参数敏感性 :未分析学习率、batch size、温度参数等影响LLM选择局限 :Mixtral 8X7B非最优,但受限于开源和成本单一测试集评估 :离线实验仅在LLM标签测试集,未在SR/CTR测试集验证A/B测试时长短 :12天可能不足以观察长期效应(如卖家疲劳)地域局限 :仅美国市场,其他国家效果未知失败案例分析少 :仅举1个模态偏差例子排序质量未评估 :无NDCG、MRR等排序指标多样性未量化 :虽提到uniqueness和diversity,但无具体指标平台匿名 :无法获取eBay特定的eBERT/microBERT数据不公开 :商业数据无法共享完整代码未开源 :仅描述方法为何Pearson最优 :缺乏理论解释,仅实验验证Teacher-Assistant增益来源 :未量化各级贡献多任务学习理论 :未分析任务间干扰/协同广告系统偏差 :系统性阐述中间商偏差,提供解决范式知识蒸馏 :验证Teacher-Assistant架构在检索任务的有效性LLM应用 :大规模LLM标签生成的成功案例(50M)工业实践 :完整的生产系统设计参考引用潜力高 :解决实际问题,方法可迁移后续研究方向 :多模态LLM、更好的人工标注协议基准作用 :Pearson损失可能成为蒸馏标准直接商业价值 :GMB +51%对eBay意义重大可复制性强 :其他电商平台可借鉴(Amazon, Alibaba)成本效益显著 :LLM标签替代大规模人工标注电商广告推荐 :关键词、商品推荐搜索相关性 :查询-文档匹配信息检索 :任何需要对齐多方判断的场景偏差缓解 :存在点击/曝光偏差的推荐系统其他推荐场景 :需要调整信号源(如视频推荐)跨语言检索 :需要多语言LLM和预训练模型实时系统 :需要优化NRT推理延迟小规模数据 :方法需要大量数据(百万级)无偏差场景 :若点击数据可靠,方法增益有限纯探索任务 :需要多样性而非相关性的场景如果要复现本文工作 :
替代LLM :使用Llama 3.1 70B或Qwen 2.5 72B替代基础模型 :使用公开的sentence-transformers模型简化版本 :先验证LLM+CTR+Pearson Loss(不需SR数据)评估协议 :参考附录8.2的离线评估流程开始规模 :从百万级数据开始,逐步扩展D2LLM (Liao et al., 2024): 首次提出Pearson损失用于LLM→双编码器蒸馏CUPID (Bhattacharya et al., 2023): 证明MSE损失不适合交叉→双编码器蒸馏ERNIE-search (Lu et al., 2022): Teacher-Assistant架构的早期探索Middleman Bias (Dey et al., 2025b): 本文作者提出的中间商偏差理论Chen et al. (2023) : 推荐系统偏差综述Joachims et al. (2017) : 基于偏差反馈的无偏学习Zheng et al. (2023) : MT-Bench和LLM-as-a-judgeGu et al. (2025) : LLM作为判断者的综述总体评分 : ⭐⭐⭐⭐⭐ (5/5)
这是一篇优秀的工业应用论文 ,在真实大规模场景中验证了LLM辅助训练的有效性,提供了完整的从理论到实践的解决方案。尽管存在一些局限性(如理论分析不足、单一市场测试),但其实用价值、方法创新性和实验充分性都达到顶级水平。特别值得称赞的是作者对通用LLM vs 微调LLM的深入分析,揭示了人工标注中的模态偏差问题,为领域提供了重要警示。