E-commerce sellers are advised to bid on keyphrases to boost their advertising campaigns. These keyphrases must be relevant to prevent irrelevant items from cluttering search systems and to maintain positive seller perception. It is vital that keyphrase suggestions align with seller, search and buyer judgments. Given the challenges in collecting negative feedback in these systems, LLMs have been used as a scalable proxy to human judgments. This paper presents an empirical study on a major ecommerce platform of a distillation framework involving an LLM teacher, a cross-encoder assistant and a bi-encoder Embedding Based Retrieval (EBR) student model, aimed at mitigating click-induced biases in keyphrase recommendations.
論文ID : 2508.03628タイトル : LLMDistill4Ads: Using Cross-Encoders to Distill from LLM Signals for Advertiser Keyphrase Recommendations著者 : Soumik Dey, Benjamin Braun, Naveen Ravipati, Hansi Wu, Binbin Li (eBay Inc)分類 : cs.IR (情報検索), cs.AI, cs.LG発表日時 : arXiv v5, 2025年11月20日論文リンク : https://arxiv.org/abs/2508.03628v5 電子商取引の売り手は広告効果を向上させるためにキーフレーズに入札する必要があり、これらのキーフレーズは無関連な商品が検索システムを汚染し、売り手の満足度を損なわないよう関連性を持つ必要があります。否定的フィードバック収集の困難さから、本論文は人間の判断のスケーラブルな代理としてLLMを使用することを提案しています。大規模電子商取引プラットフォーム上での実装では、知識蒸留フレームワークを採用しています:LLM教師モデル → クロスエンコーダー助手 → デュアルエンコーダーEBR学生モデル。これはキーフレーズ推奨におけるクリック偏差の問題を緩和することを目的としています。
電子商取引広告システムにおいて、売り手に対して広告入札用の関連キーフレーズ(買い手のクエリ用語)を推奨します。主な課題は以下の通りです:
クリックデータの信頼性の問題 :高いクリック/売上は関連性を示唆しますが、クリックがないことは無関連性を意味しませんMNAR偏差 (Missing Not At Random):人気のない商品は低いランキングで、より少ない露出とクリックを受けます仲介者偏差 (Middleman Bias):訓練データは検索関連性フィルターを通過したキーフレーズのみを含むため、サンプル選択偏差が生じますキーフレーズの関連性は売り手の戦略と検索システムの品質に直接影響します 無関連な推奨は売り手の満足度低下、リソースの浪費、広告効果への悪影響をもたらします 売り手、広告システム、検索システムの三者の判断基準を同時に満たす必要があります CTRのみに基づく訓練 :訓練データの人気度と露出偏差を複製しやすい信頼できない負のサンプル :クリックログの負のサンプルは無関連性を真実に反映できません人工アノテーションの困難さ :コストが高く、規模が限定的で、モダリティ偏差が存在します(アノテーターは画像を見ることができますがモデルはできません)LLMの世界知識と判断能力を人間の判断の代理として活用し、マルチタスク学習と知識蒸留フレームワークを通じて、CTR、検索関連性、LLM信号を組み合わせて、効率的なデュアルエンコーダー検索モデルを訓練します。
Teacher-Assistant-Student蒸留フレームワークの提案 :LLM教師 → クロスエンコーダー助手 → デュアルエンコーダー学生の3段階アーキテクチャマルチシグナル融合訓練戦略 :CTR、検索関連性(SR)、LLMラベルのマルチタスク学習パラダイムの統合体系的な損失関数比較研究 :8種類の知識蒸留損失関数を評価し、ピアソン相関損失が最適であることを発見本番環境評価プロトコル :実際の広告オークションシナリオをシミュレートするオフライン評価方法の提案顕著なビジネスインパクト :A/Bテストで総商品購入額(GMB)が51.26%向上、広告支出対効果(ROAS)が38.69%向上、キーフレーズ採用率が11.75%向上入力 :商品タイトル(item title)+ カテゴリー(category)と買い手のクエリ用語(keyphrase)出力 :関連性判定(二値分類または連続類似度スコア)目標 :各商品について広告入札用の上位Kの最も関連性の高いキーフレーズを検索制約 :低遅延(本番環境に適した)、高精度(複数の判断基準に対応)が必要
CTRラベル (10,702,747件):
過去30日間のクリック・露出比を計算 CTR > 0.05を正のサンプルとしてマーク 正のサンプルは信頼できるが、負のサンプルは信頼できません(MNR損失のみに使用) 検索関連性(SR)ラベル (18,721,682件):
オークションプロセスから3ヶ月間のSRモデルスコアを収集 ビジネス閾値を超えるものを正のサンプルとしてマーク 仲介者偏差とサンプル選択偏差がありません LLMラベル (訓練セット50,078,315件、テストセット3,524,414件):
Mixtral 8X7B Instruct-v0.1を使用して生成 クリックデータとの一致率90% プロンプト設計: Given an item with title: "{title}",
determine whether the keyphrase: "{keyphrase}",
is relevant for cpc targeting or not by giving
ONLY yes or no answer
基本モデル :microBERT(eBERTの蒸留版)
eBERTより4.3倍小さく、5.5倍高速 eBay商品データで事前訓練 入力形式 :
query [SEP] category name [SEP] item title
訓練 :
50M LLMラベルに対してクロスエントロピー損失で微調整 テストセットF1=96%(750万サンプル) 役割 :中間助手モデルとして機能し、蒸留用のソフトラベルを提供
基本モデル :microBERTデュアルタワーアーキテクチャ
入力処理 :
商品タワー:item title [SEP] category name キーフレーズタワー:buyer query 独立にエンコード後、コサイン類似度を計算 出力次元の最適化 :
Matryoshka損失を使用して埋め込みを64次元に切り詰め(ANN遅延を削減) 核心的な考え方 :各バッチは1つのデータセットのサンプルのみを含み、データセット規模に比例してサンプリング
損失関数の組み合わせ :
データソース 損失関数 理由 CTRラベル MNR損失 信頼できる正のサンプルのみ、負のサンプルはIRNSで生成 SRラベル コントラスティブ損失 明確な正負のサンプル LLMラベル コントラスティブ損失 明確な正負のサンプル クロスエンコーダー蒸留 ピアソン相関損失 ランキング順序の対齢
LLMからデュアルエンコーダーへの直接蒸留は効果が低い(F1=0.66 vs 0.88) クロスエンコーダーを中間ブリッジとして使用:
デュアルエンコーダーより学習能力が高い(共同エンコード可能) LLMより効率的(大規模なソフトラベル生成可能) 知識の段階的転移を実現 LLM+CTR+KDモデルの性能が最適:
- 中央値キーフレーズ数:12
- LLM通過率:71%
- 検索通過率:>99%
設計原理 :
CTRは真実のインタラクション信号を提供(信頼できる正のサンプル) LLMは不偏の判定を提供(未露出サンプルをカバー) SRは検索システムの受け入れを確保 クロスエンコーダーは細粒度のランキング信号を提供 実験比較(表1):
KD損失 F1 適合率 再現率 ρ (ピアソン相関) MSE 0.81 0.77 0.86 0.78 CoSENT 0.87 0.86 0.88 0.82 ピアソン 0.88 0.87 0.88 0.87 MSEmar 0.86 0.84 0.88 0.80 KL-Div 0.85 0.83 0.88 0.66
理由分析 :
MSEはポイント単位の損失で、ランキング関係をキャプチャできません CoSENTはペアワイズランキング損失で、キャリブレーション能力があります ピアソンはバッチランキング損失で、全体的な線形相関性を最適化します クロスエンコーダーとのピアソン相関係数が最も高い(0.87) プラットフォーム規模 :23億商品訓練セット :
CTR: 1070万件 SR: 1872万件 LLM: 5000万件(訓練)+ 352万件(テスト) 評価セット :10,000サンプル(各モデル)A/Bテスト :米国市場12日間オフライン指標 :
F1、適合率、再現率 :分類性能ρ (ピアソン相関) :クロスエンコーダーとの対齢度KP(キーフレーズ数) :関連性フィルター後の中央値キーフレーズ数PR(通過率) :異なるランキング位置でのLLM/SR通過率オンライン指標 :
GMB(総商品購入額) :売上高ROAS(広告支出対効果) :広告投資収益率採用率 :売り手が実際に使用するキーフレーズ数CTR-only :CTRのみで訓練したベースラインLLM :LLMラベルのみ+コントラスティブ損失LLM+KD :LLMラベル+クロスエンコーダー蒸留LLM+SR+KD :LLM+SRラベル+蒸留LLM+CTR+KD :最適な組み合わせLLM+SR+CTR+KD :全シグナル組み合わせ基本モデル :microBERT(選択理由は表3参照)訓練フレームワーク :PyTorch + Transformersバッチサンプリング :データセット規模に比例本番環境デプロイ :
バッチ推論:PySpark(1500 executors) NRT推論:Triton + ONNX(V100 GPU) 日次増分遅延:35分(2000万商品) ANN検索:追加2.5時間 表2:ラベル消融実験
モデル KP PR Pass@5 Pass@10 Pass@15 Pass@20 LLM+CTR+KD 12.0 71 68 60 55 52 LLM+SR+CTR+KD 11.0 70 67 59 54 51 LLM+SR+KD 12.0 51 47 42 41 39 LLM+KD 11.0 49 36 35 33 32 LLM 11.0 61 45 41 38 35 CTR 7 60 51 42 37 34
主要な発見 :
LLM+CTR+KDが最適 :効率性(KP=12)と品質(PR=71%)の最適なバランスを達成CTR-onlyの効率が低い :わずか7個のキーフレーズで、カバレッジが制限されます蒸留による顕著な改善 :LLM → LLM+KD(PR: 61% → 49%ですが、Pass@5は改善)SR信号の役割 :検索通過率を>99%に向上ピアソン損失が最適 :F1=0.88, ρ=0.87CoSENTが次点 :F1=0.87, ρ=0.82MSEが失敗 :CUPIDの論文の発見を検証直接蒸留(LLM→BE)の効果が低い :コントラスティブF1=0.83、ソフトマックスF1=0.66基本モデル 再現率 適合率 F1 eBERT 0.92 0.81 0.86 microBERT 0.92 0.78 0.85 ModernBERT 0.91 0.76 0.83
microBERT選択の理由 :
eBERTに近い性能(F1は0.01のみ差) 推論速度が30%高速 プラットフォームデータで事前訓練(ModernBERTは事前訓練なし) CTR (F1=0.66)
→ CTR+LLM (F1=0.83)
→ LLM+CTR+KD (F1=0.88)
各コンポーネントが増加をもたらします
テスト設定 :米国市場、12日間、CTR-only EBRモデルを置き換え
ビジネス指標の向上 :
GMB +51.26% (p=0.01) - 売上高が大幅に増加ROAS +38.69% (p=0.02) - 投資収益率が大幅に向上採用率 +11.75% (p=0.03) - 売り手がより推奨を使用する意思意義 :オフライン指標の改善が実際のビジネス価値に転換されることを証明
肯定的なケース (LLMとモデルが一致):
商品:"Genuine 15V 4A Power AC Adapter Laptop Charger For Surface Pro 3 4 5 6" キーフレーズ:"microsoft surface charger" 判定:関連 ✓ 否定的なケース (微調整LLMの失敗):
商品:"iPhone 11 64GB 128G Unlocked..." キーフレーズ:"yellow iphone"(画像は黄色を表示) 汎用LLM:無関連(テキストのみに基づく) 微調整LLM:関連(人工アノテーションのモダリティ偏差の影響) 汎用LLMが微調整LLMより優れている :汎用LLM:68%のキーフレーズを削減、売上+10% 微調整LLM:75%のキーフレーズを保持、売上-20% 理由:人工アノテーションにモダリティ偏差が存在 Teacher-Assistantの必要性 :クロスエンコーダーはより良いキャリブレーション性を持つ 大規模データを処理してソフトラベルを生成できる マルチシグナルの相補性 :CTR:信頼できる正のサンプル LLM:ロングテールをカバー SR:検索システムとの対齢 3つのいずれかが欠けることはできません デュアルエンコーダー vs クロスエンコーダー :
デュアルエンコーダー:独立エンコード、ANN対応、低遅延 クロスエンコーダー:共同エンコード、高性能、高遅延 本論文の貢献 :蒸留を通じて両者の利点を組み合わせMNAR偏差 :Chen et al. (2023)仲介者偏差 :Dey et al. (2025b) - 本論文著者の先行研究本論文のソリューション :LLMとSR信号でクリックデータを補完TwinBERT (Lu et al., 2020):クロス→デュアルタワーBERTERNIE-search (Lu et al., 2022):Teacher-AssistantアーキテクチャPROD (Lin et al., 2023):段階的蒸留D2LLM (Liao et al., 2024):LLM蒸留用ピアソン損失本論文の貢献 :マルチタスク学習とTeacher-Assistantアーキテクチャの組み合わせGPT-4評価 :Zheng et al. (2023) - MT-Bench検索シーンでの応用 :Wang et al. (2024) - Pinterest本論文の貢献 :
大規模応用(5000万ラベル) 汎用LLM vs 微調整LLMの体系的評価 モダリティ偏差の問題を発見 LLM信号はクリック偏差を効果的に緩和 :広告キーフレーズ推奨シナリオでは、LLMが生成したラベルはCTRのみを使用するより大幅に優れていますTeacher-Assistantアーキテクチャは直接蒸留より優れている :クロスエンコーダーを中間ブリッジとして使用することが重要ですピアソン損失はランキング蒸留に最も適している :バッチランキング損失はポイント単位および成対損失より優れていますマルチシグナル融合は相乗効果を生成 :CTR+LLM+KD組み合わせが最高のビジネス効果を達成汎用LLMが微調整LLMより優れている :モダリティ偏差が存在する人工アノテーションデータ上で領域特異性 :研究は電子商取引広告シナリオに限定 方法の転移可能性は検証が必要 人工アノテーション品質の問題 :アノテーターは画像を見ることができますがモデルはできません(モダリティ偏差) ラベルの粒度が細かすぎます(excellent/good/fair/bad) サンプル数が23億商品をカバーするのに不十分 負のサンプル採掘戦略が単純 :CTRデータはIRNS(バッチ内ランダム負サンプリング)のみを使用 ANCE、N-Gameなどの高度な方法は探索されていません 将来の研究に残されています LLM選択の制限 :Mixtral 8X7B(オープンソース、中規模)を使用 より大きなモデル(GPT-4)はAPI制限の対象 LLMは微調整されていません(人工データの品質問題のため) 評価の限界 :オフライン評価はLLMラベルテストセットのみ A/Bテストは米国市場のみ 長期効果は評価されていません より良い人工判定データの収集 :入力モダリティの統一(テキストのみまたはマルチモーダル) ラベルの簡素化(二値分類) サンプルサイズの拡大 高度な負のサンプル採掘 :ANCE、N-Gameなどの方法を探索 計算コストと効果のバランス マルチモーダル拡張 :画像情報をモデルに組み込む モダリティ偏差の問題を解決 微調整LLMの探索 :クロスドメイン転移 :他の電子商取引プラットフォームでの方法検証 非広告シナリオへの拡張 Teacher-Assistant-Student3段階アーキテクチャ :LLM、クロスエンコーダー、デュアルエンコーダーを革新的に組み合わせマルチタスク混合訓練 :3つの異種信号源を巧妙に融合体系的な損失関数研究 :8種類のKD損失を比較し、明確なガイダンスを提供大規模実データ :5000万LLMラベル、23億商品包括的な消融実験 :ラベル、損失、基本モデル、アーキテクチャオンライン検証 :A/Bテストでビジネス価値を証明詳細な付録 :LLM評価、損失関数の数学的導出、システムアーキテクチャ顕著なビジネス向上 :GMB +51%, ROAS +39%本番環境デプロイの詳細 :完全なシステムアーキテクチャと遅延分析再現性が強い :オープンソースモデル(Mixtral)、明確な方法説明モダリティ偏差の発見 :人工アノテーションの隠れた問題を明らかに汎用LLMの利点 :「微調整は常に優れている」という従来の認識に異議仲介者偏差 :新しい偏差タイプを提案し、解決策を提供構造が明確で論理が厳密 図表が豊富(オークションメカニズム図、アーキテクチャ図、本番システム図) 数学公式が完全(付録8.3で詳細な導出) 計算コストが定量化されていない :5000万LLMラベル生成のGPU時間/コストが報告されていませんハイパーパラメータの感度 :学習率、バッチサイズ、温度パラメータなどの影響が分析されていませんLLM選択の制限 :Mixtral 8X7Bは最適ではありませんが、オープンソースとコストの制限があります単一テストセット評価 :オフライン実験はLLMラベルテストセットのみで、SR/CTRテストセットでは検証されていませんA/Bテスト期間が短い :12日間は売り手の疲労などの長期効果を観察するのに不十分な可能性があります地域的限定 :米国市場のみで、他の国での効果は不明です失敗ケース分析が少ない :モダリティ偏差の例が1つのみランキング品質が評価されていない :NDCG、MRRなどのランキング指標がありません多様性が定量化されていない :uniquenessとdiversityについて言及されていますが、具体的な指標がありませんプラットフォームが匿名化 :eBay固有のeBERT/microBERTを取得できませんデータが非公開 :商業データは共有できません完全なコードが公開されていない :方法のみが説明されていますピアソンが最適な理由 :理論的説明がなく、実験検証のみですTeacher-Assistant増加の源 :各段階の貢献が定量化されていませんマルチタスク学習理論 :タスク間の干渉/協調が分析されていません広告システム偏差 :仲介者偏差を体系的に説明し、解決パラダイムを提供知識蒸留 :検索タスクでのTeacher-Assistantアーキテクチャの有効性を検証LLM応用 :大規模LLMラベル生成の成功事例(5000万)工業実践 :完全な本番システム設計の参考引用の可能性が高い :実際の問題を解決し、方法は転移可能後続研究の方向 :マルチモーダルLLM、より良い人工アノテーションプロトコルベンチマーク的役割 :ピアソン損失が蒸留の標準になる可能性直接的なビジネス価値 :GMB +51%はeBayにとって重要再現性が強い :他の電子商取引プラットフォームが参考にできます(Amazon、Alibaba)費用対効果が顕著 :LLMラベルが大規模人工アノテーションを置き換え電子商取引広告推奨 :キーフレーズ、商品推奨検索関連性 :クエリ-ドキュメントマッチング情報検索 :複数の判定基準を対齢する必要があるシーン偏差緩和 :クリック/露出偏差が存在する推奨システム他の推奨シーン :信号源の調整が必要(ビデオ推奨など)クロスランゲージ検索 :多言語LLMと事前訓練モデルが必要リアルタイムシステム :NRT推論遅延の最適化が必要小規模データ :方法は大量のデータが必要(百万級)偏差がないシーン :クリックデータが信頼できる場合、方法の増加は限定的純粋な探索タスク :関連性ではなく多様性が必要なシーン本論文の研究を再現したい場合 :
LLMの置き換え :Llama 3.1 70BまたはQwen 2.5 72Bを使用基本モデルの置き換え :公開のsentence-transformersモデルを使用簡略版 :LLM+CTR+ピアソン損失を先に検証(SRデータ不要)評価プロトコル :付録8.2のオフライン評価フローを参考開始規模 :百万級データから開始し、段階的に拡張D2LLM (Liao et al., 2024): LLM→デュアルエンコーダー蒸留にピアソン損失を初めて提案CUPID (Bhattacharya et al., 2023): MSE損失がクロス→デュアルエンコーダー蒸留に不適切であることを証明ERNIE-search (Lu et al., 2022): Teacher-Assistantアーキテクチャの初期探索Middleman Bias (Dey et al., 2025b): 本論文著者が提案した仲介者偏差理論Chen et al. (2023) : 推奨システム偏差の総説Joachims et al. (2017) : 偏差フィードバックに基づく不偏学習Zheng et al. (2023) : MT-BenchとLLM-as-a-judgeGu et al. (2025) : LLMを判定者として使用することの総説総合評価 : ⭐⭐⭐⭐⭐ (5/5)
これは優れた工業応用論文 です。実際の大規模シナリオでLLM支援訓練の有効性を検証し、理論から実践までの完全なソリューションを提供しています。理論分析の不足や単一市場テストなどの限界がありますが、実用的価値、方法の革新性、実験の充分性はすべてトップレベルです。特に注目すべきは、汎用LLM vs 微調整LLMの深い分析で、人工アノテーションのモダリティ偏差問題を明らかにし、領域に重要な警告を提供しています。