2025-11-26T01:46:17.989246

LLMDistill4Ads: Using Cross-Encoders to Distill from LLM Signals for Advertiser Keyphrase Recommendations

Dey, Braun, Ravipati et al.

E-commerce sellers are advised to bid on keyphrases to boost their advertising campaigns. These keyphrases must be relevant to prevent irrelevant items from cluttering search systems and to maintain positive seller perception. It is vital that keyphrase suggestions align with seller, search and buyer judgments. Given the challenges in collecting negative feedback in these systems, LLMs have been used as a scalable proxy to human judgments. This paper presents an empirical study on a major ecommerce platform of a distillation framework involving an LLM teacher, a cross-encoder assistant and a bi-encoder Embedding Based Retrieval (EBR) student model, aimed at mitigating click-induced biases in keyphrase recommendations.

academic

LLMDistill4Ads: 広告主キーフレーズ推奨のためのクロスエンコーダーを用いたLLM信号の蒸留

基本情報

論文ID: 2508.03628
タイトル: LLMDistill4Ads: Using Cross-Encoders to Distill from LLM Signals for Advertiser Keyphrase Recommendations
著者: Soumik Dey, Benjamin Braun, Naveen Ravipati, Hansi Wu, Binbin Li (eBay Inc)
分類: cs.IR (情報検索), cs.AI, cs.LG
発表日時: arXiv v5, 2025年11月20日
論文リンク: https://arxiv.org/abs/2508.03628v5

摘要

電子商取引の売り手は広告効果を向上させるためにキーフレーズに入札する必要があり、これらのキーフレーズは無関連な商品が検索システムを汚染し、売り手の満足度を損なわないよう関連性を持つ必要があります。否定的フィードバック収集の困難さから、本論文は人間の判断のスケーラブルな代理としてLLMを使用することを提案しています。大規模電子商取引プラットフォーム上での実装では、知識蒸留フレームワークを採用しています：LLM教師モデル → クロスエンコーダー助手 → デュアルエンコーダーEBR学生モデル。これはキーフレーズ推奨におけるクリック偏差の問題を緩和することを目的としています。

研究背景と動機

1. 核心的な問題

電子商取引広告システムにおいて、売り手に対して広告入札用の関連キーフレーズ（買い手のクエリ用語）を推奨します。主な課題は以下の通りです：

クリックデータの信頼性の問題：高いクリック/売上は関連性を示唆しますが、クリックがないことは無関連性を意味しません
MNAR偏差（Missing Not At Random）：人気のない商品は低いランキングで、より少ない露出とクリックを受けます
仲介者偏差（Middleman Bias）：訓練データは検索関連性フィルターを通過したキーフレーズのみを含むため、サンプル選択偏差が生じます

2. 問題の重要性

キーフレーズの関連性は売り手の戦略と検索システムの品質に直接影響します
無関連な推奨は売り手の満足度低下、リソースの浪費、広告効果への悪影響をもたらします
売り手、広告システム、検索システムの三者の判断基準を同時に満たす必要があります

3. 既存手法の限界

CTRのみに基づく訓練：訓練データの人気度と露出偏差を複製しやすい
信頼できない負のサンプル：クリックログの負のサンプルは無関連性を真実に反映できません
人工アノテーションの困難さ：コストが高く、規模が限定的で、モダリティ偏差が存在します（アノテーターは画像を見ることができますがモデルはできません）

4. 研究の動機

LLMの世界知識と判断能力を人間の判断の代理として活用し、マルチタスク学習と知識蒸留フレームワークを通じて、CTR、検索関連性、LLM信号を組み合わせて、効率的なデュアルエンコーダー検索モデルを訓練します。

核心的な貢献

Teacher-Assistant-Student蒸留フレームワークの提案：LLM教師 → クロスエンコーダー助手 → デュアルエンコーダー学生の3段階アーキテクチャ
マルチシグナル融合訓練戦略：CTR、検索関連性（SR）、LLMラベルのマルチタスク学習パラダイムの統合
体系的な損失関数比較研究：8種類の知識蒸留損失関数を評価し、ピアソン相関損失が最適であることを発見
本番環境評価プロトコル：実際の広告オークションシナリオをシミュレートするオフライン評価方法の提案
顕著なビジネスインパクト：A/Bテストで総商品購入額（GMB）が51.26%向上、広告支出対効果（ROAS）が38.69%向上、キーフレーズ採用率が11.75%向上

方法の詳細説明

タスク定義

入力：商品タイトル（item title）+ カテゴリー（category）と買い手のクエリ用語（keyphrase）
出力：関連性判定（二値分類または連続類似度スコア）
目標：各商品について広告入札用の上位Kの最も関連性の高いキーフレーズを検索
制約：低遅延（本番環境に適した）、高精度（複数の判断基準に対応）が必要

モデルアーキテクチャ

1. データセット構築（3種類のラベルソース）

CTRラベル（10,702,747件）：

過去30日間のクリック・露出比を計算
CTR > 0.05を正のサンプルとしてマーク
正のサンプルは信頼できるが、負のサンプルは信頼できません（MNR損失のみに使用）

検索関連性（SR）ラベル（18,721,682件）：

オークションプロセスから3ヶ月間のSRモデルスコアを収集
ビジネス閾値を超えるものを正のサンプルとしてマーク
仲介者偏差とサンプル選択偏差がありません

LLMラベル（訓練セット50,078,315件、テストセット3,524,414件）：

Mixtral 8X7B Instruct-v0.1を使用して生成
クリックデータとの一致率90%
プロンプト設計：

Given an item with title: "{title}", 
determine whether the keyphrase: "{keyphrase}", 
is relevant for cpc targeting or not by giving 
ONLY yes or no answer

2. クロスエンコーダー（助手）

基本モデル：microBERT（eBERTの蒸留版）

eBERTより4.3倍小さく、5.5倍高速
eBay商品データで事前訓練

入力形式：

query [SEP] category name [SEP] item title

訓練：

50M LLMラベルに対してクロスエントロピー損失で微調整
テストセットF1=96%（750万サンプル）

役割：中間助手モデルとして機能し、蒸留用のソフトラベルを提供

3. デュアルエンコーダー（学生）

基本モデル：microBERTデュアルタワーアーキテクチャ

入力処理：

商品タワー：item title [SEP] category name
キーフレーズタワー：buyer query
独立にエンコード後、コサイン類似度を計算

出力次元の最適化：

Matryoshka損失を使用して埋め込みを64次元に切り詰め（ANN遅延を削減）

4. マルチタスク訓練パラダイム

核心的な考え方：各バッチは1つのデータセットのサンプルのみを含み、データセット規模に比例してサンプリング

損失関数の組み合わせ：

データソース	損失関数	理由
CTRラベル	MNR損失	信頼できる正のサンプルのみ、負のサンプルはIRNSで生成
SRラベル	コントラスティブ損失	明確な正負のサンプル
LLMラベル	コントラスティブ損失	明確な正負のサンプル
クロスエンコーダー蒸留	ピアソン相関損失	ランキング順序の対齢

技術的な革新点

1. Teacher-Assistant アーキテクチャの必要性

LLMからデュアルエンコーダーへの直接蒸留は効果が低い（F1=0.66 vs 0.88）
クロスエンコーダーを中間ブリッジとして使用：
- デュアルエンコーダーより学習能力が高い（共同エンコード可能）
- LLMより効率的（大規模なソフトラベル生成可能）
- 知識の段階的転移を実現

2. マルチシグナル融合の合理性

LLM+CTR+KDモデルの性能が最適：
- 中央値キーフレーズ数：12
- LLM通過率：71%
- 検索通過率：>99%

設計原理：

CTRは真実のインタラクション信号を提供（信頼できる正のサンプル）
LLMは不偏の判定を提供（未露出サンプルをカバー）
SRは検索システムの受け入れを確保
クロスエンコーダーは細粒度のランキング信号を提供

3. ピアソン損失の優越性

実験比較（表1）：

KD損失	F1	適合率	再現率	ρ (ピアソン相関)
MSE	0.81	0.77	0.86	0.78
CoSENT	0.87	0.86	0.88	0.82
ピアソン	0.88	0.87	0.88	0.87
MSEmar	0.86	0.84	0.88	0.80
KL-Div	0.85	0.83	0.88	0.66

理由分析：

MSEはポイント単位の損失で、ランキング関係をキャプチャできません
CoSENTはペアワイズランキング損失で、キャリブレーション能力があります
ピアソンはバッチランキング損失で、全体的な線形相関性を最適化します
クロスエンコーダーとのピアソン相関係数が最も高い（0.87）

実験設定

データセット

プラットフォーム規模：23億商品
訓練セット：
- CTR: 1070万件
- SR: 1872万件
- LLM: 5000万件（訓練）+ 352万件（テスト）
評価セット：10,000サンプル（各モデル）
A/Bテスト：米国市場12日間

評価指標

オフライン指標：

F1、適合率、再現率：分類性能
ρ (ピアソン相関)：クロスエンコーダーとの対齢度
KP（キーフレーズ数）：関連性フィルター後の中央値キーフレーズ数
PR（通過率）：異なるランキング位置でのLLM/SR通過率

オンライン指標：

GMB（総商品購入額）：売上高
ROAS（広告支出対効果）：広告投資収益率
採用率：売り手が実際に使用するキーフレーズ数

比較手法

CTR-only：CTRのみで訓練したベースライン
LLM：LLMラベルのみ+コントラスティブ損失
LLM+KD：LLMラベル+クロスエンコーダー蒸留
LLM+SR+KD：LLM+SRラベル+蒸留
LLM+CTR+KD：最適な組み合わせ
LLM+SR+CTR+KD：全シグナル組み合わせ

実装の詳細

基本モデル：microBERT（選択理由は表3参照）
訓練フレームワーク：PyTorch + Transformers
バッチサンプリング：データセット規模に比例
本番環境デプロイ：
- バッチ推論：PySpark（1500 executors）
- NRT推論：Triton + ONNX（V100 GPU）
- 日次増分遅延：35分（2000万商品）
- ANN検索：追加2.5時間

実験結果

主要な結果

表2：ラベル消融実験

モデル	KP	PR	Pass@5	Pass@10	Pass@15	Pass@20
LLM+CTR+KD	12.0	71	68	60	55	52
LLM+SR+CTR+KD	11.0	70	67	59	54	51
LLM+SR+KD	12.0	51	47	42	41	39
LLM+KD	11.0	49	36	35	33	32
LLM	11.0	61	45	41	38	35
CTR	7	60	51	42	37	34

主要な発見：

LLM+CTR+KDが最適：効率性（KP=12）と品質（PR=71%）の最適なバランスを達成
CTR-onlyの効率が低い：わずか7個のキーフレーズで、カバレッジが制限されます
蒸留による顕著な改善：LLM → LLM+KD（PR: 61% → 49%ですが、Pass@5は改善）
SR信号の役割：検索通過率を>99%に向上

消融実験

1. 知識蒸留損失の比較（表1）

ピアソン損失が最適：F1=0.88, ρ=0.87
CoSENTが次点：F1=0.87, ρ=0.82
MSEが失敗：CUPIDの論文の発見を検証
直接蒸留（LLM→BE）の効果が低い：コントラスティブF1=0.83、ソフトマックスF1=0.66

2. 基本モデルの選択（表3）

基本モデル	再現率	適合率	F1
eBERT	0.92	0.81	0.86
microBERT	0.92	0.78	0.85
ModernBERT	0.91	0.76	0.83

microBERT選択の理由：

eBERTに近い性能（F1は0.01のみ差）
推論速度が30%高速
プラットフォームデータで事前訓練（ModernBERTは事前訓練なし）

3. マルチタスクフレームワークの段階的構築

CTR (F1=0.66) 
→ CTR+LLM (F1=0.83) 
→ LLM+CTR+KD (F1=0.88)

各コンポーネントが増加をもたらします

A/Bテスト結果（オンライン検証）

テスト設定：米国市場、12日間、CTR-only EBRモデルを置き換え

ビジネス指標の向上：

GMB +51.26% (p=0.01) - 売上高が大幅に増加
ROAS +38.69% (p=0.02) - 投資収益率が大幅に向上
採用率 +11.75% (p=0.03) - 売り手がより推奨を使用する意思

意義：オフライン指標の改善が実際のビジネス価値に転換されることを証明

ケース分析

肯定的なケース（LLMとモデルが一致）：

商品："Genuine 15V 4A Power AC Adapter Laptop Charger For Surface Pro 3 4 5 6"
キーフレーズ："microsoft surface charger"
判定：関連 ✓

否定的なケース（微調整LLMの失敗）：

商品："iPhone 11 64GB 128G Unlocked..."
キーフレーズ："yellow iphone"（画像は黄色を表示）
汎用LLM：無関連（テキストのみに基づく）
微調整LLM：関連（人工アノテーションのモダリティ偏差の影響）

実験の発見

汎用LLMが微調整LLMより優れている：
- 汎用LLM：68%のキーフレーズを削減、売上+10%
- 微調整LLM：75%のキーフレーズを保持、売上-20%
- 理由：人工アノテーションにモダリティ偏差が存在
Teacher-Assistantの必要性：
- クロスエンコーダーはより良いキャリブレーション性を持つ
- 大規模データを処理してソフトラベルを生成できる
マルチシグナルの相補性：
- CTR：信頼できる正のサンプル
- LLM：ロングテールをカバー
- SR：検索システムとの対齢
- 3つのいずれかが欠けることはできません

結論と議論

主要な結論

LLM信号はクリック偏差を効果的に緩和：広告キーフレーズ推奨シナリオでは、LLMが生成したラベルはCTRのみを使用するより大幅に優れています
Teacher-Assistantアーキテクチャは直接蒸留より優れている：クロスエンコーダーを中間ブリッジとして使用することが重要です
ピアソン損失はランキング蒸留に最も適している：バッチランキング損失はポイント単位および成対損失より優れています
マルチシグナル融合は相乗効果を生成：CTR+LLM+KD組み合わせが最高のビジネス効果を達成
汎用LLMが微調整LLMより優れている：モダリティ偏差が存在する人工アノテーションデータ上で

限界

領域特異性：
- 研究は電子商取引広告シナリオに限定
- 方法の転移可能性は検証が必要
人工アノテーション品質の問題：
- アノテーターは画像を見ることができますがモデルはできません（モダリティ偏差）
- ラベルの粒度が細かすぎます（excellent/good/fair/bad）
- サンプル数が23億商品をカバーするのに不十分
負のサンプル採掘戦略が単純：
- CTRデータはIRNS（バッチ内ランダム負サンプリング）のみを使用
- ANCE、N-Gameなどの高度な方法は探索されていません
- 将来の研究に残されています
LLM選択の制限：
- Mixtral 8X7B（オープンソース、中規模）を使用
- より大きなモデル（GPT-4）はAPI制限の対象
- LLMは微調整されていません（人工データの品質問題のため）
評価の限界：
- オフライン評価はLLMラベルテストセットのみ
- A/Bテストは米国市場のみ
- 長期効果は評価されていません

将来の方向

より良い人工判定データの収集：
- 入力モダリティの統一（テキストのみまたはマルチモーダル）
- ラベルの簡素化（二値分類）
- サンプルサイズの拡大
高度な負のサンプル採掘：
- ANCE、N-Gameなどの方法を探索
- 計算コストと効果のバランス
マルチモーダル拡張：
- 画像情報をモデルに組み込む
- モダリティ偏差の問題を解決
微調整LLMの探索：
- 高品質データで微調整
- さらなる効果改善の可能性
クロスドメイン転移：
- 他の電子商取引プラットフォームでの方法検証
- 非広告シナリオへの拡張

深い評価

利点

1. 方法の革新性 ⭐⭐⭐⭐⭐

Teacher-Assistant-Student3段階アーキテクチャ：LLM、クロスエンコーダー、デュアルエンコーダーを革新的に組み合わせ
マルチタスク混合訓練：3つの異種信号源を巧妙に融合
体系的な損失関数研究：8種類のKD損失を比較し、明確なガイダンスを提供

2. 実験の充分性 ⭐⭐⭐⭐⭐

大規模実データ：5000万LLMラベル、23億商品
包括的な消融実験：ラベル、損失、基本モデル、アーキテクチャ
オンライン検証：A/Bテストでビジネス価値を証明
詳細な付録：LLM評価、損失関数の数学的導出、システムアーキテクチャ

3. 実用的価値 ⭐⭐⭐⭐⭐

顕著なビジネス向上：GMB +51%, ROAS +39%
本番環境デプロイの詳細：完全なシステムアーキテクチャと遅延分析
再現性が強い：オープンソースモデル（Mixtral）、明確な方法説明

4. 洞察の深さ ⭐⭐⭐⭐

モダリティ偏差の発見：人工アノテーションの隠れた問題を明らかに
汎用LLMの利点：「微調整は常に優れている」という従来の認識に異議
仲介者偏差：新しい偏差タイプを提案し、解決策を提供

5. 執筆品質 ⭐⭐⭐⭐

構造が明確で論理が厳密
図表が豊富（オークションメカニズム図、アーキテクチャ図、本番システム図）
数学公式が完全（付録8.3で詳細な導出）

不足

1. 方法の限界

計算コストが定量化されていない：5000万LLMラベル生成のGPU時間/コストが報告されていません
ハイパーパラメータの感度：学習率、バッチサイズ、温度パラメータなどの影響が分析されていません
LLM選択の制限：Mixtral 8X7Bは最適ではありませんが、オープンソースとコストの制限があります

2. 実験設定の欠陥

単一テストセット評価：オフライン実験はLLMラベルテストセットのみで、SR/CTRテストセットでは検証されていません
A/Bテスト期間が短い：12日間は売り手の疲労などの長期効果を観察するのに不十分な可能性があります
地域的限定：米国市場のみで、他の国での効果は不明です

3. 分析の不足

失敗ケース分析が少ない：モダリティ偏差の例が1つのみ
ランキング品質が評価されていない：NDCG、MRRなどのランキング指標がありません
多様性が定量化されていない：uniquenessとdiversityについて言及されていますが、具体的な指標がありません

4. 再現性の問題

プラットフォームが匿名化：eBay固有のeBERT/microBERTを取得できません
データが非公開：商業データは共有できません
完全なコードが公開されていない：方法のみが説明されています

5. 理論分析の欠落

ピアソンが最適な理由：理論的説明がなく、実験検証のみです
Teacher-Assistant増加の源：各段階の貢献が定量化されていません
マルチタスク学習理論：タスク間の干渉/協調が分析されていません

影響力評価

領域への貢献 ⭐⭐⭐⭐⭐

広告システム偏差：仲介者偏差を体系的に説明し、解決パラダイムを提供
知識蒸留：検索タスクでのTeacher-Assistantアーキテクチャの有効性を検証
LLM応用：大規模LLMラベル生成の成功事例（5000万）
工業実践：完全な本番システム設計の参考

学術的影響

引用の可能性が高い：実際の問題を解決し、方法は転移可能
後続研究の方向：マルチモーダルLLM、より良い人工アノテーションプロトコル
ベンチマーク的役割：ピアソン損失が蒸留の標準になる可能性

工業的影響

直接的なビジネス価値：GMB +51%はeBayにとって重要
再現性が強い：他の電子商取引プラットフォームが参考にできます（Amazon、Alibaba）
費用対効果が顕著：LLMラベルが大規模人工アノテーションを置き換え

適用可能なシーン

高度に適用可能 ✅

電子商取引広告推奨：キーフレーズ、商品推奨
検索関連性：クエリ-ドキュメントマッチング
情報検索：複数の判定基準を対齢する必要があるシーン
偏差緩和：クリック/露出偏差が存在する推奨システム

中程度に適用可能 ⚠️

他の推奨シーン：信号源の調整が必要（ビデオ推奨など）
クロスランゲージ検索：多言語LLMと事前訓練モデルが必要
リアルタイムシステム：NRT推論遅延の最適化が必要

適用不可 ❌

小規模データ：方法は大量のデータが必要（百万級）
偏差がないシーン：クリックデータが信頼できる場合、方法の増加は限定的
純粋な探索タスク：関連性ではなく多様性が必要なシーン

再現推奨

本論文の研究を再現したい場合：

LLMの置き換え：Llama 3.1 70BまたはQwen 2.5 72Bを使用
基本モデルの置き換え：公開のsentence-transformersモデルを使用
簡略版：LLM+CTR+ピアソン損失を先に検証（SRデータ不要）
評価プロトコル：付録8.2のオフライン評価フローを参考
開始規模：百万級データから開始し、段階的に拡張

参考文献（精選）

核心的な関連研究

D2LLM (Liao et al., 2024): LLM→デュアルエンコーダー蒸留にピアソン損失を初めて提案
CUPID (Bhattacharya et al., 2023): MSE損失がクロス→デュアルエンコーダー蒸留に不適切であることを証明
ERNIE-search (Lu et al., 2022): Teacher-Assistantアーキテクチャの初期探索
Middleman Bias (Dey et al., 2025b): 本論文著者が提案した仲介者偏差理論

偏差と推奨

Chen et al. (2023): 推奨システム偏差の総説
Joachims et al. (2017): 偏差フィードバックに基づく不偏学習

LLM評価

Zheng et al. (2023): MT-BenchとLLM-as-a-judge
Gu et al. (2025): LLMを判定者として使用することの総説

総合評価: ⭐⭐⭐⭐⭐ (5/5)

これは優れた工業応用論文です。実際の大規模シナリオでLLM支援訓練の有効性を検証し、理論から実践までの完全なソリューションを提供しています。理論分析の不足や単一市場テストなどの限界がありますが、実用的価値、方法の革新性、実験の充分性はすべてトップレベルです。特に注目すべきは、汎用LLM vs 微調整LLMの深い分析で、人工アノテーションのモダリティ偏差問題を明らかにし、領域に重要な警告を提供しています。