2025-11-26T01:46:17.989246

LLMDistill4Ads: Using Cross-Encoders to Distill from LLM Signals for Advertiser Keyphrase Recommendations

Dey, Braun, Ravipati et al.

E-commerce sellers are advised to bid on keyphrases to boost their advertising campaigns. These keyphrases must be relevant to prevent irrelevant items from cluttering search systems and to maintain positive seller perception. It is vital that keyphrase suggestions align with seller, search and buyer judgments. Given the challenges in collecting negative feedback in these systems, LLMs have been used as a scalable proxy to human judgments. This paper presents an empirical study on a major ecommerce platform of a distillation framework involving an LLM teacher, a cross-encoder assistant and a bi-encoder Embedding Based Retrieval (EBR) student model, aimed at mitigating click-induced biases in keyphrase recommendations.

academic

LLMDistill4Ads: Использование кросс-энкодеров для дистилляции сигналов LLM в рекомендациях ключевых фраз для рекламодателей

Основная информация

ID статьи: 2508.03628
Название: LLMDistill4Ads: Using Cross-Encoders to Distill from LLM Signals for Advertiser Keyphrase Recommendations
Авторы: Soumik Dey, Benjamin Braun, Naveen Ravipati, Hansi Wu, Binbin Li (eBay Inc)
Классификация: cs.IR (Information Retrieval), cs.AI, cs.LG
Дата публикации: arXiv v5, 20 ноября 2025 г.
Ссылка на статью: https://arxiv.org/abs/2508.03628v5

Аннотация

Продавцы электронной коммерции должны делать ставки на ключевые слова для повышения эффективности рекламы. Эти ключевые слова должны быть релевантными, чтобы предотвратить загрязнение системы поиска нерелевантными товарами и сохранить удовлетворенность продавца. Из-за сложности сбора отрицательной обратной связи в статье предлагается использование LLM в качестве масштабируемого прокси человеческого суждения. Исследование реализует на крупной платформе электронной коммерции фреймворк дистилляции знаний: учитель LLM → помощник кросс-энкодер → студент двойной энкодер EBR, направленный на смягчение проблемы смещения кликов при рекомендации ключевых фраз.

Исследовательский контекст и мотивация

1. Основная проблема

В системах рекламы электронной коммерции необходимо рекомендовать продавцам релевантные ключевые слова (поисковые запросы покупателей) для торговли объявлениями. Основные вызовы включают:

Ненадежность данных кликов: высокие клики/продажи указывают на релевантность, но отсутствие кликов не означает нерелевантность
Смещение MNAR (Missing Not At Random): непопулярные товары имеют низкий рейтинг, получают меньше показов и кликов
Смещение посредника (Middleman Bias): данные обучения содержат только ключевые слова, отфильтрованные фильтром релевантности поиска, что приводит к смещению выборки

2. Важность проблемы

Релевантность ключевых слов напрямую влияет на стратегию продавца и качество системы поиска
Нерелевантные рекомендации снижают удовлетворенность продавца, тратят ресурсы, влияют на эффективность рекламы
Необходимо одновременно удовлетворять критерии трех сторон: продавцов, системы объявлений и системы поиска

3. Ограничения существующих методов

Обучение только на CTR: легко копирует смещения популярности и экспозиции в данных обучения
Ненадежные отрицательные образцы: отрицательные образцы в журналах кликов не отражают истинную нерелевантность
Сложность ручной аннотации: высокие затраты, ограниченный масштаб, модальное смещение (аннотаторы видят изображения, но модель не может)

4. Исследовательская мотивация

Использование мировых знаний LLM и способности суждения в качестве прокси человеческого суждения, посредством многозадачного обучения и фреймворка дистилляции знаний, объединяя сигналы CTR, релевантности поиска и LLM для обучения эффективной модели двойного энкодера для поиска.

Основные вклады

Предложение фреймворка дистилляции Teacher-Assistant-Student: трехуровневая архитектура учитель LLM → помощник кросс-энкодер → студент двойной энкодер
Стратегия обучения с многосигнальным слиянием: парадигма многозадачного обучения, интегрирующая метки CTR, релевантности поиска (SR) и LLM
Систематическое исследование функций потерь дистилляции: оценка 8 функций потерь дистилляции знаний, обнаружение оптимальности потерь корреляции Пирсона
Протокол оценки в производственной среде: предложение метода автономной оценки, моделирующего реальные сценарии аукциона объявлений
Значительное влияние на бизнес: A/B тестирование показывает увеличение GMB на 51,26%, ROAS на 38,69%, принятие ключевых фраз на 11,75%

Подробное описание метода

Определение задачи

Входные данные: название товара (item title) + категория (category) и поисковая фраза покупателя (keyphrase)
Выходные данные: суждение о релевантности (бинарная классификация или оценка непрерывного сходства)
Цель: для каждого товара извлечь Top-K наиболее релевантные ключевые слова для торговли объявлениями
Ограничения: требуется низкая задержка (подходит для производственной среды), высокая точность (согласованность суждений нескольких сторон)

Архитектура модели

1. Построение набора данных (три источника меток)

Метки CTR (10 702 747 записей):

Расчет соотношения кликов к показам за последние 30 дней
CTR > 0,05 отмечается как положительный образец
Положительные образцы надежны, отрицательные образцы ненадежны (используются только для потерь MNR)

Метки релевантности поиска (SR) (18 721 682 записей):

Сбор оценок модели SR за 3 месяца из процесса аукциона
Превышение порога бизнеса отмечается как положительный образец
Отсутствие смещения посредника и смещения выборки

Метки LLM (50 078 315 записей в наборе обучения, 3 524 414 записей в наборе тестирования):

Генерация с использованием Mixtral 8X7B Instruct-v0.1
90% согласованность с данными кликов
Дизайн подсказки:

Given an item with title: "{title}", 
determine whether the keyphrase: "{keyphrase}", 
is relevant for cpc targeting or not by giving 
ONLY yes or no answer

2. Кросс-энкодер (помощник)

Базовая модель: microBERT (дистиллированная версия eBERT)

В 4,3 раза меньше, чем eBERT, в 5,5 раз быстрее
Предварительно обучена на данных товаров eBay

Формат входных данных:

query [SEP] category name [SEP] item title

Обучение:

Тонкая настройка на 50M метках LLM с использованием потерь кросс-энтропии
F1 на наборе тестирования = 96% (7,5M образцов)

Роль: служит промежуточной вспомогательной моделью, предоставляя мягкие метки для дистилляции

3. Двойной энкодер (студент)

Базовая модель: архитектура двойной башни microBERT

Обработка входных данных:

Башня товара: item title [SEP] category name
Башня ключевой фразы: buyer query
Вычисление косинусного сходства после независимого кодирования

Оптимизация размерности выхода:

Использование потерь Matryoshka для усечения вложений до 64 измерений (снижение задержки ANN)

4. Парадигма многозадачного обучения

Основная идея: каждый пакет содержит образцы только одного набора данных, выборка пропорциональна размеру набора данных

Комбинация функций потерь:

Источник данных	Функция потерь	Причина
Метки CTR	MNR Loss	Только надежные положительные образцы, отрицательные образцы генерируются через IRNS
Метки SR	Contrastive Loss	Четкие положительные и отрицательные образцы
Метки LLM	Contrastive Loss	Четкие положительные и отрицательные образцы
Дистилляция кросс-энкодера	Pearson Correlation Loss	Согласованность порядка ранжирования

Технические инновации

1. Необходимость архитектуры Teacher-Assistant

Прямая дистилляция от LLM к двойному энкодеру показывает плохие результаты (F1=0,66 vs 0,88)
Кросс-энкодер как промежуточный мост:
- Более сильная способность обучения, чем двойной энкодер (может совместно кодировать)
- Более эффективен, чем LLM (может генерировать крупномасштабные мягкие метки)
- Реализует прогрессивную передачу знаний

2. Обоснованность слияния многосигнальных данных

Оптимальная производительность модели LLM+CTR+KD:
- Медианное количество ключевых фраз: 12
- Коэффициент прохождения LLM: 71%
- Коэффициент прохождения поиска: >99%

Принцип проектирования:

CTR предоставляет реальные сигналы взаимодействия (надежные положительные образцы)
LLM предоставляет беспристрастное суждение (охватывает необнаруженные образцы)
SR обеспечивает приемлемость системой поиска
Кросс-энкодер предоставляет детальные сигналы ранжирования

3. Превосходство потерь Пирсона

Сравнение экспериментов (таблица 1):

Потери KD	F1	Precision	Recall	ρ (корреляция Пирсона)
MSE	0,81	0,77	0,86	0,78
CoSENT	0,87	0,86	0,88	0,82
Pearson	0,88	0,87	0,88	0,87
MSEmar	0,86	0,84	0,88	0,80
KL-Div	0,85	0,83	0,88	0,66

Анализ причин:

MSE - поточечная потеря, не может захватить отношения ранжирования
CoSENT - попарная потеря ранжирования, имеет способность калибровки
Pearson - пакетная потеря ранжирования, оптимизирует общую линейную корреляцию
Наивысший коэффициент корреляции Пирсона с кросс-энкодером (0,87)

Экспериментальная установка

Набор данных

Масштаб платформы: 2,3 миллиарда товаров
Набор обучения:
- CTR: 10,7M
- SR: 18,7M
- LLM: 50M (обучение) + 3,5M (тестирование)
Набор оценки: 10 000 образцов (для каждой модели)
A/B тестирование: рынок США, 12 дней

Метрики оценки

Автономные метрики:

F1, Precision, Recall: производительность классификации
ρ (корреляция Пирсона): степень согласованности с кросс-энкодером
KP (количество ключевых фраз): медианное количество ключевых фраз после фильтрации релевантности
PR (коэффициент прохождения): коэффициент прохождения LLM/SR на разных позициях ранжирования

Онлайн метрики:

GMB (Gross Merchandise Bought): объем продаж
ROAS (Return on Ad Spend): рентабельность рекламных расходов
Коэффициент принятия: количество ключевых фраз, фактически используемых продавцами

Методы сравнения

CTR-only: базовый уровень, обученный только на CTR
LLM: только метки LLM + Contrastive Loss
LLM+KD: метки LLM + дистилляция кросс-энкодера
LLM+SR+KD: метки LLM + SR + дистилляция
LLM+CTR+KD: оптимальная комбинация
LLM+SR+CTR+KD: комбинация всех сигналов

Детали реализации

Базовая модель: microBERT (причины выбора см. таблица 3)
Фреймворк обучения: PyTorch + Transformers
Выборка пакетов: пропорциональна размеру набора данных
Развертывание в производстве:
- Пакетный вывод: PySpark (1500 executors)
- Вывод NRT: Triton + ONNX (V100 GPU)
- Задержка ежедневного прироста: 35 минут (20 млн товаров)
- Поиск ANN: дополнительно 2,5 часа

Результаты экспериментов

Основные результаты

Таблица 2: Эксперимент абляции меток

Модель	KP	PR	Pass@5	Pass@10	Pass@15	Pass@20
LLM+CTR+KD	12,0	71	68	60	55	52
LLM+SR+CTR+KD	11,0	70	67	59	54	51
LLM+SR+KD	12,0	51	47	42	41	39
LLM+KD	11,0	49	36	35	33	32
LLM	11,0	61	45	41	38	35
CTR	7	60	51	42	37	34

Ключевые находки:

LLM+CTR+KD оптимален: достигает лучшего баланса между эффективностью (KP=12) и качеством (PR=71%)
Низкая эффективность CTR-only: только 7 ключевых фраз, ограничивает охват
Значительное улучшение от дистилляции: LLM → LLM+KD (PR: 61% → 49%, но улучшение Pass@5)
Роль сигнала SR: повышает коэффициент прохождения поиска до >99%

Эксперименты абляции

1. Сравнение функций потерь дистилляции знаний (таблица 1)

Потери Pearson оптимальны: F1=0,88, ρ=0,87
CoSENT вторая лучшая: F1=0,87, ρ=0,82
MSE неэффективна: подтверждает находки статьи CUPID
Прямая дистилляция (LLM→BE) показывает плохие результаты: Contrastive F1=0,83, Softmax F1=0,66

2. Выбор базовой модели (таблица 3)

Базовая модель	Recall	Precision	F1
eBERT	0,92	0,81	0,86
microBERT	0,92	0,78	0,85
ModernBERT	0,91	0,76	0,83

Причины выбора microBERT:

Производительность близка к eBERT (F1 отличается только на 0,01)
Скорость вывода на 30% выше
Предварительно обучена на данных платформы (ModernBERT не предварительно обучена)

3. Прогрессивное построение многозадачного фреймворка

CTR (F1=0,66) 
→ CTR+LLM (F1=0,83) 
→ LLM+CTR+KD (F1=0,88)

Каждый компонент приносит прирост

Результаты A/B тестирования (онлайн верификация)

Настройка тестирования: рынок США, 12 дней, замена модели CTR-only EBR

Улучшение метрик бизнеса:

GMB +51,26% (p=0,01) - значительный рост объема продаж
ROAS +38,69% (p=0,02) - значительное повышение рентабельности инвестиций
Коэффициент принятия +11,75% (p=0,03) - продавцы более охотно используют рекомендации

Значение: доказывает, что улучшение автономных метрик преобразуется в реальную деловую ценность

Анализ случаев

Положительный случай (согласованность LLM и модели):

Товар: "Genuine 15V 4A Power AC Adapter Laptop Charger For Surface Pro 3 4 5 6"
Ключевая фраза: "microsoft surface charger"
Суждение: релевантна ✓

Отрицательный случай (неудача тонкой настройки LLM):

Товар: "iPhone 11 64GB 128G Unlocked..."
Ключевая фраза: "yellow iphone" (изображение показывает желтый цвет)
Универсальный LLM: нерелевантна (только на основе текста)
Тонко настроенный LLM: релевантна (подвержена модальному смещению)

Экспериментальные находки

Универсальный LLM превосходит тонко настроенный LLM:
- Универсальный LLM: сокращение 68% ключевых фраз, рост продаж +10%
- Тонко настроенный LLM: сохранение 75% ключевых фраз, снижение продаж -20%
- Причина: модальное смещение в ручной аннотации
Необходимость Teacher-Assistant:
- Кросс-энкодер имеет лучшую способность калибровки
- Может обрабатывать крупномасштабные данные для генерации мягких меток
Взаимодополняемость многосигнальных данных:
- CTR: надежные положительные образцы
- LLM: охват длинного хвоста
- SR: согласованность с системой поиска
- Все три необходимы

Связанные работы

1. Встроенный поиск (EBR)

Двойной энкодер vs кросс-энкодер:
- Двойной энкодер: независимое кодирование, поддержка ANN, низкая задержка
- Кросс-энкодер: совместное кодирование, хорошие результаты, высокая задержка
Вклад статьи: объединение преимуществ обоих через дистилляцию

2. Проблема смещения кликов

Смещение MNAR: Chen et al. (2023)
Смещение посредника: Dey et al. (2025b) - предыдущая работа авторов
Решение статьи: дополнение данных кликов сигналами LLM и SR

3. Методы дистилляции знаний

TwinBERT (Lu et al., 2020): кросс→двойная башня BERT
ERNIE-search (Lu et al., 2022): архитектура Teacher-Assistant
PROD (Lin et al., 2023): прогрессивная дистилляция
D2LLM (Liao et al., 2024): потери Пирсона для дистилляции LLM
Вклад статьи: объединение многозадачного обучения и архитектуры Teacher-Assistant

4. LLM как судья

Оценка GPT-4: Zheng et al. (2023) - MT-Bench
Применение в поиске: Wang et al. (2024) - Pinterest
Вклад статьи:
- Крупномасштабное применение (50M меток)
- Систематическая оценка универсального LLM vs тонко настроенного LLM
- Обнаружение проблемы модального смещения

Заключение и обсуждение

Основные выводы

Сигналы LLM эффективно смягчают смещение кликов: в сценарии рекомендации ключевых фраз для рекламы метки, сгенерированные LLM, значительно превосходят использование только CTR
Архитектура Teacher-Assistant превосходит прямую дистилляцию: кросс-энкодер как промежуточный мост критически важен
Потери Пирсона наиболее подходят для дистилляции ранжирования: пакетные потери ранжирования превосходят поточечные и попарные потери
Слияние многосигнальных данных создает синергетический эффект: комбинация CTR+LLM+KD достигает лучшего делового результата
Универсальный LLM превосходит тонко настроенный LLM: на данных ручной аннотации с модальным смещением

Ограничения

Специфичность для конкретной области:
- Исследование ограничено сценарием рекламы электронной коммерции
- Требуется проверка переносимости метода
Проблемы качества ручной аннотации:
- Аннотаторы видят изображения, но модель не может (модальное смещение)
- Гранулярность меток слишком детальна (excellent/good/fair/bad)
- Объема образцов недостаточно для охвата 2,3 млрд товаров
Простая стратегия добычи отрицательных образцов:
- Данные CTR используют только IRNS (In-batch Random Negative Sampling)
- Не исследованы продвинутые методы ANCE, N-Game и т.д.
- Оставлено для будущих исследований
Ограничения выбора LLM:
- Использование Mixtral 8X7B (открытый исходный код, средний размер)
- Более крупные модели (GPT-4) ограничены API
- LLM не тонко настроена (из-за проблем качества данных ручной аннотации)
Ограничения оценки:
- Автономная оценка только на наборе тестирования меток LLM
- A/B тестирование только на рынке США
- Долгосрочные эффекты не оценены

Направления будущих исследований

Лучший сбор данных человеческого суждения:
- Унификация входных модальностей (только текст или мультимодальность)
- Упрощение меток (бинарная классификация)
- Расширение масштаба образцов
Продвинутая добыча отрицательных образцов:
- Исследование методов ANCE, N-Game и т.д.
- Баланс между вычислительными затратами и производительностью
Мультимодальное расширение:
- Включение информации об изображениях в модель
- Решение проблемы модального смещения
Исследование тонкой настройки LLM:
- Тонкая настройка на высококачественных данных
- Возможное дальнейшее улучшение производительности
Кросс-доменная передача:
- Проверка метода на других платформах электронной коммерции
- Расширение на сценарии вне рекламы

Глубокая оценка

Преимущества

1. Инновационность метода ⭐⭐⭐⭐⭐

Трехуровневая архитектура Teacher-Assistant-Student: инновационное объединение LLM, кросс-энкодера и двойного энкодера
Многозадачное смешанное обучение: искусное слияние трех гетерогенных источников сигналов
Систематическое исследование функций потерь: сравнение 8 функций потерь KD, предоставление четких рекомендаций

2. Полнота экспериментов ⭐⭐⭐⭐⭐

Крупномасштабные реальные данные: 50M меток LLM, 2,3 млрд товаров
Полные эксперименты абляции: метки, потери, базовые модели, архитектура
Онлайн верификация: A/B тестирование доказывает деловую ценность
Подробное приложение: оценка LLM, математический вывод функций потерь, архитектура системы

3. Практическая ценность ⭐⭐⭐⭐⭐

Значительное улучшение бизнеса: GMB +51%, ROAS +39%
Детали развертывания в производстве: полная архитектура системы и анализ задержки
Высокая воспроизводимость: открытые модели (Mixtral), четкое описание метода

4. Глубина инсайтов ⭐⭐⭐⭐

Обнаружение модального смещения: раскрытие скрытых проблем ручной аннотации
Преимущество универсального LLM: оспаривание общепринятого убеждения "тонкая настройка всегда лучше"
Смещение посредника: предложение нового типа смещения и решение

5. Качество написания ⭐⭐⭐⭐

Четкая структура, строгая логика
Богатые диаграммы (диаграмма механизма аукциона, архитектура, диаграмма производственной системы)
Полные математические формулы (приложение 8.3 с подробным выводом)

Недостатки

1. Ограничения метода

Неколичественные вычислительные затраты: время/стоимость GPU для генерации 50M меток LLM не указаны
Чувствительность гиперпараметров: не проанализировано влияние скорости обучения, размера пакета, параметра температуры и т.д.
Ограничения выбора LLM: Mixtral 8X7B не оптимален, но ограничен открытым исходным кодом и стоимостью

2. Дефекты экспериментальной установки

Оценка на одном наборе тестирования: автономные эксперименты только на наборе тестирования меток LLM, не проверены на наборах тестирования SR/CTR
Короткая продолжительность A/B тестирования: 12 дней может быть недостаточно для наблюдения долгосрочных эффектов (например, усталость продавца)
Географические ограничения: только рынок США, эффект в других странах неизвестен

3. Недостаточный анализ

Мало анализа случаев неудачи: только 1 пример модального смещения
Отсутствие оценки качества ранжирования: нет метрик NDCG, MRR и т.д.
Неколичественная многообразность: хотя упоминаются uniqueness и diversity, конкретные метрики отсутствуют

4. Проблемы воспроизводимости

Анонимизация платформы: невозможно получить специфичные для eBay модели eBERT/microBERT
Данные не открыты: коммерческие данные не могут быть общедоступны
Полный код не открыт: только описание метода

5. Отсутствие теоретического анализа

Почему Pearson оптимален: отсутствует теоретическое объяснение, только экспериментальная верификация
Источник прироста Teacher-Assistant: не количественно определен вклад каждого уровня
Теория многозадачного обучения: не проанализировано взаимодействие/синергия между задачами

Оценка влияния

На область исследования ⭐⭐⭐⭐⭐

Смещение в системах рекламы: систематическое описание смещения посредника, предоставление парадигмы решения
Дистилляция знаний: верификация эффективности архитектуры Teacher-Assistant в задачах поиска
Применение LLM: успешный случай крупномасштабной генерации меток LLM (50M)
Промышленная практика: полный справочник проектирования производственной системы

Академическое влияние

Высокий потенциал цитирования: решение практических проблем, метод переносим
Направления будущих исследований: мультимодальный LLM, лучшие протоколы ручной аннотации
Роль эталона: потери Пирсона могут стать стандартом дистилляции

Промышленное влияние

Прямая деловая ценность: GMB +51% имеет большое значение для eBay
Высокая воспроизводимость: другие платформы электронной коммерции могут заимствовать (Amazon, Alibaba)
Значительная рентабельность: метки LLM заменяют крупномасштабную ручную аннотацию

Применимые сценарии

Высокая применимость ✅

Рекомендации рекламы электронной коммерции: ключевые слова, рекомендации товаров
Релевантность поиска: сопоставление запроса-документа
Поиск информации: любой сценарий, требующий согласованности суждений нескольких сторон
Смягчение смещения: системы рекомендаций со смещением кликов/экспозиции

Средняя применимость ⚠️

Другие сценарии рекомендаций: требуется корректировка источников сигналов (например, рекомендации видео)
Кросс-языковой поиск: требуется мультиязычный LLM и предварительно обученные модели
Системы реального времени: требуется оптимизация задержки вывода NRT

Неприменимо ❌

Малые масштабы данных: метод требует больших объемов данных (уровень миллионов)
Сценарии без смещения: если данные кликов надежны, прирост метода ограничен
Задачи чистого исследования: требуется многообразие, а не релевантность

Избранные ссылки

Основные связанные работы

D2LLM (Liao et al., 2024): первое предложение потерь Пирсона для дистилляции LLM→двойной энкодер
CUPID (Bhattacharya et al., 2023): доказательство неподходящести потерь MSE для дистилляции кросс→двойной энкодер
ERNIE-search (Lu et al., 2022): ранее исследование архитектуры Teacher-Assistant
Middleman Bias (Dey et al., 2025b): теория смещения посредника, предложенная авторами

Смещение и рекомендации

Chen et al. (2023): обзор смещений в системах рекомендаций
Joachims et al. (2017): беспристрастное обучение на основе смещенной обратной связи

Оценка LLM

Zheng et al. (2023): MT-Bench и LLM-as-a-judge
Gu et al. (2025): обзор LLM как судей

Общая оценка: ⭐⭐⭐⭐⭐ (5/5)

Это отличная промышленная прикладная статья, которая верифицирует эффективность вспомогательного обучения на основе LLM в реальных крупномасштабных сценариях, предоставляя полное решение от теории к практике. Хотя существуют некоторые ограничения (например, недостаточный теоретический анализ, тестирование на одном рынке), ее практическая ценность, инновационность метода и полнота экспериментов достигают высшего уровня. Особенно достойны похвалы глубокий анализ универсального LLM vs тонко настроенного LLM, раскрытие проблемы модального смещения в ручной аннотации, что предоставляет важное предупреждение для области.