E-commerce sellers are advised to bid on keyphrases to boost their advertising campaigns. These keyphrases must be relevant to prevent irrelevant items from cluttering search systems and to maintain positive seller perception. It is vital that keyphrase suggestions align with seller, search and buyer judgments. Given the challenges in collecting negative feedback in these systems, LLMs have been used as a scalable proxy to human judgments. This paper presents an empirical study on a major ecommerce platform of a distillation framework involving an LLM teacher, a cross-encoder assistant and a bi-encoder Embedding Based Retrieval (EBR) student model, aimed at mitigating click-induced biases in keyphrase recommendations.
ID статьи : 2508.03628Название : LLMDistill4Ads: Using Cross-Encoders to Distill from LLM Signals for Advertiser Keyphrase RecommendationsАвторы : Soumik Dey, Benjamin Braun, Naveen Ravipati, Hansi Wu, Binbin Li (eBay Inc)Классификация : cs.IR (Information Retrieval), cs.AI, cs.LGДата публикации : arXiv v5, 20 ноября 2025 г.Ссылка на статью : https://arxiv.org/abs/2508.03628v5 Продавцы электронной коммерции должны делать ставки на ключевые слова для повышения эффективности рекламы. Эти ключевые слова должны быть релевантными, чтобы предотвратить загрязнение системы поиска нерелевантными товарами и сохранить удовлетворенность продавца. Из-за сложности сбора отрицательной обратной связи в статье предлагается использование LLM в качестве масштабируемого прокси человеческого суждения. Исследование реализует на крупной платформе электронной коммерции фреймворк дистилляции знаний: учитель LLM → помощник кросс-энкодер → студент двойной энкодер EBR, направленный на смягчение проблемы смещения кликов при рекомендации ключевых фраз.
В системах рекламы электронной коммерции необходимо рекомендовать продавцам релевантные ключевые слова (поисковые запросы покупателей) для торговли объявлениями. Основные вызовы включают:
Ненадежность данных кликов : высокие клики/продажи указывают на релевантность, но отсутствие кликов не означает нерелевантностьСмещение MNAR (Missing Not At Random): непопулярные товары имеют низкий рейтинг, получают меньше показов и кликовСмещение посредника (Middleman Bias): данные обучения содержат только ключевые слова, отфильтрованные фильтром релевантности поиска, что приводит к смещению выборкиРелевантность ключевых слов напрямую влияет на стратегию продавца и качество системы поиска Нерелевантные рекомендации снижают удовлетворенность продавца, тратят ресурсы, влияют на эффективность рекламы Необходимо одновременно удовлетворять критерии трех сторон: продавцов, системы объявлений и системы поиска Обучение только на CTR : легко копирует смещения популярности и экспозиции в данных обученияНенадежные отрицательные образцы : отрицательные образцы в журналах кликов не отражают истинную нерелевантностьСложность ручной аннотации : высокие затраты, ограниченный масштаб, модальное смещение (аннотаторы видят изображения, но модель не может)Использование мировых знаний LLM и способности суждения в качестве прокси человеческого суждения, посредством многозадачного обучения и фреймворка дистилляции знаний, объединяя сигналы CTR, релевантности поиска и LLM для обучения эффективной модели двойного энкодера для поиска.
Предложение фреймворка дистилляции Teacher-Assistant-Student : трехуровневая архитектура учитель LLM → помощник кросс-энкодер → студент двойной энкодерСтратегия обучения с многосигнальным слиянием : парадигма многозадачного обучения, интегрирующая метки CTR, релевантности поиска (SR) и LLMСистематическое исследование функций потерь дистилляции : оценка 8 функций потерь дистилляции знаний, обнаружение оптимальности потерь корреляции ПирсонаПротокол оценки в производственной среде : предложение метода автономной оценки, моделирующего реальные сценарии аукциона объявленийЗначительное влияние на бизнес : A/B тестирование показывает увеличение GMB на 51,26%, ROAS на 38,69%, принятие ключевых фраз на 11,75%Входные данные : название товара (item title) + категория (category) и поисковая фраза покупателя (keyphrase)Выходные данные : суждение о релевантности (бинарная классификация или оценка непрерывного сходства)Цель : для каждого товара извлечь Top-K наиболее релевантные ключевые слова для торговли объявлениямиОграничения : требуется низкая задержка (подходит для производственной среды), высокая точность (согласованность суждений нескольких сторон)
Метки CTR (10 702 747 записей):
Расчет соотношения кликов к показам за последние 30 дней CTR > 0,05 отмечается как положительный образец Положительные образцы надежны, отрицательные образцы ненадежны (используются только для потерь MNR) Метки релевантности поиска (SR) (18 721 682 записей):
Сбор оценок модели SR за 3 месяца из процесса аукциона Превышение порога бизнеса отмечается как положительный образец Отсутствие смещения посредника и смещения выборки Метки LLM (50 078 315 записей в наборе обучения, 3 524 414 записей в наборе тестирования):
Генерация с использованием Mixtral 8X7B Instruct-v0.1 90% согласованность с данными кликов Дизайн подсказки: Given an item with title: "{title}",
determine whether the keyphrase: "{keyphrase}",
is relevant for cpc targeting or not by giving
ONLY yes or no answer
Базовая модель : microBERT (дистиллированная версия eBERT)
В 4,3 раза меньше, чем eBERT, в 5,5 раз быстрее Предварительно обучена на данных товаров eBay Формат входных данных :
query [SEP] category name [SEP] item title
Обучение :
Тонкая настройка на 50M метках LLM с использованием потерь кросс-энтропии F1 на наборе тестирования = 96% (7,5M образцов) Роль : служит промежуточной вспомогательной моделью, предоставляя мягкие метки для дистилляции
Базовая модель : архитектура двойной башни microBERT
Обработка входных данных :
Башня товара: item title [SEP] category name Башня ключевой фразы: buyer query Вычисление косинусного сходства после независимого кодирования Оптимизация размерности выхода :
Использование потерь Matryoshka для усечения вложений до 64 измерений (снижение задержки ANN) Основная идея : каждый пакет содержит образцы только одного набора данных, выборка пропорциональна размеру набора данных
Комбинация функций потерь :
Источник данных Функция потерь Причина Метки CTR MNR Loss Только надежные положительные образцы, отрицательные образцы генерируются через IRNS Метки SR Contrastive Loss Четкие положительные и отрицательные образцы Метки LLM Contrastive Loss Четкие положительные и отрицательные образцы Дистилляция кросс-энкодера Pearson Correlation Loss Согласованность порядка ранжирования
Прямая дистилляция от LLM к двойному энкодеру показывает плохие результаты (F1=0,66 vs 0,88) Кросс-энкодер как промежуточный мост:
Более сильная способность обучения, чем двойной энкодер (может совместно кодировать) Более эффективен, чем LLM (может генерировать крупномасштабные мягкие метки) Реализует прогрессивную передачу знаний Оптимальная производительность модели LLM+CTR+KD:
- Медианное количество ключевых фраз: 12
- Коэффициент прохождения LLM: 71%
- Коэффициент прохождения поиска: >99%
Принцип проектирования :
CTR предоставляет реальные сигналы взаимодействия (надежные положительные образцы) LLM предоставляет беспристрастное суждение (охватывает необнаруженные образцы) SR обеспечивает приемлемость системой поиска Кросс-энкодер предоставляет детальные сигналы ранжирования Сравнение экспериментов (таблица 1):
Потери KD F1 Precision Recall ρ (корреляция Пирсона) MSE 0,81 0,77 0,86 0,78 CoSENT 0,87 0,86 0,88 0,82 Pearson 0,88 0,87 0,88 0,87 MSEmar 0,86 0,84 0,88 0,80 KL-Div 0,85 0,83 0,88 0,66
Анализ причин :
MSE - поточечная потеря, не может захватить отношения ранжирования CoSENT - попарная потеря ранжирования, имеет способность калибровки Pearson - пакетная потеря ранжирования, оптимизирует общую линейную корреляцию Наивысший коэффициент корреляции Пирсона с кросс-энкодером (0,87) Масштаб платформы : 2,3 миллиарда товаровНабор обучения :
CTR: 10,7M SR: 18,7M LLM: 50M (обучение) + 3,5M (тестирование) Набор оценки : 10 000 образцов (для каждой модели)A/B тестирование : рынок США, 12 днейАвтономные метрики :
F1, Precision, Recall : производительность классификацииρ (корреляция Пирсона) : степень согласованности с кросс-энкодеромKP (количество ключевых фраз) : медианное количество ключевых фраз после фильтрации релевантностиPR (коэффициент прохождения) : коэффициент прохождения LLM/SR на разных позициях ранжированияОнлайн метрики :
GMB (Gross Merchandise Bought) : объем продажROAS (Return on Ad Spend) : рентабельность рекламных расходовКоэффициент принятия : количество ключевых фраз, фактически используемых продавцамиCTR-only : базовый уровень, обученный только на CTRLLM : только метки LLM + Contrastive LossLLM+KD : метки LLM + дистилляция кросс-энкодераLLM+SR+KD : метки LLM + SR + дистилляцияLLM+CTR+KD : оптимальная комбинацияLLM+SR+CTR+KD : комбинация всех сигналовБазовая модель : microBERT (причины выбора см. таблица 3)Фреймворк обучения : PyTorch + TransformersВыборка пакетов : пропорциональна размеру набора данныхРазвертывание в производстве :
Пакетный вывод: PySpark (1500 executors) Вывод NRT: Triton + ONNX (V100 GPU) Задержка ежедневного прироста: 35 минут (20 млн товаров) Поиск ANN: дополнительно 2,5 часа Таблица 2: Эксперимент абляции меток
Модель KP PR Pass@5 Pass@10 Pass@15 Pass@20 LLM+CTR+KD 12,0 71 68 60 55 52 LLM+SR+CTR+KD 11,0 70 67 59 54 51 LLM+SR+KD 12,0 51 47 42 41 39 LLM+KD 11,0 49 36 35 33 32 LLM 11,0 61 45 41 38 35 CTR 7 60 51 42 37 34
Ключевые находки :
LLM+CTR+KD оптимален : достигает лучшего баланса между эффективностью (KP=12) и качеством (PR=71%)Низкая эффективность CTR-only : только 7 ключевых фраз, ограничивает охватЗначительное улучшение от дистилляции : LLM → LLM+KD (PR: 61% → 49%, но улучшение Pass@5)Роль сигнала SR : повышает коэффициент прохождения поиска до >99%Потери Pearson оптимальны : F1=0,88, ρ=0,87CoSENT вторая лучшая : F1=0,87, ρ=0,82MSE неэффективна : подтверждает находки статьи CUPIDПрямая дистилляция (LLM→BE) показывает плохие результаты : Contrastive F1=0,83, Softmax F1=0,66Базовая модель Recall Precision F1 eBERT 0,92 0,81 0,86 microBERT 0,92 0,78 0,85 ModernBERT 0,91 0,76 0,83
Причины выбора microBERT :
Производительность близка к eBERT (F1 отличается только на 0,01) Скорость вывода на 30% выше Предварительно обучена на данных платформы (ModernBERT не предварительно обучена) CTR (F1=0,66)
→ CTR+LLM (F1=0,83)
→ LLM+CTR+KD (F1=0,88)
Каждый компонент приносит прирост
Настройка тестирования : рынок США, 12 дней, замена модели CTR-only EBR
Улучшение метрик бизнеса :
GMB +51,26% (p=0,01) - значительный рост объема продажROAS +38,69% (p=0,02) - значительное повышение рентабельности инвестицийКоэффициент принятия +11,75% (p=0,03) - продавцы более охотно используют рекомендацииЗначение : доказывает, что улучшение автономных метрик преобразуется в реальную деловую ценность
Положительный случай (согласованность LLM и модели):
Товар: "Genuine 15V 4A Power AC Adapter Laptop Charger For Surface Pro 3 4 5 6" Ключевая фраза: "microsoft surface charger" Суждение: релевантна ✓ Отрицательный случай (неудача тонкой настройки LLM):
Товар: "iPhone 11 64GB 128G Unlocked..." Ключевая фраза: "yellow iphone" (изображение показывает желтый цвет) Универсальный LLM: нерелевантна (только на основе текста) Тонко настроенный LLM: релевантна (подвержена модальному смещению) Универсальный LLM превосходит тонко настроенный LLM :Универсальный LLM: сокращение 68% ключевых фраз, рост продаж +10% Тонко настроенный LLM: сохранение 75% ключевых фраз, снижение продаж -20% Причина: модальное смещение в ручной аннотации Необходимость Teacher-Assistant :Кросс-энкодер имеет лучшую способность калибровки Может обрабатывать крупномасштабные данные для генерации мягких меток Взаимодополняемость многосигнальных данных :CTR: надежные положительные образцы LLM: охват длинного хвоста SR: согласованность с системой поиска Все три необходимы Двойной энкодер vs кросс-энкодер :
Двойной энкодер: независимое кодирование, поддержка ANN, низкая задержка Кросс-энкодер: совместное кодирование, хорошие результаты, высокая задержка Вклад статьи : объединение преимуществ обоих через дистилляциюСмещение MNAR : Chen et al. (2023)Смещение посредника : Dey et al. (2025b) - предыдущая работа авторовРешение статьи : дополнение данных кликов сигналами LLM и SRTwinBERT (Lu et al., 2020): кросс→двойная башня BERTERNIE-search (Lu et al., 2022): архитектура Teacher-AssistantPROD (Lin et al., 2023): прогрессивная дистилляцияD2LLM (Liao et al., 2024): потери Пирсона для дистилляции LLMВклад статьи : объединение многозадачного обучения и архитектуры Teacher-AssistantОценка GPT-4 : Zheng et al. (2023) - MT-BenchПрименение в поиске : Wang et al. (2024) - PinterestВклад статьи :
Крупномасштабное применение (50M меток) Систематическая оценка универсального LLM vs тонко настроенного LLM Обнаружение проблемы модального смещения Сигналы LLM эффективно смягчают смещение кликов : в сценарии рекомендации ключевых фраз для рекламы метки, сгенерированные LLM, значительно превосходят использование только CTRАрхитектура Teacher-Assistant превосходит прямую дистилляцию : кросс-энкодер как промежуточный мост критически важенПотери Пирсона наиболее подходят для дистилляции ранжирования : пакетные потери ранжирования превосходят поточечные и попарные потериСлияние многосигнальных данных создает синергетический эффект : комбинация CTR+LLM+KD достигает лучшего делового результатаУниверсальный LLM превосходит тонко настроенный LLM : на данных ручной аннотации с модальным смещениемСпецифичность для конкретной области :Исследование ограничено сценарием рекламы электронной коммерции Требуется проверка переносимости метода Проблемы качества ручной аннотации :Аннотаторы видят изображения, но модель не может (модальное смещение) Гранулярность меток слишком детальна (excellent/good/fair/bad) Объема образцов недостаточно для охвата 2,3 млрд товаров Простая стратегия добычи отрицательных образцов :Данные CTR используют только IRNS (In-batch Random Negative Sampling) Не исследованы продвинутые методы ANCE, N-Game и т.д. Оставлено для будущих исследований Ограничения выбора LLM :Использование Mixtral 8X7B (открытый исходный код, средний размер) Более крупные модели (GPT-4) ограничены API LLM не тонко настроена (из-за проблем качества данных ручной аннотации) Ограничения оценки :Автономная оценка только на наборе тестирования меток LLM A/B тестирование только на рынке США Долгосрочные эффекты не оценены Лучший сбор данных человеческого суждения :Унификация входных модальностей (только текст или мультимодальность) Упрощение меток (бинарная классификация) Расширение масштаба образцов Продвинутая добыча отрицательных образцов :Исследование методов ANCE, N-Game и т.д. Баланс между вычислительными затратами и производительностью Мультимодальное расширение :Включение информации об изображениях в модель Решение проблемы модального смещения Исследование тонкой настройки LLM :Тонкая настройка на высококачественных данных Возможное дальнейшее улучшение производительности Кросс-доменная передача :Проверка метода на других платформах электронной коммерции Расширение на сценарии вне рекламы Трехуровневая архитектура Teacher-Assistant-Student : инновационное объединение LLM, кросс-энкодера и двойного энкодераМногозадачное смешанное обучение : искусное слияние трех гетерогенных источников сигналовСистематическое исследование функций потерь : сравнение 8 функций потерь KD, предоставление четких рекомендацийКрупномасштабные реальные данные : 50M меток LLM, 2,3 млрд товаровПолные эксперименты абляции : метки, потери, базовые модели, архитектураОнлайн верификация : A/B тестирование доказывает деловую ценностьПодробное приложение : оценка LLM, математический вывод функций потерь, архитектура системыЗначительное улучшение бизнеса : GMB +51%, ROAS +39%Детали развертывания в производстве : полная архитектура системы и анализ задержкиВысокая воспроизводимость : открытые модели (Mixtral), четкое описание методаОбнаружение модального смещения : раскрытие скрытых проблем ручной аннотацииПреимущество универсального LLM : оспаривание общепринятого убеждения "тонкая настройка всегда лучше"Смещение посредника : предложение нового типа смещения и решениеЧеткая структура, строгая логика Богатые диаграммы (диаграмма механизма аукциона, архитектура, диаграмма производственной системы) Полные математические формулы (приложение 8.3 с подробным выводом) Неколичественные вычислительные затраты : время/стоимость GPU для генерации 50M меток LLM не указаныЧувствительность гиперпараметров : не проанализировано влияние скорости обучения, размера пакета, параметра температуры и т.д.Ограничения выбора LLM : Mixtral 8X7B не оптимален, но ограничен открытым исходным кодом и стоимостьюОценка на одном наборе тестирования : автономные эксперименты только на наборе тестирования меток LLM, не проверены на наборах тестирования SR/CTRКороткая продолжительность A/B тестирования : 12 дней может быть недостаточно для наблюдения долгосрочных эффектов (например, усталость продавца)Географические ограничения : только рынок США, эффект в других странах неизвестенМало анализа случаев неудачи : только 1 пример модального смещенияОтсутствие оценки качества ранжирования : нет метрик NDCG, MRR и т.д.Неколичественная многообразность : хотя упоминаются uniqueness и diversity, конкретные метрики отсутствуютАнонимизация платформы : невозможно получить специфичные для eBay модели eBERT/microBERTДанные не открыты : коммерческие данные не могут быть общедоступныПолный код не открыт : только описание методаПочему Pearson оптимален : отсутствует теоретическое объяснение, только экспериментальная верификацияИсточник прироста Teacher-Assistant : не количественно определен вклад каждого уровняТеория многозадачного обучения : не проанализировано взаимодействие/синергия между задачамиСмещение в системах рекламы : систематическое описание смещения посредника, предоставление парадигмы решенияДистилляция знаний : верификация эффективности архитектуры Teacher-Assistant в задачах поискаПрименение LLM : успешный случай крупномасштабной генерации меток LLM (50M)Промышленная практика : полный справочник проектирования производственной системыВысокий потенциал цитирования : решение практических проблем, метод переносимНаправления будущих исследований : мультимодальный LLM, лучшие протоколы ручной аннотацииРоль эталона : потери Пирсона могут стать стандартом дистилляцииПрямая деловая ценность : GMB +51% имеет большое значение для eBayВысокая воспроизводимость : другие платформы электронной коммерции могут заимствовать (Amazon, Alibaba)Значительная рентабельность : метки LLM заменяют крупномасштабную ручную аннотациюРекомендации рекламы электронной коммерции : ключевые слова, рекомендации товаровРелевантность поиска : сопоставление запроса-документаПоиск информации : любой сценарий, требующий согласованности суждений нескольких сторонСмягчение смещения : системы рекомендаций со смещением кликов/экспозицииДругие сценарии рекомендаций : требуется корректировка источников сигналов (например, рекомендации видео)Кросс-языковой поиск : требуется мультиязычный LLM и предварительно обученные моделиСистемы реального времени : требуется оптимизация задержки вывода NRTМалые масштабы данных : метод требует больших объемов данных (уровень миллионов)Сценарии без смещения : если данные кликов надежны, прирост метода ограниченЗадачи чистого исследования : требуется многообразие, а не релевантностьЕсли вы хотите воспроизвести эту работу :
Замена LLM : использование Llama 3.1 70B или Qwen 2.5 72BЗамена базовой модели : использование открытых моделей sentence-transformersУпрощенная версия : сначала проверить LLM+CTR+Pearson Loss (без данных SR)Протокол оценки : ссылка на приложение 8.2 для процесса автономной оценкиНачальный масштаб : начать с данных уровня миллионов, постепенно расширятьD2LLM (Liao et al., 2024): первое предложение потерь Пирсона для дистилляции LLM→двойной энкодерCUPID (Bhattacharya et al., 2023): доказательство неподходящести потерь MSE для дистилляции кросс→двойной энкодерERNIE-search (Lu et al., 2022): ранее исследование архитектуры Teacher-AssistantMiddleman Bias (Dey et al., 2025b): теория смещения посредника, предложенная авторамиChen et al. (2023) : обзор смещений в системах рекомендацийJoachims et al. (2017) : беспристрастное обучение на основе смещенной обратной связиZheng et al. (2023) : MT-Bench и LLM-as-a-judgeGu et al. (2025) : обзор LLM как судейОбщая оценка : ⭐⭐⭐⭐⭐ (5/5)
Это отличная промышленная прикладная статья , которая верифицирует эффективность вспомогательного обучения на основе LLM в реальных крупномасштабных сценариях, предоставляя полное решение от теории к практике. Хотя существуют некоторые ограничения (например, недостаточный теоретический анализ, тестирование на одном рынке), ее практическая ценность, инновационность метода и полнота экспериментов достигают высшего уровня. Особенно достойны похвалы глубокий анализ универсального LLM vs тонко настроенного LLM, раскрытие проблемы модального смещения в ручной аннотации, что предоставляет важное предупреждение для области.