2025-11-12T22:49:10.680556

Query Brand Entity Linking in E-Commerce Search

Liu, Nag
In this work, we address the brand entity linking problem for e-commerce search queries. The entity linking task is done by either i)a two-stage process consisting of entity mention detection followed by entity disambiguation or ii) an end-to-end linking approaches that directly fetch the target entity given the input text. The task presents unique challenges: queries are extremely short (averaging 2.4 words), lack natural language structure, and must handle a massive space of unique brands. We present a two-stage approach combining named-entity recognition with matching, and a novel end-to-end solution using extreme multi-class classification. We validate our solutions by both offline benchmarks and the impact of online A/B test.
academic

Связывание сущностей бренда в поиске электронной коммерции

Основная информация

  • ID статьи: 2502.01555
  • Название: Query Brand Entity Linking in E-Commerce Search
  • Авторы: Dong Liu, Sreyashi Nag (Amazon)
  • Классификация: cs.IR cs.AI cs.LG
  • Дата публикации/конференция: 2025 (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2502.01555

Аннотация

В данной статье решается задача связывания сущностей бренда в поисковых запросах электронной коммерции. Задача связывания сущностей выполняется двумя способами: 1) двухэтапный процесс, включающий обнаружение упоминаний сущностей и разрешение неоднозначности; 2) сквозной метод связывания целевых сущностей непосредственно из входного текста. Задача сталкивается с уникальными вызовами: запросы чрезвычайно короткие (в среднем 2,4 слова), лишены естественной языковой структуры, требуют обработки крупномасштабного пространства брендов. В статье предложен двухэтапный метод, сочетающий распознавание именованных сущностей с сопоставлением, а также новое сквозное решение с использованием экстремальной многоклассовой классификации. Эффективность решения подтверждена автономными тестами и онлайн-тестами A/B.

Исследовательский контекст и мотивация

Определение проблемы

В поиске электронной коммерции идентификация бренда является вторым по важности атрибутом после типа продукта. Правильное определение названия бренда (будь то прямое или косвенное упоминание) является важной частью понимания поисковых запросов и критически важно для обеспечения хорошего опыта покупок.

Анализ вызовов

  1. Ограничения характеристик запроса: Поисковые запросы в электронной коммерции чрезвычайно короткие (в среднем 2,4 слова), лишены естественной языковой структуры, модели NLP с открытым исходным кодом с трудом обрабатывают такое распределение запросов
  2. Огромное пространство брендов: Необходимо обработать сотни тысяч уникальных брендов с постоянным добавлением новых
  3. Проблемы разнообразия:
    • Унификация вариантов названий брендов на разных языках и в разных регионах
    • Различные поверхностные формы одного бренда (аббревиатуры vs полные названия)
    • Распознавание отношений между материнским брендом и дочерними брендами

Исследовательская мотивация

Существующие методы идентификации брендов на основе строк имеют ограничения. Необходимо унифицировать концепции брендов в единое пространство имён глобальных сущностей бренда, обеспечивая унифицированное распознавание на разных языках, магазинах и поверхностных формах.

Основные вклады

  1. Построение двухэтапной модели связывания сущностей: Структура предсказания сущностей бренда, сочетающая предварительно обученную модель NER и сопоставление поверхностных форм
  2. Исследование методов сопоставления: Разработка методов лексического и семантического сопоставления, предложение этапа фильтрации на основе типа продукта для оптимизации предсказания сущностей в крупномасштабном пространстве выходных брендов
  3. Предложение сквозной модели экстремальной многоклассовой классификации: Прямое предсказание релевантных сущностей бренда из поискового запроса с последующим объединением с двухэтапной моделью
  4. Комплексная верификация: Верификация эффективности решения через крупномасштабные автономные тесты и онлайн-тесты A/B

Подробное описание методов

Определение задачи

Учитывая поисковый запрос бренда (например, " running shoes"), необходимо идентифицировать и связать с уникальной сущностью бренда в базе данных брендов. Входные данные — исходный текст запроса, выходные данные — соответствующий ID сущности бренда.

Архитектура модели

1. Двухэтапная структура

Базовый двухэтапный метод (NER + точное лексическое сопоставление):

  • Первый этап: Извлечение упоминаний бренда с использованием модели MetaTS-NER
    m = f_NER(q)
    
  • Второй этап: Точное сопоставление строк через статический словарь
    E_ID = g(m)
    
  • Этап фильтрации: Разрешение неоднозначности на основе типа продукта
    e = h(E_ID, q, PT_q)
    

Улучшенный двухэтапный метод (NER + семантическое сопоставление PECOS):

  • Моделирование этапа сопоставления как задачи экстремальной многоклассовой классификации
  • Использование структуры PECOS для обработки крупномасштабного пространства сущностей бренда (примерно 60 тыс. сущностей)
  • Выходные данные: сущность бренда и оценка релевантности: (E_ID, S) = g_M2E(m)

2. Сквозная структура (Q2E-PECOS)

Прямое предсказание сущностей бренда из запроса, избегая распространения ошибок на этапе NER:

(E_ID, S) = g_Q2E(q)
e = h(E_ID, PT_q, S, q)

Ключевые характеристики:

  • Добавление класса NIL для обработки запросов без бренда
  • Временная сложность: O(b × log L), где b — размер луча, L — количество сущностей бренда
  • Пространственная сложность: снижена с O(d × L) до O(d × log L)

3. Структура объединения

Объединение преимуществ двухэтапного точного сопоставления и сквозного метода:

  • Параллельное выполнение обоих методов
  • Приоритет результатам точного сопоставления для обеспечения высокой точности
  • Возврат к результатам Q2E-PECOS для повышения полноты

Технические инновации

  1. Применение PECOS для связывания брендов: Первое применение структуры экстремальной многоклассовой классификации для связывания сущностей бренда в электронной коммерции
  2. Разрешение неоднозначности с помощью типа продукта: Использование информации о типе продукта запроса для разрешения неоднозначности сущностей бренда
  3. Поддержка многоязычности: Поддержка распознавания брендов на 13 языках
  4. Стратегия объединения: Умелое сочетание методов с высокой точностью и высокой полнотой

Экспериментальная установка

Наборы данных

Набор данныхМасштаб
Количество сущностей бренда61 697
Brand2entity616 974
Данные с сильной аннотацией (SL)806 972
Данные со слабой аннотацией (WL)1 308 816
Тестовые данные28 439

Состав данных:

  1. Brand2entity (B2E): Внутренний словарь пар название бренда — сущность
  2. Данные с сильной аннотацией (SL): Поисковые запросы на 13 языках, аннотированные вручную
  3. Данные со слабой аннотацией (WL): Слабо контролируемые данные, полученные из исторических взаимодействий запрос-продукт

Метрики оценки

  • Полнота: Recall = |C| / |L_single|
  • Точность: Precision = |C| / |P_single|
  • Охват: Coverage = |P_single| / |T|
  • F1-мера: Гармоническое среднее

Где C — набор правильных предсказаний, L_single — набор запросов с одной сущностью бренда, P_single — набор запросов, для которых модель предсказала одну сущность бренда.

Методы сравнения

  1. NER + точное лексическое сопоставление: Базовый двухэтапный метод
  2. NER + M2E-PECOS: Двухэтапный метод с семантическим сопоставлением
  3. Bi-encoder: Базовый двойной кодировщик с использованием Qwen3 Embedding 0.6B
  4. Q2E-PECOS: Сквозной метод PECOS
  5. Объединённая модель: Различные комбинации гибридного метода

Результаты экспериментов

Основные результаты

МетодДанные обученияОбъединениеGroup-1Group-2
Охват/Полнота/Точность/F1Охват/Полнота/Точность/F1
NER + точное сопоставление✓ ✓58.28/64.66/97.22/77.6770.16/86.21/99.15/92.23
Q2E-PECOS✓ ✓ ✓70.98/75.26/96.13/84.4280.77/94.71/98.92/96.77
Q2E-PECOS✓ ✓ ✓75.31/77.35/94.93/85.2485.09/94.64/98.55/96.56

Ключевые выводы:

  • Сквозной метод Q2E-PECOS значительно повышает охват и полноту
  • Стратегия объединения повышает полноту при сохранении высокой точности
  • Данные со слабой аннотацией оказывают значительное влияние на производительность сквозной модели

Анализ многоязычной производительности

Производительность существенно различается между языками:

  • Языки с большим количеством ресурсов (английский, испанский): все методы показывают хорошие результаты
  • Языки с ограниченными ресурсами (японский): охват NER + точного сопоставления составляет всего 19.03%
  • Объединённый метод: сбалансирует точность и полноту на всех языках

Анализ ложных срабатываний

Коэффициент ложных срабатываний на 85K запросов без бренда:

  • NER + точное сопоставление: 1.177%
  • Q2E-PECOS (со слабой аннотацией): 6.550%

Хотя сквозной метод имеет более высокий коэффициент ложных срабатываний, учитывая общее улучшение производительности, он остаётся в приемлемом диапазоне.

Результаты онлайн-тестирования A/B

МетрикаМагазин Group-1Магазин Group-2
Полнота распознавания бренда+11.00%+5.44%
Вовлечённость клиентов+0.02%-
Прямой вклад в прибыль+0.03%-

Онлайн-тестирование подтвердило практическую ценность объединённого решения.

Связанные работы

Традиционные методы связывания сущностей

  • Двухэтапное проектирование: Распознавание сущностей + разрешение неоднозначности
  • Генерация кандидатов: Сопоставление поверхностных форм, расширение псевдонимов, сопоставление априорной вероятности
  • Ранжирование кандидатов: Расстояние редактирования, сходство семантических векторов

Сквозные методы

  • Совместное обучение: Одновременное распознавание и разрешение неоднозначности
  • Разметка последовательности: Классификация токенов на основе BERT
  • Авторегрессивная генерация: Поэтапная генерация названия сущности

Специфика области электронной коммерции

  • Характеристики запроса: Короткие, шумные, неоднозначные
  • Сценарии применения: Поиск продуктов, переписывание запросов, повышение качества результатов поиска
  • Технические вызовы: Отсутствие лексического контекста, крупномасштабная база знаний

Заключение и обсуждение

Основные выводы

  1. Преимущества сквозного метода: Q2E-PECOS значительно превосходит традиционные двухэтапные методы по охвату и полноте
  2. Эффективность стратегии объединения: Объединённый метод, сочетающий высокоточное лексическое сопоставление и высокополноту семантическое сопоставление, показывает лучшие результаты
  3. Важность данных: Данные со слабой аннотацией критически важны для повышения производительности сквозной модели
  4. Практическая ценность: Онлайн-тестирование A/B подтвердило коммерческую ценность метода

Ограничения

  1. Коэффициент ложных срабатываний: Сквозной метод имеет более высокий коэффициент ложных срабатываний на запросах без бренда
  2. Языковые различия: Производительность на языках с ограниченными ресурсами всё ещё требует улучшения
  3. Вычислительная сложность: Объединённый метод требует параллельного выполнения нескольких моделей
  4. Зависимость от данных: Требуется большое количество данных со слабой аннотацией для поддержки обучения сквозной модели

Будущие направления

  1. Оптимизация модели: Дальнейшее снижение коэффициента ложных срабатываний, повышение производительности на языках с ограниченными ресурсами
  2. Повышение эффективности: Оптимизация вычислительной сложности, сокращение задержки вывода
  3. Кросс-доменный перенос: Расширение метода на другие задачи извлечения атрибутов электронной коммерции
  4. Динамическое обновление: Обработка добавления и обновления новых брендов в реальном времени

Углубленная оценка

Преимущества

  1. Важность проблемы: Решает ключевую проблему в поиске электронной коммерции с высокой практической ценностью
  2. Методологические инновации: Первое применение структуры экстремальной многоклассовой классификации PECOS для связывания сущностей бренда
  3. Комплексные эксперименты: Охватывает многоязычность, сравнение методов, верификацию онлайн-тестированием A/B
  4. Инженерная практичность: Учитывает баланс между эффективностью и точностью при фактическом развёртывании
  5. Богатые данные: Использует крупномасштабные реальные данные электронной коммерции

Недостатки

  1. Недостаточный теоретический анализ: Отсутствует теоретическое объяснение того, почему сквозной метод более эффективен
  2. Ограниченные абляционные исследования: Анализ вклада отдельных компонентов недостаточно глубок
  3. Проблема ложных срабатываний: Высокий коэффициент ложных срабатываний сквозного метода требует дальнейшей оптимизации
  4. Неполный анализ вычислительных затрат: Анализ вычислительной сложности объединённого метода недостаточно детален

Влияние

  1. Научный вклад: Предоставляет новое техническое решение для области NLP в электронной коммерции
  2. Практическая ценность: Уже развёрнуто в Amazon, доказана коммерческая ценность
  3. Воспроизводимость: Предоставляет подробное описание экспериментальной установки и данных
  4. Вдохновляющее значение: Служит справочником для других задач извлечения атрибутов электронной коммерции

Применимые сценарии

  1. Платформы электронной коммерции: Распознавание брендов в поисковых системах различных электронных магазинов
  2. Многоязычная среда: Глобальные платформы электронной коммерции с поддержкой многоязычности
  3. Крупномасштабные приложения: Системы реального времени, требующие обработки огромного количества запросов
  4. Извлечение атрибутов: Может быть расширено на задачи связывания сущностей других атрибутов продуктов

Библиография

Статья ссылается на множество важных связанных работ, включая:

  • Оригинальная статья структуры PECOS Yu et al., 2022
  • Многоязычная модель разметки последовательности MetaTS-NER Li et al., 2021
  • Традиционные методы связывания сущностей Cao et al., 2017; Le & Titov, 2019
  • Связанные работы по пониманию поисковых запросов в электронной коммерции Kozareva et al., 2016; Manchanda et al., 2020

Общая оценка: Это высококачественная прикладная исследовательская работа, решающая важную практическую проблему в поиске электронной коммерции. Методология отличается высокой инновационностью, эксперименты проведены всесторонне, особенно онлайн-тестирование A/B подтверждает практическую ценность. Хотя в теоретическом анализе и некоторых технических деталях есть место для улучшения, в целом это значительный вклад в область NLP для электронной коммерции.