2025-11-12T22:49:10.680556

Query Brand Entity Linking in E-Commerce Search

Liu, Nag

In this work, we address the brand entity linking problem for e-commerce search queries. The entity linking task is done by either i)a two-stage process consisting of entity mention detection followed by entity disambiguation or ii) an end-to-end linking approaches that directly fetch the target entity given the input text. The task presents unique challenges: queries are extremely short (averaging 2.4 words), lack natural language structure, and must handle a massive space of unique brands. We present a two-stage approach combining named-entity recognition with matching, and a novel end-to-end solution using extreme multi-class classification. We validate our solutions by both offline benchmarks and the impact of online A/B test.

academic

Связывание сущностей бренда в поиске электронной коммерции

Основная информация

ID статьи: 2502.01555
Название: Query Brand Entity Linking in E-Commerce Search
Авторы: Dong Liu, Sreyashi Nag (Amazon)
Классификация: cs.IR cs.AI cs.LG
Дата публикации/конференция: 2025 (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2502.01555

Аннотация

В данной статье решается задача связывания сущностей бренда в поисковых запросах электронной коммерции. Задача связывания сущностей выполняется двумя способами: 1) двухэтапный процесс, включающий обнаружение упоминаний сущностей и разрешение неоднозначности; 2) сквозной метод связывания целевых сущностей непосредственно из входного текста. Задача сталкивается с уникальными вызовами: запросы чрезвычайно короткие (в среднем 2,4 слова), лишены естественной языковой структуры, требуют обработки крупномасштабного пространства брендов. В статье предложен двухэтапный метод, сочетающий распознавание именованных сущностей с сопоставлением, а также новое сквозное решение с использованием экстремальной многоклассовой классификации. Эффективность решения подтверждена автономными тестами и онлайн-тестами A/B.

Исследовательский контекст и мотивация

Определение проблемы

В поиске электронной коммерции идентификация бренда является вторым по важности атрибутом после типа продукта. Правильное определение названия бренда (будь то прямое или косвенное упоминание) является важной частью понимания поисковых запросов и критически важно для обеспечения хорошего опыта покупок.

Анализ вызовов

Ограничения характеристик запроса: Поисковые запросы в электронной коммерции чрезвычайно короткие (в среднем 2,4 слова), лишены естественной языковой структуры, модели NLP с открытым исходным кодом с трудом обрабатывают такое распределение запросов
Огромное пространство брендов: Необходимо обработать сотни тысяч уникальных брендов с постоянным добавлением новых
Проблемы разнообразия:
- Унификация вариантов названий брендов на разных языках и в разных регионах
- Различные поверхностные формы одного бренда (аббревиатуры vs полные названия)
- Распознавание отношений между материнским брендом и дочерними брендами

Исследовательская мотивация

Существующие методы идентификации брендов на основе строк имеют ограничения. Необходимо унифицировать концепции брендов в единое пространство имён глобальных сущностей бренда, обеспечивая унифицированное распознавание на разных языках, магазинах и поверхностных формах.

Основные вклады

Построение двухэтапной модели связывания сущностей: Структура предсказания сущностей бренда, сочетающая предварительно обученную модель NER и сопоставление поверхностных форм
Исследование методов сопоставления: Разработка методов лексического и семантического сопоставления, предложение этапа фильтрации на основе типа продукта для оптимизации предсказания сущностей в крупномасштабном пространстве выходных брендов
Предложение сквозной модели экстремальной многоклассовой классификации: Прямое предсказание релевантных сущностей бренда из поискового запроса с последующим объединением с двухэтапной моделью
Комплексная верификация: Верификация эффективности решения через крупномасштабные автономные тесты и онлайн-тесты A/B

Подробное описание методов

Определение задачи

Учитывая поисковый запрос бренда (например, " running shoes"), необходимо идентифицировать и связать с уникальной сущностью бренда в базе данных брендов. Входные данные — исходный текст запроса, выходные данные — соответствующий ID сущности бренда.

Архитектура модели

1. Двухэтапная структура

Базовый двухэтапный метод (NER + точное лексическое сопоставление):

Первый этап: Извлечение упоминаний бренда с использованием модели MetaTS-NER
```
m = f_NER(q)
```
Второй этап: Точное сопоставление строк через статический словарь
```
E_ID = g(m)
```
Этап фильтрации: Разрешение неоднозначности на основе типа продукта
```
e = h(E_ID, q, PT_q)
```

Улучшенный двухэтапный метод (NER + семантическое сопоставление PECOS):

Моделирование этапа сопоставления как задачи экстремальной многоклассовой классификации
Использование структуры PECOS для обработки крупномасштабного пространства сущностей бренда (примерно 60 тыс. сущностей)
Выходные данные: сущность бренда и оценка релевантности: (E_ID, S) = g_M2E(m)

2. Сквозная структура (Q2E-PECOS)

Прямое предсказание сущностей бренда из запроса, избегая распространения ошибок на этапе NER:

(E_ID, S) = g_Q2E(q)
e = h(E_ID, PT_q, S, q)

Ключевые характеристики:

Добавление класса NIL для обработки запросов без бренда
Временная сложность: O(b × log L), где b — размер луча, L — количество сущностей бренда
Пространственная сложность: снижена с O(d × L) до O(d × log L)

3. Структура объединения

Объединение преимуществ двухэтапного точного сопоставления и сквозного метода:

Параллельное выполнение обоих методов
Приоритет результатам точного сопоставления для обеспечения высокой точности
Возврат к результатам Q2E-PECOS для повышения полноты

Технические инновации

Применение PECOS для связывания брендов: Первое применение структуры экстремальной многоклассовой классификации для связывания сущностей бренда в электронной коммерции
Разрешение неоднозначности с помощью типа продукта: Использование информации о типе продукта запроса для разрешения неоднозначности сущностей бренда
Поддержка многоязычности: Поддержка распознавания брендов на 13 языках
Стратегия объединения: Умелое сочетание методов с высокой точностью и высокой полнотой

Экспериментальная установка

Наборы данных

Набор данных	Масштаб
Количество сущностей бренда	61 697
Brand2entity	616 974
Данные с сильной аннотацией (SL)	806 972
Данные со слабой аннотацией (WL)	1 308 816
Тестовые данные	28 439

Состав данных:

Brand2entity (B2E): Внутренний словарь пар название бренда — сущность
Данные с сильной аннотацией (SL): Поисковые запросы на 13 языках, аннотированные вручную
Данные со слабой аннотацией (WL): Слабо контролируемые данные, полученные из исторических взаимодействий запрос-продукт

Метрики оценки

Полнота: Recall = |C| / |L_single|
Точность: Precision = |C| / |P_single|
Охват: Coverage = |P_single| / |T|
F1-мера: Гармоническое среднее

Где C — набор правильных предсказаний, L_single — набор запросов с одной сущностью бренда, P_single — набор запросов, для которых модель предсказала одну сущность бренда.

Методы сравнения

NER + точное лексическое сопоставление: Базовый двухэтапный метод
NER + M2E-PECOS: Двухэтапный метод с семантическим сопоставлением
Bi-encoder: Базовый двойной кодировщик с использованием Qwen3 Embedding 0.6B
Q2E-PECOS: Сквозной метод PECOS
Объединённая модель: Различные комбинации гибридного метода

Результаты экспериментов

Основные результаты

Метод	Данные обучения	Объединение	Group-1	Group-2
			Охват/Полнота/Точность/F1	Охват/Полнота/Точность/F1
NER + точное сопоставление	✓ ✓		58.28/64.66/97.22/77.67	70.16/86.21/99.15/92.23
Q2E-PECOS	✓ ✓ ✓		70.98/75.26/96.13/84.42	80.77/94.71/98.92/96.77
Q2E-PECOS	✓ ✓ ✓	✓	75.31/77.35/94.93/85.24	85.09/94.64/98.55/96.56

Ключевые выводы:

Сквозной метод Q2E-PECOS значительно повышает охват и полноту
Стратегия объединения повышает полноту при сохранении высокой точности
Данные со слабой аннотацией оказывают значительное влияние на производительность сквозной модели

Анализ многоязычной производительности

Производительность существенно различается между языками:

Языки с большим количеством ресурсов (английский, испанский): все методы показывают хорошие результаты
Языки с ограниченными ресурсами (японский): охват NER + точного сопоставления составляет всего 19.03%
Объединённый метод: сбалансирует точность и полноту на всех языках

Анализ ложных срабатываний

Коэффициент ложных срабатываний на 85K запросов без бренда:

NER + точное сопоставление: 1.177%
Q2E-PECOS (со слабой аннотацией): 6.550%

Хотя сквозной метод имеет более высокий коэффициент ложных срабатываний, учитывая общее улучшение производительности, он остаётся в приемлемом диапазоне.

Результаты онлайн-тестирования A/B

Метрика	Магазин Group-1	Магазин Group-2
Полнота распознавания бренда	+11.00%	+5.44%
Вовлечённость клиентов	+0.02%	-
Прямой вклад в прибыль	+0.03%	-

Онлайн-тестирование подтвердило практическую ценность объединённого решения.

Связанные работы

Традиционные методы связывания сущностей

Двухэтапное проектирование: Распознавание сущностей + разрешение неоднозначности
Генерация кандидатов: Сопоставление поверхностных форм, расширение псевдонимов, сопоставление априорной вероятности
Ранжирование кандидатов: Расстояние редактирования, сходство семантических векторов

Сквозные методы

Совместное обучение: Одновременное распознавание и разрешение неоднозначности
Разметка последовательности: Классификация токенов на основе BERT
Авторегрессивная генерация: Поэтапная генерация названия сущности

Специфика области электронной коммерции

Характеристики запроса: Короткие, шумные, неоднозначные
Сценарии применения: Поиск продуктов, переписывание запросов, повышение качества результатов поиска
Технические вызовы: Отсутствие лексического контекста, крупномасштабная база знаний

Заключение и обсуждение

Основные выводы

Преимущества сквозного метода: Q2E-PECOS значительно превосходит традиционные двухэтапные методы по охвату и полноте
Эффективность стратегии объединения: Объединённый метод, сочетающий высокоточное лексическое сопоставление и высокополноту семантическое сопоставление, показывает лучшие результаты
Важность данных: Данные со слабой аннотацией критически важны для повышения производительности сквозной модели
Практическая ценность: Онлайн-тестирование A/B подтвердило коммерческую ценность метода

Ограничения

Коэффициент ложных срабатываний: Сквозной метод имеет более высокий коэффициент ложных срабатываний на запросах без бренда
Языковые различия: Производительность на языках с ограниченными ресурсами всё ещё требует улучшения
Вычислительная сложность: Объединённый метод требует параллельного выполнения нескольких моделей
Зависимость от данных: Требуется большое количество данных со слабой аннотацией для поддержки обучения сквозной модели

Будущие направления

Оптимизация модели: Дальнейшее снижение коэффициента ложных срабатываний, повышение производительности на языках с ограниченными ресурсами
Повышение эффективности: Оптимизация вычислительной сложности, сокращение задержки вывода
Кросс-доменный перенос: Расширение метода на другие задачи извлечения атрибутов электронной коммерции
Динамическое обновление: Обработка добавления и обновления новых брендов в реальном времени

Углубленная оценка

Преимущества

Важность проблемы: Решает ключевую проблему в поиске электронной коммерции с высокой практической ценностью
Методологические инновации: Первое применение структуры экстремальной многоклассовой классификации PECOS для связывания сущностей бренда
Комплексные эксперименты: Охватывает многоязычность, сравнение методов, верификацию онлайн-тестированием A/B
Инженерная практичность: Учитывает баланс между эффективностью и точностью при фактическом развёртывании
Богатые данные: Использует крупномасштабные реальные данные электронной коммерции

Недостатки

Недостаточный теоретический анализ: Отсутствует теоретическое объяснение того, почему сквозной метод более эффективен
Ограниченные абляционные исследования: Анализ вклада отдельных компонентов недостаточно глубок
Проблема ложных срабатываний: Высокий коэффициент ложных срабатываний сквозного метода требует дальнейшей оптимизации
Неполный анализ вычислительных затрат: Анализ вычислительной сложности объединённого метода недостаточно детален

Влияние

Научный вклад: Предоставляет новое техническое решение для области NLP в электронной коммерции
Практическая ценность: Уже развёрнуто в Amazon, доказана коммерческая ценность
Воспроизводимость: Предоставляет подробное описание экспериментальной установки и данных
Вдохновляющее значение: Служит справочником для других задач извлечения атрибутов электронной коммерции

Применимые сценарии

Платформы электронной коммерции: Распознавание брендов в поисковых системах различных электронных магазинов
Многоязычная среда: Глобальные платформы электронной коммерции с поддержкой многоязычности
Крупномасштабные приложения: Системы реального времени, требующие обработки огромного количества запросов
Извлечение атрибутов: Может быть расширено на задачи связывания сущностей других атрибутов продуктов

Библиография

Статья ссылается на множество важных связанных работ, включая:

Оригинальная статья структуры PECOS Yu et al., 2022
Многоязычная модель разметки последовательности MetaTS-NER Li et al., 2021
Традиционные методы связывания сущностей Cao et al., 2017; Le & Titov, 2019
Связанные работы по пониманию поисковых запросов в электронной коммерции Kozareva et al., 2016; Manchanda et al., 2020

Общая оценка: Это высококачественная прикладная исследовательская работа, решающая важную практическую проблему в поиске электронной коммерции. Методология отличается высокой инновационностью, эксперименты проведены всесторонне, особенно онлайн-тестирование A/B подтверждает практическую ценность. Хотя в теоретическом анализе и некоторых технических деталях есть место для улучшения, в целом это значительный вклад в область NLP для электронной коммерции.