In this work, we address the brand entity linking problem for e-commerce search queries. The entity linking task is done by either i)a two-stage process consisting of entity mention detection followed by entity disambiguation or ii) an end-to-end linking approaches that directly fetch the target entity given the input text. The task presents unique challenges: queries are extremely short (averaging 2.4 words), lack natural language structure, and must handle a massive space of unique brands. We present a two-stage approach combining named-entity recognition with matching, and a novel end-to-end solution using extreme multi-class classification. We validate our solutions by both offline benchmarks and the impact of online A/B test.
academic
Связывание сущностей бренда в поиске электронной коммерции
В данной статье решается задача связывания сущностей бренда в поисковых запросах электронной коммерции. Задача связывания сущностей выполняется двумя способами: 1) двухэтапный процесс, включающий обнаружение упоминаний сущностей и разрешение неоднозначности; 2) сквозной метод связывания целевых сущностей непосредственно из входного текста. Задача сталкивается с уникальными вызовами: запросы чрезвычайно короткие (в среднем 2,4 слова), лишены естественной языковой структуры, требуют обработки крупномасштабного пространства брендов. В статье предложен двухэтапный метод, сочетающий распознавание именованных сущностей с сопоставлением, а также новое сквозное решение с использованием экстремальной многоклассовой классификации. Эффективность решения подтверждена автономными тестами и онлайн-тестами A/B.
В поиске электронной коммерции идентификация бренда является вторым по важности атрибутом после типа продукта. Правильное определение названия бренда (будь то прямое или косвенное упоминание) является важной частью понимания поисковых запросов и критически важно для обеспечения хорошего опыта покупок.
Ограничения характеристик запроса: Поисковые запросы в электронной коммерции чрезвычайно короткие (в среднем 2,4 слова), лишены естественной языковой структуры, модели NLP с открытым исходным кодом с трудом обрабатывают такое распределение запросов
Огромное пространство брендов: Необходимо обработать сотни тысяч уникальных брендов с постоянным добавлением новых
Проблемы разнообразия:
Унификация вариантов названий брендов на разных языках и в разных регионах
Различные поверхностные формы одного бренда (аббревиатуры vs полные названия)
Распознавание отношений между материнским брендом и дочерними брендами
Существующие методы идентификации брендов на основе строк имеют ограничения. Необходимо унифицировать концепции брендов в единое пространство имён глобальных сущностей бренда, обеспечивая унифицированное распознавание на разных языках, магазинах и поверхностных формах.
Построение двухэтапной модели связывания сущностей: Структура предсказания сущностей бренда, сочетающая предварительно обученную модель NER и сопоставление поверхностных форм
Исследование методов сопоставления: Разработка методов лексического и семантического сопоставления, предложение этапа фильтрации на основе типа продукта для оптимизации предсказания сущностей в крупномасштабном пространстве выходных брендов
Предложение сквозной модели экстремальной многоклассовой классификации: Прямое предсказание релевантных сущностей бренда из поискового запроса с последующим объединением с двухэтапной моделью
Комплексная верификация: Верификация эффективности решения через крупномасштабные автономные тесты и онлайн-тесты A/B
Учитывая поисковый запрос бренда (например, " running shoes"), необходимо идентифицировать и связать с уникальной сущностью бренда в базе данных брендов. Входные данные — исходный текст запроса, выходные данные — соответствующий ID сущности бренда.
Применение PECOS для связывания брендов: Первое применение структуры экстремальной многоклассовой классификации для связывания сущностей бренда в электронной коммерции
Разрешение неоднозначности с помощью типа продукта: Использование информации о типе продукта запроса для разрешения неоднозначности сущностей бренда
Поддержка многоязычности: Поддержка распознавания брендов на 13 языках
Стратегия объединения: Умелое сочетание методов с высокой точностью и высокой полнотой
Где C — набор правильных предсказаний, L_single — набор запросов с одной сущностью бренда, P_single — набор запросов, для которых модель предсказала одну сущность бренда.
Коэффициент ложных срабатываний на 85K запросов без бренда:
NER + точное сопоставление: 1.177%
Q2E-PECOS (со слабой аннотацией): 6.550%
Хотя сквозной метод имеет более высокий коэффициент ложных срабатываний, учитывая общее улучшение производительности, он остаётся в приемлемом диапазоне.
Преимущества сквозного метода: Q2E-PECOS значительно превосходит традиционные двухэтапные методы по охвату и полноте
Эффективность стратегии объединения: Объединённый метод, сочетающий высокоточное лексическое сопоставление и высокополноту семантическое сопоставление, показывает лучшие результаты
Важность данных: Данные со слабой аннотацией критически важны для повышения производительности сквозной модели
Практическая ценность: Онлайн-тестирование A/B подтвердило коммерческую ценность метода
Статья ссылается на множество важных связанных работ, включая:
Оригинальная статья структуры PECOS Yu et al., 2022
Многоязычная модель разметки последовательности MetaTS-NER Li et al., 2021
Традиционные методы связывания сущностей Cao et al., 2017; Le & Titov, 2019
Связанные работы по пониманию поисковых запросов в электронной коммерции Kozareva et al., 2016; Manchanda et al., 2020
Общая оценка: Это высококачественная прикладная исследовательская работа, решающая важную практическую проблему в поиске электронной коммерции. Методология отличается высокой инновационностью, эксперименты проведены всесторонне, особенно онлайн-тестирование A/B подтверждает практическую ценность. Хотя в теоретическом анализе и некоторых технических деталях есть место для улучшения, в целом это значительный вклад в область NLP для электронной коммерции.