Introducing Semantic Capability in LinkedIn's Content Search Engine
Yang, Zheng, Mohan et al.
In the past, most search queries issued to a search engine were short and simple. A keyword based search engine was able to answer such queries quite well. However, members are now developing the habit of issuing long and complex natural language queries. Answering such queries requires evolution of a search engine to have semantic capability. In this paper we present the design of LinkedIn's new content search engine with semantic capability, and its impact on metrics.
academic
Введение семантических возможностей в поисковую систему контента LinkedIn
С эволюцией поведения пользователей при поиске традиционные поисковые системы на основе ключевых слов больше не могут удовлетворить растущие потребности в обработке сложных запросов на естественном языке. В данной статье представлена переработанная поисковая система контента LinkedIn с семантическими возможностями и демонстрируется её значительное влияние на ключевые показатели производительности.
Тенденция усложнения поисковых запросов: Пользователи перешли от коротких запросов с ключевыми словами к сложным запросам на естественном языке, таким как "how to ask for a raise?" (как попросить повышение зарплаты?), "dropout in AI" (отсев в искусственном интеллекте) и т.д.
Ограничения традиционного поиска: Поисковые системы на основе сопоставления ключевых слов имеют две основные проблемы при обработке сложных запросов:
Возврат пустых результатов, когда все ключевые слова из запроса отсутствуют в любом посте
Даже если существуют посты, содержащие все ключевые слова, они могут не дать правильный ответ из-за отсутствия понимания концепций
LinkedIn обнаружила, что в индексе поиска фактически существуют посты, которые могут правильно ответить на запрос, но эти посты могут не содержать все ключевые слова из запроса. Это побудило команду разработать поисковую систему контента с возможностью семантического сопоставления для лучшего понимания намерения запроса и возврата релевантного контента.
Разработана двухуровневая архитектура семантической поисковой системы: включающая уровень поиска и многоэтапный уровень ранжирования, эффективно сочетающая сопоставление ключевых слов и семантическое понимание
Реализована гибридная стратегия поиска: одновременное использование поисковика на основе терминов (TBR) и поисковика на основе встраиваний (EBR)
Установлена структура многоцелевой оптимизации: одновременная оптимизация коэффициента релевантности по теме (on-topic rate) и вовлечённости пользователей (long-dwells)
Достигнуты значительные улучшения производительности: оба показателя релевантности по теме и длительного пребывания улучшены более чем на 10%
Статья ссылается на следующие ключевые технологии и инструменты:
Apache Samza - фреймворк потоковой обработки
MTEB Leaderboard - эталон оценки встраивания текста
Venice - платформа хранения данных LinkedIn
Multilingual E5 - многоязычная модель встраивания текста
Резюме: Это типичный технический отчёт из промышленности, сосредоточенный на обмене опытом инженерной практики LinkedIn в области семантического поиска. Хотя техническая инновация относительно ограничена, полный дизайн системы, значительное улучшение результатов и глубокое рассмотрение инженерных вызовов делают её важной справочной информацией для промышленности.