2025-11-10T03:00:12.487488

Introducing Semantic Capability in LinkedIn's Content Search Engine

Yang, Zheng, Mohan et al.

In the past, most search queries issued to a search engine were short and simple. A keyword based search engine was able to answer such queries quite well. However, members are now developing the habit of issuing long and complex natural language queries. Answering such queries requires evolution of a search engine to have semantic capability. In this paper we present the design of LinkedIn's new content search engine with semantic capability, and its impact on metrics.

academic

Введение семантических возможностей в поисковую систему контента LinkedIn

Основная информация

ID статьи: 2412.20366
Название: Introducing Semantic Capability in LinkedIn's Content Search Engine
Авторы: Xin Yang, Chujie Zheng, Madhumitha Mohan, Sonali Bhadra, Pansul Bhatt, Lingyu (Claire) Zhang, Rupesh Gupta
Организация: LinkedIn Corporation, Mountain View, CA, USA
Классификация: cs.IR (Information Retrieval)
Дата публикации: Декабрь 2024
Ссылка на статью: https://arxiv.org/abs/2412.20366

Аннотация

С эволюцией поведения пользователей при поиске традиционные поисковые системы на основе ключевых слов больше не могут удовлетворить растущие потребности в обработке сложных запросов на естественном языке. В данной статье представлена переработанная поисковая система контента LinkedIn с семантическими возможностями и демонстрируется её значительное влияние на ключевые показатели производительности.

Предпосылки и мотивация исследования

Определение проблемы

Тенденция усложнения поисковых запросов: Пользователи перешли от коротких запросов с ключевыми словами к сложным запросам на естественном языке, таким как "how to ask for a raise?" (как попросить повышение зарплаты?), "dropout in AI" (отсев в искусственном интеллекте) и т.д.
Ограничения традиционного поиска: Поисковые системы на основе сопоставления ключевых слов имеют две основные проблемы при обработке сложных запросов:
- Возврат пустых результатов, когда все ключевые слова из запроса отсутствуют в любом посте
- Даже если существуют посты, содержащие все ключевые слова, они могут не дать правильный ответ из-за отсутствия понимания концепций

Мотивация исследования

LinkedIn обнаружила, что в индексе поиска фактически существуют посты, которые могут правильно ответить на запрос, но эти посты могут не содержать все ключевые слова из запроса. Это побудило команду разработать поисковую систему контента с возможностью семантического сопоставления для лучшего понимания намерения запроса и возврата релевантного контента.

Основные вклады

Разработана двухуровневая архитектура семантической поисковой системы: включающая уровень поиска и многоэтапный уровень ранжирования, эффективно сочетающая сопоставление ключевых слов и семантическое понимание
Реализована гибридная стратегия поиска: одновременное использование поисковика на основе терминов (TBR) и поисковика на основе встраиваний (EBR)
Установлена структура многоцелевой оптимизации: одновременная оптимизация коэффициента релевантности по теме (on-topic rate) и вовлечённости пользователей (long-dwells)
Достигнуты значительные улучшения производительности: оба показателя релевантности по теме и длительного пребывания улучшены более чем на 10%

Подробное описание методологии

Определение задачи

Возврат высококачественного и привлекательного контента постов для каждого поискового запроса, оцениваемый по двум количественным показателям:

Коэффициент релевантности по теме (On-topic rate): использование GPT для оценки качества и релевантности возвращаемых постов
Длительное пребывание (Long-dwells): измерение времени, которое пользователь проводит на посте

Архитектура модели

1. Уровень поиска (Retrieval Layer)

Уровень поиска содержит два параллельных поисковика:

Поисковик на основе терминов (TBR):

Поддерживает инвертированный индекс, устанавливающий соответствие между ключевыми словами и постами, содержащими эти слова
Находит посты, содержащие все ключевые слова из запроса, через операцию пересечения множеств
Подходит для навигационных запросов, таких как поиск конкретного поста

Поисковик на основе встраиваний (EBR):

Использует архитектуру двухбашенной модели (Two-tower Model)
Башня встраивания запроса: обрабатывает текст запроса и характеристики пользователя, генерирует встраивание запроса
Башня встраивания поста: обрабатывает текст поста и характеристики автора, генерирует встраивание поста
Использует модель multilingual-e5 для встраивания текста
Вычисляет оценку соответствия запроса и поста через косинусное сходство

Ключевые преимущества EBR:

Семантическое сопоставление: основано на концепциях, а не на точном сопоставлении ключевых слов
Персонализация: может возвращать персонализированные результаты на основе характеристик поисковика
Оптимизация целей: поддерживает оптимизацию произвольной целевой функции

2. Многоэтапный уровень ранжирования (Multi-stage Ranking Layer)

Уровень ранжирования использует двухэтапный дизайн для балансировки эффективности и производительности:

Этап ранжирования L1:

Использует простую модель для предварительного ранжирования тысяч кандидатов постов
Отбирает первые несколько сотен кандидатов постов для перехода на следующий этап

Этап ранжирования L2:

Использует сложную модель для точного ранжирования кандидатов постов
Генерирует окончательные результаты поиска

Архитектура модели ранжирования включает две модели предсказания:

Модель предсказания релевантности по теме: на входе текст запроса и текст поста, на выходе оценка релевантности
Модель предсказания длительного пребывания: на входе более богатый набор признаков, включая:
- Текст запроса и поста
- Парные признаки, такие как оценка BM25
- Признаки запроса (например, содержит ли название должности)
- Признаки поста (например, популярность поста)
- Признаки пользователя (например, наличие намерения поиска работы)
- Признаки автора (например, влияние автора)
- Признаки отношения пользователь-автор (например, являются ли они друзьями)

Формула расчёта итоговой оценки:

score = α × on-topicness_score + (1-α) × long-dwell_score

где α служит параметром регулировки, оптимальное значение которого определяется через онлайн-эксперименты.

Технические инновации

Гибридная стратегия поиска: сочетание преимуществ точного сопоставления и семантического сопоставления
Дизайн двухбашенной модели: поддерживает предварительное вычисление встраиваний постов, значительно повышая эффективность поиска
Многоцелевая оптимизация: одновременное рассмотрение качества контента и вовлечённости пользователей
Многоуровневая архитектура: достигает хорошего баланса между эффективностью и производительностью

Экспериментальная установка

Набор данных

Использование исторических данных поисковой системы контента LinkedIn
Формат обучающих данных: триплеты (query, post, label)
Метки объединяют два показателя: релевантность по теме и длительное пребывание

Метрики оценки

Коэффициент релевантности по теме (On-topic rate):
- Использование GPT для оценки первых 10 возвращаемых постов (1 означает релевантность и высокое качество, 0 означает нерелевантность)
- Расчёт доли постов с меткой 1
Длительное пребывание (Long-dwells):
- Двоичная классификация на основе времени пребывания пользователя на посте
- Подсчёт количества постов с меткой 1

Детали реализации

Модель встраивания текста: multilingual-e5
Хранилище встраиваний: система хранилища ключ-значение Venice
Поиск приблизительно ближайших соседей: ограничение количества сканируемых постов для контроля задержки
Оптимизация предварительного вычисления: автономное и близкое к реальному времени вычисление встраиваний постов

Результаты экспериментов

Основные результаты

Новая семантическая поисковая система достигла значительных улучшений производительности:

Коэффициент релевантности по теме: улучшение более чем на 10%
Длительное пребывание: улучшение более чем на 10%
Влияние на уровне сайта: положительное влияние на общее количество сеансов LinkedIn

Типичные примеры

Поисковая система теперь может эффективно обрабатывать сложные запросы на естественном языке, такие как:

"how to ask for a raise?" (как попросить повышение зарплаты?)
"dropout in AI" (отсев в искусственном интеллекте)

Эти запросы часто дают неудовлетворительные результаты в традиционных системах на основе ключевых слов.

Связанные работы

Статья сосредоточена на практическом применении поисковых систем промышленного уровня, связанные технологии включают:

Технологии встраивания текста (multilingual-e5)
Архитектура двухбашенной модели
Многоэтапные системы ранжирования
Оптимизация крупномасштабных систем поиска

Заключение и обсуждение

Основные выводы

Семантические возможности понимания критически важны для современных поисковых систем
Гибридная стратегия поиска может удовлетворить потребности как точного сопоставления, так и семантического сопоставления
Структура многоцелевой оптимизации эффективно улучшает пользовательский опыт

Ограничения

Текущее определение показателя релевантности по теме относительно простое и не может полностью отразить ожидания качества для различных типов запросов
Зависимость от GPT для оценки качества может иметь определённые ограничения

Направления будущих исследований

Команда планирует:

Улучшить метрики оценки релевантности по теме
Внедрить большие языковые модели (LLM) на уровне ранжирования для реализации механизма совместного внимания к текстам запроса и поста
Дальнейшее повышение глубины понимания языка

Глубокая оценка

Преимущества

Высокая практическая ценность: решает важные проблемы в реальном бизнесе
Разумный дизайн архитектуры: двухуровневая архитектура эффективно балансирует производительность и эффективность
Зрелое техническое решение: полностью учитывает инженерные вызовы крупномасштабного развёртывания
Совершенная система оценки: устанавливает двойную систему оценки качества и вовлечённости
Значительные результаты: достигнуто улучшение показателей более чем на 10%

Недостатки

Ограниченная техническая инновация: в основном инженерное применение существующих технологий
Ограничения методов оценки: зависимость от оценки GPT может привести к смещению
Недостаточные сравнительные эксперименты: отсутствуют подробные сравнения с другими методами семантического поиска
Отсутствие теоретического анализа: нет глубокого теоретического анализа и абляционных экспериментов

Влияние

Ценность для промышленности: предоставляет практические рекомендации для крупномасштабных систем семантического поиска
Продвижение технологии: демонстрирует практическое применение семантического понимания в поисковых системах
Обмен опытом: предоставляет ценный опыт инженерной практики

Применимые сценарии

Данный метод применим к:

Крупномасштабным платформам поиска контента
Поисковым системам, требующим обработки сложных запросов на естественном языке
Поисковым приложениям с высокими требованиями к персонализации
Сценариям поиска, требующим балансировки нескольких целей оптимизации

Библиография

Статья ссылается на следующие ключевые технологии и инструменты:

Apache Samza - фреймворк потоковой обработки
MTEB Leaderboard - эталон оценки встраивания текста
Venice - платформа хранения данных LinkedIn
Multilingual E5 - многоязычная модель встраивания текста

Резюме: Это типичный технический отчёт из промышленности, сосредоточенный на обмене опытом инженерной практики LinkedIn в области семантического поиска. Хотя техническая инновация относительно ограничена, полный дизайн системы, значительное улучшение результатов и глубокое рассмотрение инженерных вызовов делают её важной справочной информацией для промышленности.