Introducing Semantic Capability in LinkedIn's Content Search Engine
Yang, Zheng, Mohan et al.
In the past, most search queries issued to a search engine were short and simple. A keyword based search engine was able to answer such queries quite well. However, members are now developing the habit of issuing long and complex natural language queries. Answering such queries requires evolution of a search engine to have semantic capability. In this paper we present the design of LinkedIn's new content search engine with semantic capability, and its impact on metrics.
academic
Introduction de la Capacité Sémantique dans le Moteur de Recherche de Contenu de LinkedIn
Avec l'évolution du comportement de recherche des utilisateurs, les moteurs de recherche traditionnels basés sur les mots-clés ne peuvent plus satisfaire les besoins croissants de requêtes en langage naturel complexe. Cet article présente le moteur de recherche de contenu nouvellement conçu de LinkedIn, doté de capacités de compréhension sémantique, et démontre ses améliorations significatives sur les indicateurs clés.
Tendance à la complexification des requêtes de recherche: Les utilisateurs sont passés de requêtes courtes basées sur des mots-clés à des requêtes en langage naturel complexe, telles que « how to ask for a raise? » (comment demander une augmentation?), « dropout in AI » (abandon scolaire en IA), etc.
Limitations de la recherche traditionnelle: Les moteurs de recherche basés sur la correspondance de mots-clés présentent deux problèmes majeurs lors du traitement de requêtes complexes:
Retour de résultats vides lorsque tous les mots-clés de la requête n'existent dans aucun post
Même si des posts contenant tous les mots-clés existent, ils peuvent ne pas répondre correctement à la question en raison d'une compréhension conceptuelle insuffisante
LinkedIn a découvert par analyse que l'index de recherche contient réellement des posts capables de répondre correctement aux requêtes, mais ces posts peuvent ne pas contenir tous les mots-clés de la requête. Cela a motivé l'équipe à développer un moteur de recherche de contenu doté de capacités de correspondance sémantique, afin de mieux comprendre l'intention de la requête et de retourner du contenu pertinent.
Conception d'un moteur de recherche sémantique à architecture bicouche: Comprenant une couche de récupération et une couche de classement multi-étapes, combinant efficacement la correspondance par mots-clés et la compréhension sémantique
Implémentation d'une stratégie de récupération hybride: Utilisant simultanément un récupérateur basé sur les termes (TBR) et un récupérateur basé sur les plongements (EBR)
Établissement d'un cadre d'optimisation multi-objectifs: Optimisant simultanément le taux de pertinence thématique (on-topic rate) et l'engagement utilisateur (long-dwells)
Réalisation d'améliorations de performance significatives: Les indicateurs de pertinence thématique et de long-dwells ont tous deux augmenté de plus de 10%
La définition actuelle de l'indicateur de pertinence thématique est relativement simple et ne peut pas capturer complètement les attentes de qualité pour différents types de requêtes
L'évaluation de la qualité basée sur GPT peut présenter certaines limitations
Améliorer les métriques d'évaluation de la pertinence thématique
Introduire des modèles de langage de grande taille (LLM) dans la couche de classement, réalisant un mécanisme d'attention conjointe sur les textes de requête et de post
Améliorer davantage la capacité de compréhension profonde du langage
L'article cite les technologies et outils clés suivants:
Apache Samza - Cadre de traitement de flux
MTEB Leaderboard - Référence d'évaluation d'encodage de texte
Venice - Plateforme de stockage de données de LinkedIn
Multilingual E5 - Modèle d'encodage de texte multilingue
Résumé: Cet article est un rapport technique typique du secteur industriel, mettant l'accent sur le partage de l'expérience d'ingénierie pratique de LinkedIn dans la recherche sémantique. Bien que l'innovation technique soit relativement limitée, sa conception de système complète, ses améliorations de performance significatives et sa considération approfondie des défis d'ingénierie lui confèrent une valeur de référence importante pour l'industrie.