2025-11-10T03:00:12.487488

Introducing Semantic Capability in LinkedIn's Content Search Engine

Yang, Zheng, Mohan et al.
In the past, most search queries issued to a search engine were short and simple. A keyword based search engine was able to answer such queries quite well. However, members are now developing the habit of issuing long and complex natural language queries. Answering such queries requires evolution of a search engine to have semantic capability. In this paper we present the design of LinkedIn's new content search engine with semantic capability, and its impact on metrics.
academic

Introduction de la Capacité Sémantique dans le Moteur de Recherche de Contenu de LinkedIn

Informations de Base

  • ID de l'article: 2412.20366
  • Titre: Introducing Semantic Capability in LinkedIn's Content Search Engine
  • Auteurs: Xin Yang, Chujie Zheng, Madhumitha Mohan, Sonali Bhadra, Pansul Bhatt, Lingyu (Claire) Zhang, Rupesh Gupta
  • Institution: LinkedIn Corporation, Mountain View, CA, USA
  • Classification: cs.IR (Récupération d'Information)
  • Date de Publication: Décembre 2024
  • Lien de l'article: https://arxiv.org/abs/2412.20366

Résumé

Avec l'évolution du comportement de recherche des utilisateurs, les moteurs de recherche traditionnels basés sur les mots-clés ne peuvent plus satisfaire les besoins croissants de requêtes en langage naturel complexe. Cet article présente le moteur de recherche de contenu nouvellement conçu de LinkedIn, doté de capacités de compréhension sémantique, et démontre ses améliorations significatives sur les indicateurs clés.

Contexte de Recherche et Motivation

Définition du Problème

  1. Tendance à la complexification des requêtes de recherche: Les utilisateurs sont passés de requêtes courtes basées sur des mots-clés à des requêtes en langage naturel complexe, telles que « how to ask for a raise? » (comment demander une augmentation?), « dropout in AI » (abandon scolaire en IA), etc.
  2. Limitations de la recherche traditionnelle: Les moteurs de recherche basés sur la correspondance de mots-clés présentent deux problèmes majeurs lors du traitement de requêtes complexes:
    • Retour de résultats vides lorsque tous les mots-clés de la requête n'existent dans aucun post
    • Même si des posts contenant tous les mots-clés existent, ils peuvent ne pas répondre correctement à la question en raison d'une compréhension conceptuelle insuffisante

Motivation de la Recherche

LinkedIn a découvert par analyse que l'index de recherche contient réellement des posts capables de répondre correctement aux requêtes, mais ces posts peuvent ne pas contenir tous les mots-clés de la requête. Cela a motivé l'équipe à développer un moteur de recherche de contenu doté de capacités de correspondance sémantique, afin de mieux comprendre l'intention de la requête et de retourner du contenu pertinent.

Contributions Principales

  1. Conception d'un moteur de recherche sémantique à architecture bicouche: Comprenant une couche de récupération et une couche de classement multi-étapes, combinant efficacement la correspondance par mots-clés et la compréhension sémantique
  2. Implémentation d'une stratégie de récupération hybride: Utilisant simultanément un récupérateur basé sur les termes (TBR) et un récupérateur basé sur les plongements (EBR)
  3. Établissement d'un cadre d'optimisation multi-objectifs: Optimisant simultanément le taux de pertinence thématique (on-topic rate) et l'engagement utilisateur (long-dwells)
  4. Réalisation d'améliorations de performance significatives: Les indicateurs de pertinence thématique et de long-dwells ont tous deux augmenté de plus de 10%

Détails de la Méthode

Définition de la Tâche

Retourner du contenu de posts de haute qualité et attrayants pour chaque requête de recherche, évalué par les deux indicateurs quantifiés suivants:

  • Taux de pertinence thématique (On-topic rate): Évaluation de la qualité et de la pertinence des posts retournés à l'aide de GPT
  • Long-dwells (Arrêts prolongés): Mesure du temps d'arrêt des utilisateurs sur les posts

Architecture du Modèle

1. Couche de Récupération (Retrieval Layer)

La couche de récupération contient deux récupérateurs parallèles:

Récupérateur Basé sur les Termes (TBR):

  • Maintient un index inversé établissant une correspondance entre les mots-clés et les posts les contenant
  • Trouve les posts contenant tous les mots-clés de la requête par opération d'intersection
  • Adapté aux requêtes de navigation, telles que la recherche de posts spécifiques

Récupérateur Basé sur les Plongements (EBR):

  • Adopte une architecture de modèle à deux tours (Two-tower Model)
  • Tour d'encodage de requête: Traite le texte de la requête et les caractéristiques de l'utilisateur, générant un plongement de requête
  • Tour d'encodage de post: Traite le texte du post et les caractéristiques de l'auteur, générant un plongement de post
  • Utilise le modèle multilingual-e5 pour l'encodage de texte
  • Calcule le score de correspondance entre la requête et le post via la similarité cosinus

Avantages clés de l'EBR:

  • Correspondance sémantique: Basée sur les concepts plutôt que sur la correspondance exacte de mots-clés
  • Personnalisation: Peut retourner des résultats personnalisés selon les caractéristiques du chercheur
  • Optimisation d'objectifs: Supporte l'optimisation de fonctions objectifs arbitraires

2. Couche de Classement Multi-étapes (Multi-stage Ranking Layer)

La couche de classement adopte une conception en deux étapes pour équilibrer l'efficacité et l'efficience:

Étape de Classement L1:

  • Utilise un modèle simple pour classer préalablement des milliers de posts candidats
  • Sélectionne les premiers centaines de posts candidats pour l'étape suivante

Étape de Classement L2:

  • Utilise un modèle complexe pour un classement fin des posts candidats
  • Génère les résultats de recherche finaux

L'architecture du modèle de classement comprend deux modèles de prédiction:

  • Modèle de prédiction de pertinence thématique: Prend en entrée le texte de la requête et le texte du post, produit un score de pertinence
  • Modèle de prédiction de long-dwells: Prend en entrée un ensemble de caractéristiques plus riche, incluant:
    • Texte de requête et de post
    • Score de correspondance BM25 et autres caractéristiques d'appariement
    • Caractéristiques de requête (par exemple, si elle contient un titre de poste)
    • Caractéristiques de post (par exemple, popularité du post)
    • Caractéristiques utilisateur (par exemple, intention de recherche d'emploi)
    • Caractéristiques d'auteur (par exemple, influence de l'auteur)
    • Caractéristiques de relation utilisateur-auteur (par exemple, si amis)

Formule de calcul du score final:

score = α × on-topicness_score + (1-α) × long-dwell_score

où α est un paramètre d'ajustement, sa valeur optimale étant déterminée par des expériences en ligne.

Points d'Innovation Technique

  1. Stratégie de récupération hybride: Combine les avantages de la correspondance exacte et de la correspondance sémantique
  2. Conception du modèle à deux tours: Supporte le précalcul des plongements de posts, améliorant considérablement l'efficacité de récupération
  3. Optimisation multi-objectifs: Considère simultanément la qualité du contenu et l'engagement utilisateur
  4. Architecture en couches: Atteint un bon équilibre entre efficacité et efficience

Configuration Expérimentale

Ensemble de Données

  • Utilise les données historiques du moteur de recherche de contenu de LinkedIn
  • Format des données d'entraînement: triplets (query, post, label)
  • Les étiquettes combinent les deux indicateurs de pertinence thématique et de long-dwells

Métriques d'Évaluation

  1. Taux de Pertinence Thématique (On-topic rate):
    • Utilise GPT pour évaluer les 10 premiers posts retournés (1 indique pertinent et de haute qualité, 0 indique non pertinent)
    • Calcule la proportion de posts étiquetés comme 1
  2. Long-dwells (Arrêts Prolongés):
    • Classification binaire basée sur le temps d'arrêt de l'utilisateur sur le post
    • Compte le nombre de posts étiquetés comme 1

Détails d'Implémentation

  • Modèle d'encodage de texte: multilingual-e5
  • Stockage des plongements: Système de stockage clé-valeur Venice
  • Recherche des plus proches voisins approximatifs: Limitation du nombre de posts scannés pour contrôler la latence
  • Optimisation par précalcul: Calcul hors ligne et quasi-temps réel des plongements de posts

Résultats Expérimentaux

Résultats Principaux

Le nouveau moteur de recherche sémantique a réalisé des améliorations de performance significatives:

  • Pertinence thématique: Amélioration supérieure à 10%
  • Long-dwells: Amélioration supérieure à 10%
  • Impact au niveau du site: Impact positif sur le nombre total de sessions de LinkedIn

Cas Typiques

Le moteur de recherche peut maintenant traiter efficacement des requêtes complexes en langage naturel, telles que:

  • « how to ask for a raise? » (comment demander une augmentation?)
  • « dropout in AI » (abandon scolaire en IA)

Ces requêtes produisaient généralement des résultats insatisfaisants dans les systèmes traditionnels basés sur les mots-clés.

Travaux Connexes

L'article se concentre sur l'application pratique des systèmes de recherche au niveau industriel, incluant les technologies connexes:

  • Technologie d'encodage de texte (multilingual-e5)
  • Architecture de modèle à deux tours
  • Systèmes de classement multi-étapes
  • Optimisation de systèmes de récupération à grande échelle

Conclusion et Discussion

Conclusions Principales

  1. La capacité de compréhension sémantique est cruciale pour les moteurs de recherche modernes
  2. La stratégie de récupération hybride peut satisfaire les besoins de correspondance exacte et de correspondance sémantique
  3. Le cadre d'optimisation multi-objectifs améliore efficacement l'expérience utilisateur

Limitations

  1. La définition actuelle de l'indicateur de pertinence thématique est relativement simple et ne peut pas capturer complètement les attentes de qualité pour différents types de requêtes
  2. L'évaluation de la qualité basée sur GPT peut présenter certaines limitations

Directions Futures

L'équipe prévoit:

  1. Améliorer les métriques d'évaluation de la pertinence thématique
  2. Introduire des modèles de langage de grande taille (LLM) dans la couche de classement, réalisant un mécanisme d'attention conjointe sur les textes de requête et de post
  3. Améliorer davantage la capacité de compréhension profonde du langage

Évaluation Approfondie

Points Forts

  1. Valeur pratique élevée: Résout des problèmes importants dans les applications métier réelles
  2. Conception architecturale raisonnée: L'architecture bicouche équilibre efficacement l'efficacité et l'efficience
  3. Solution technique mature: Considère pleinement les défis d'ingénierie du déploiement à grande échelle
  4. Système d'évaluation complet: Établit un cadre d'évaluation double pour la qualité et l'engagement
  5. Résultats significatifs: Réalise une amélioration des indicateurs supérieure à 10%

Insuffisances

  1. Innovation technique limitée: Principalement une application d'ingénierie des technologies existantes
  2. Limitations des méthodes d'évaluation: L'évaluation basée sur GPT peut introduire des biais
  3. Expériences comparatives insuffisantes: Manque de comparaisons détaillées avec d'autres méthodes de recherche sémantique
  4. Absence d'analyse théorique: Pas d'analyse théorique approfondie ni d'expériences d'ablation

Impact

  1. Valeur pour l'industrie: Fournit une référence pratique pour les systèmes de recherche sémantique à grande échelle
  2. Promotion technologique: Démontre l'effet pratique de la compréhension sémantique dans les moteurs de recherche
  3. Partage d'expérience: Fournit une expérience d'ingénierie pratique précieuse

Scénarios Applicables

Cette méthode est applicable à:

  • Plateformes de recherche de contenu à grande échelle
  • Systèmes de recherche devant traiter des requêtes complexes en langage naturel
  • Applications de recherche avec exigences élevées de personnalisation
  • Scénarios de recherche nécessitant d'équilibrer plusieurs objectifs d'optimisation

Références

L'article cite les technologies et outils clés suivants:

  1. Apache Samza - Cadre de traitement de flux
  2. MTEB Leaderboard - Référence d'évaluation d'encodage de texte
  3. Venice - Plateforme de stockage de données de LinkedIn
  4. Multilingual E5 - Modèle d'encodage de texte multilingue

Résumé: Cet article est un rapport technique typique du secteur industriel, mettant l'accent sur le partage de l'expérience d'ingénierie pratique de LinkedIn dans la recherche sémantique. Bien que l'innovation technique soit relativement limitée, sa conception de système complète, ses améliorations de performance significatives et sa considération approfondie des défis d'ingénierie lui confèrent une valeur de référence importante pour l'industrie.