2025-11-10T03:00:12.487488

Introducing Semantic Capability in LinkedIn's Content Search Engine

Yang, Zheng, Mohan et al.
In the past, most search queries issued to a search engine were short and simple. A keyword based search engine was able to answer such queries quite well. However, members are now developing the habit of issuing long and complex natural language queries. Answering such queries requires evolution of a search engine to have semantic capability. In this paper we present the design of LinkedIn's new content search engine with semantic capability, and its impact on metrics.
academic

Introducción de Capacidad Semántica en el Motor de Búsqueda de Contenidos de LinkedIn

Información Básica

  • ID del Artículo: 2412.20366
  • Título: Introducing Semantic Capability in LinkedIn's Content Search Engine
  • Autores: Xin Yang, Chujie Zheng, Madhumitha Mohan, Sonali Bhadra, Pansul Bhatt, Lingyu (Claire) Zhang, Rupesh Gupta
  • Institución: LinkedIn Corporation, Mountain View, CA, USA
  • Clasificación: cs.IR (Recuperación de Información)
  • Fecha de Publicación: Diciembre de 2024
  • Enlace del Artículo: https://arxiv.org/abs/2412.20366

Resumen

Con la evolución del comportamiento de búsqueda de los usuarios, los motores de búsqueda tradicionales basados en palabras clave ya no pueden satisfacer las crecientes demandas de consultas en lenguaje natural complejo. Este artículo presenta el motor de búsqueda de contenidos rediseñado de LinkedIn con capacidades de comprensión semántica, demostrando mejoras significativas en métricas clave.

Antecedentes de Investigación y Motivación

Definición del Problema

  1. Tendencia de Complejidad en Consultas de Búsqueda: Los usuarios han evolucionado desde consultas cortas de palabras clave hacia consultas complejas en lenguaje natural, como "how to ask for a raise?" (cómo pedir un aumento), "dropout in AI" (abandono en IA), etc.
  2. Limitaciones de la Búsqueda Tradicional: Los motores de búsqueda basados en coincidencia de palabras clave presentan dos problemas principales al procesar consultas complejas:
    • Devuelven resultados vacíos cuando no todas las palabras clave de la consulta existen en ninguna publicación
    • Incluso cuando existen publicaciones que contienen todas las palabras clave, pueden no responder correctamente la pregunta debido a la falta de comprensión conceptual

Motivación de la Investigación

LinkedIn descubrió mediante análisis que el índice de búsqueda contiene publicaciones que pueden responder correctamente las consultas, pero estas publicaciones pueden no contener todas las palabras clave de la consulta. Esto motivó al equipo a desarrollar un motor de búsqueda de contenidos con capacidades de coincidencia semántica para comprender mejor la intención de la consulta y devolver contenido relevante.

Contribuciones Principales

  1. Diseño de una Arquitectura Semántica de Dos Capas: Incluye una capa de recuperación y una capa de clasificación multietapa, combinando efectivamente la coincidencia de palabras clave y la comprensión semántica
  2. Implementación de una Estrategia de Recuperación Híbrida: Utiliza simultáneamente un recuperador basado en términos (TBR) y un recuperador basado en incrustaciones (EBR)
  3. Establecimiento de un Marco de Optimización Multiobjetivo: Optimiza simultáneamente la tasa de relevancia temática (on-topic rate) y el compromiso del usuario (long-dwells)
  4. Logro de Mejoras de Rendimiento Significativas: Ambas métricas de relevancia temática y tiempo de permanencia prolongado mejoraron más del 10%

Explicación Detallada del Método

Definición de la Tarea

Devolver publicaciones de contenido de alta calidad y atractivas para cada consulta de búsqueda, evaluadas mediante dos métricas cuantificables:

  • Tasa de Relevancia Temática (On-topic rate): Evalúa la calidad y relevancia de las publicaciones devueltas utilizando GPT
  • Tiempo de Permanencia Prolongado (Long-dwells): Mide el tiempo que los usuarios permanecen en una publicación

Arquitectura del Modelo

1. Capa de Recuperación (Retrieval Layer)

La capa de recuperación contiene dos recuperadores paralelos:

Recuperador Basado en Términos (TBR):

  • Mantiene un índice invertido que establece la asignación de palabras clave a publicaciones que contienen esa palabra
  • Encuentra publicaciones que contienen todas las palabras clave de la consulta mediante operaciones de intersección
  • Adecuado para consultas de navegación, como la búsqueda de publicaciones específicas

Recuperador Basado en Incrustaciones (EBR):

  • Adopta una arquitectura de modelo de dos torres (Two-tower Model)
  • Torre de incrustación de consultas: Procesa texto de consulta y características del usuario, generando incrustación de consulta
  • Torre de incrustación de publicaciones: Procesa texto de publicación y características del autor, generando incrustación de publicación
  • Utiliza el modelo multilingual-e5 para incrustación de texto
  • Calcula puntuaciones de coincidencia entre consulta y publicación mediante similitud de coseno

Ventajas clave del EBR:

  • Coincidencia Semántica: Basada en conceptos en lugar de coincidencia exacta de palabras clave
  • Personalización: Puede devolver resultados personalizados según las características del buscador
  • Optimización de Objetivos: Admite optimización de funciones objetivo arbitrarias

2. Capa de Clasificación Multietapa (Multi-stage Ranking Layer)

La capa de clasificación adopta un diseño de dos etapas para equilibrar efectividad y eficiencia:

Etapa de Clasificación L1:

  • Utiliza un modelo simple para clasificar inicialmente miles de publicaciones candidatas
  • Selecciona los primeros cientos de publicaciones candidatas para la siguiente etapa

Etapa de Clasificación L2:

  • Utiliza un modelo complejo para clasificación refinada de publicaciones candidatas
  • Genera los resultados de búsqueda finales

La arquitectura del modelo de clasificación contiene dos modelos predictivos:

  • Modelo Predictivo de Relevancia Temática: Recibe texto de consulta y texto de publicación como entrada, genera puntuación de relevancia
  • Modelo Predictivo de Tiempo de Permanencia Prolongado: Recibe un conjunto más rico de características, incluyendo:
    • Texto de consulta y publicación
    • Características de pares como puntuación de coincidencia BM25
    • Características de consulta (por ejemplo, si contiene un título de puesto)
    • Características de publicación (por ejemplo, popularidad de la publicación)
    • Características del usuario (por ejemplo, intención de búsqueda de empleo)
    • Características del autor (por ejemplo, influencia del autor)
    • Características de relación usuario-autor (por ejemplo, si son amigos)

Fórmula de cálculo de puntuación final:

puntuación = α × puntuación_relevancia_temática + (1-α) × puntuación_permanencia_prolongada

donde α actúa como parámetro de ajuste, determinado mediante experimentos en línea.

Puntos de Innovación Técnica

  1. Estrategia de Recuperación Híbrida: Combina las ventajas de coincidencia exacta y coincidencia semántica
  2. Diseño de Modelo de Dos Torres: Admite precálculo de incrustaciones de publicaciones, mejorando significativamente la eficiencia de recuperación
  3. Optimización Multiobjetivo: Considera simultáneamente la calidad del contenido y el compromiso del usuario
  4. Arquitectura Jerárquica: Logra un buen equilibrio entre eficiencia y efectividad

Configuración Experimental

Conjunto de Datos

  • Utiliza datos históricos del motor de búsqueda de contenidos de LinkedIn
  • Formato de datos de entrenamiento: tripletas (consulta, publicación, etiqueta)
  • Las etiquetas combinan dos métricas: relevancia temática y tiempo de permanencia prolongado

Métricas de Evaluación

  1. Tasa de Relevancia Temática (On-topic rate):
    • Utiliza GPT para calificar las primeras 10 publicaciones devueltas (1 indica relevancia y alta calidad, 0 indica irrelevancia)
    • Calcula la proporción de publicaciones etiquetadas como 1
  2. Tiempo de Permanencia Prolongado (Long-dwells):
    • Clasificación binaria basada en el tiempo de permanencia del usuario en la publicación
    • Cuenta el número de publicaciones etiquetadas como 1

Detalles de Implementación

  • Modelo de incrustación de texto: multilingual-e5
  • Almacenamiento de incrustaciones: Sistema de almacenamiento de pares clave-valor Venice
  • Búsqueda de vecinos más cercanos aproximados: Limita el número de publicaciones escaneadas para controlar la latencia
  • Optimización de precálculo: Cálculo de incrustaciones de publicaciones en línea y casi en línea

Resultados Experimentales

Resultados Principales

El nuevo motor de búsqueda semántica logró mejoras de rendimiento significativas:

  • Relevancia Temática: Mejora superior al 10%
  • Tiempo de Permanencia Prolongado: Mejora superior al 10%
  • Impacto a Nivel de Sitio: Impacto positivo en el número total de sesiones de LinkedIn

Casos Típicos

El motor de búsqueda ahora puede procesar efectivamente consultas complejas en lenguaje natural, como:

  • "how to ask for a raise?" (cómo pedir un aumento)
  • "dropout in AI" (abandono en inteligencia artificial)

Estas consultas generalmente resultaban difíciles de satisfacer en sistemas tradicionales basados en palabras clave.

Trabajo Relacionado

El artículo se enfoca principalmente en aplicaciones prácticas de sistemas de búsqueda a nivel industrial, incluyendo tecnologías relacionadas como:

  • Tecnología de incrustación de texto (multilingual-e5)
  • Arquitectura de modelo de dos torres
  • Sistemas de clasificación multietapa
  • Optimización de sistemas de recuperación a gran escala

Conclusiones y Discusión

Conclusiones Principales

  1. La capacidad de comprensión semántica es crucial para motores de búsqueda modernos
  2. La estrategia de recuperación híbrida puede satisfacer las necesidades tanto de coincidencia exacta como de coincidencia semántica
  3. El marco de optimización multiobjetivo mejora efectivamente la experiencia del usuario

Limitaciones

  1. La definición actual de la métrica de relevancia temática es relativamente simple, sin poder capturar completamente las expectativas de calidad para diferentes tipos de consultas
  2. La dependencia de GPT para evaluación de calidad puede presentar ciertas limitaciones

Direcciones Futuras

El equipo planea:

  1. Mejorar las métricas de evaluación de relevancia temática
  2. Introducir modelos de lenguaje grande (LLM) en la capa de clasificación, implementando mecanismo de atención conjunta para texto de consulta y publicación
  3. Mejorar aún más la capacidad de comprensión profunda del lenguaje

Evaluación Profunda

Fortalezas

  1. Alto Valor Práctico: Resuelve problemas importantes en negocios reales
  2. Diseño de Arquitectura Razonable: La arquitectura de dos capas equilibra efectivamente la efectividad y la eficiencia
  3. Solución Técnica Madura: Considera completamente los desafíos de ingeniería del despliegue a gran escala
  4. Sistema de Evaluación Completo: Establece un marco de evaluación dual de calidad y compromiso
  5. Efectos Significativos: Logra mejoras de métricas superiores al 10%

Insuficiencias

  1. Innovación Técnica Limitada: Principalmente aplicación de ingeniería de tecnologías existentes
  2. Limitaciones en Métodos de Evaluación: La dependencia de evaluación por GPT puede introducir sesgos
  3. Experimentos Comparativos Insuficientes: Falta comparación detallada con otros métodos de búsqueda semántica
  4. Análisis Teórico Deficiente: Carece de análisis teórico profundo y experimentos de ablación

Impacto

  1. Valor Industrial: Proporciona referencias prácticas para sistemas de búsqueda semántica a gran escala
  2. Promoción Tecnológica: Demuestra los efectos prácticos de la comprensión semántica en motores de búsqueda
  3. Intercambio de Experiencias: Proporciona experiencias de ingeniería valiosas

Escenarios Aplicables

Este método es adecuado para:

  • Plataformas de búsqueda de contenido a gran escala
  • Sistemas de búsqueda que necesitan procesar consultas complejas en lenguaje natural
  • Aplicaciones de búsqueda con altos requisitos de personalización
  • Escenarios de búsqueda que necesitan equilibrar múltiples objetivos de optimización

Referencias

El artículo cita las siguientes tecnologías y herramientas clave:

  1. Apache Samza - Marco de procesamiento de flujos
  2. MTEB Leaderboard - Referencia de evaluación de incrustación de texto
  3. Venice - Plataforma de almacenamiento de datos de LinkedIn
  4. Multilingual E5 - Modelo de incrustación de texto multilingüe

Resumen: Este es un informe técnico típico de la industria que se enfoca en compartir la experiencia de ingeniería práctica de LinkedIn en búsqueda semántica. Aunque la innovación técnica es relativamente limitada, su diseño de sistema completo, mejoras significativas de efectividad y consideración profunda de desafíos de ingeniería lo hacen de importante valor de referencia para la industria.