2025-11-10T03:00:12.487488

Introducing Semantic Capability in LinkedIn's Content Search Engine

Yang, Zheng, Mohan et al.

In the past, most search queries issued to a search engine were short and simple. A keyword based search engine was able to answer such queries quite well. However, members are now developing the habit of issuing long and complex natural language queries. Answering such queries requires evolution of a search engine to have semantic capability. In this paper we present the design of LinkedIn's new content search engine with semantic capability, and its impact on metrics.

academic

Introducción de Capacidad Semántica en el Motor de Búsqueda de Contenidos de LinkedIn

Información Básica

ID del Artículo: 2412.20366
Título: Introducing Semantic Capability in LinkedIn's Content Search Engine
Autores: Xin Yang, Chujie Zheng, Madhumitha Mohan, Sonali Bhadra, Pansul Bhatt, Lingyu (Claire) Zhang, Rupesh Gupta
Institución: LinkedIn Corporation, Mountain View, CA, USA
Clasificación: cs.IR (Recuperación de Información)
Fecha de Publicación: Diciembre de 2024
Enlace del Artículo: https://arxiv.org/abs/2412.20366

Resumen

Con la evolución del comportamiento de búsqueda de los usuarios, los motores de búsqueda tradicionales basados en palabras clave ya no pueden satisfacer las crecientes demandas de consultas en lenguaje natural complejo. Este artículo presenta el motor de búsqueda de contenidos rediseñado de LinkedIn con capacidades de comprensión semántica, demostrando mejoras significativas en métricas clave.

Antecedentes de Investigación y Motivación

Definición del Problema

Tendencia de Complejidad en Consultas de Búsqueda: Los usuarios han evolucionado desde consultas cortas de palabras clave hacia consultas complejas en lenguaje natural, como "how to ask for a raise?" (cómo pedir un aumento), "dropout in AI" (abandono en IA), etc.
Limitaciones de la Búsqueda Tradicional: Los motores de búsqueda basados en coincidencia de palabras clave presentan dos problemas principales al procesar consultas complejas:
- Devuelven resultados vacíos cuando no todas las palabras clave de la consulta existen en ninguna publicación
- Incluso cuando existen publicaciones que contienen todas las palabras clave, pueden no responder correctamente la pregunta debido a la falta de comprensión conceptual

Motivación de la Investigación

LinkedIn descubrió mediante análisis que el índice de búsqueda contiene publicaciones que pueden responder correctamente las consultas, pero estas publicaciones pueden no contener todas las palabras clave de la consulta. Esto motivó al equipo a desarrollar un motor de búsqueda de contenidos con capacidades de coincidencia semántica para comprender mejor la intención de la consulta y devolver contenido relevante.

Contribuciones Principales

Diseño de una Arquitectura Semántica de Dos Capas: Incluye una capa de recuperación y una capa de clasificación multietapa, combinando efectivamente la coincidencia de palabras clave y la comprensión semántica
Implementación de una Estrategia de Recuperación Híbrida: Utiliza simultáneamente un recuperador basado en términos (TBR) y un recuperador basado en incrustaciones (EBR)
Establecimiento de un Marco de Optimización Multiobjetivo: Optimiza simultáneamente la tasa de relevancia temática (on-topic rate) y el compromiso del usuario (long-dwells)
Logro de Mejoras de Rendimiento Significativas: Ambas métricas de relevancia temática y tiempo de permanencia prolongado mejoraron más del 10%

Explicación Detallada del Método

Definición de la Tarea

Devolver publicaciones de contenido de alta calidad y atractivas para cada consulta de búsqueda, evaluadas mediante dos métricas cuantificables:

Tasa de Relevancia Temática (On-topic rate): Evalúa la calidad y relevancia de las publicaciones devueltas utilizando GPT
Tiempo de Permanencia Prolongado (Long-dwells): Mide el tiempo que los usuarios permanecen en una publicación

Arquitectura del Modelo

1. Capa de Recuperación (Retrieval Layer)

La capa de recuperación contiene dos recuperadores paralelos:

Recuperador Basado en Términos (TBR):

Mantiene un índice invertido que establece la asignación de palabras clave a publicaciones que contienen esa palabra
Encuentra publicaciones que contienen todas las palabras clave de la consulta mediante operaciones de intersección
Adecuado para consultas de navegación, como la búsqueda de publicaciones específicas

Recuperador Basado en Incrustaciones (EBR):

Adopta una arquitectura de modelo de dos torres (Two-tower Model)
Torre de incrustación de consultas: Procesa texto de consulta y características del usuario, generando incrustación de consulta
Torre de incrustación de publicaciones: Procesa texto de publicación y características del autor, generando incrustación de publicación
Utiliza el modelo multilingual-e5 para incrustación de texto
Calcula puntuaciones de coincidencia entre consulta y publicación mediante similitud de coseno

Ventajas clave del EBR:

Coincidencia Semántica: Basada en conceptos en lugar de coincidencia exacta de palabras clave
Personalización: Puede devolver resultados personalizados según las características del buscador
Optimización de Objetivos: Admite optimización de funciones objetivo arbitrarias

2. Capa de Clasificación Multietapa (Multi-stage Ranking Layer)

La capa de clasificación adopta un diseño de dos etapas para equilibrar efectividad y eficiencia:

Etapa de Clasificación L1:

Utiliza un modelo simple para clasificar inicialmente miles de publicaciones candidatas
Selecciona los primeros cientos de publicaciones candidatas para la siguiente etapa

Etapa de Clasificación L2:

Utiliza un modelo complejo para clasificación refinada de publicaciones candidatas
Genera los resultados de búsqueda finales

La arquitectura del modelo de clasificación contiene dos modelos predictivos:

Modelo Predictivo de Relevancia Temática: Recibe texto de consulta y texto de publicación como entrada, genera puntuación de relevancia
Modelo Predictivo de Tiempo de Permanencia Prolongado: Recibe un conjunto más rico de características, incluyendo:
- Texto de consulta y publicación
- Características de pares como puntuación de coincidencia BM25
- Características de consulta (por ejemplo, si contiene un título de puesto)
- Características de publicación (por ejemplo, popularidad de la publicación)
- Características del usuario (por ejemplo, intención de búsqueda de empleo)
- Características del autor (por ejemplo, influencia del autor)
- Características de relación usuario-autor (por ejemplo, si son amigos)

Fórmula de cálculo de puntuación final:

puntuación = α × puntuación_relevancia_temática + (1-α) × puntuación_permanencia_prolongada

donde α actúa como parámetro de ajuste, determinado mediante experimentos en línea.

Puntos de Innovación Técnica

Estrategia de Recuperación Híbrida: Combina las ventajas de coincidencia exacta y coincidencia semántica
Diseño de Modelo de Dos Torres: Admite precálculo de incrustaciones de publicaciones, mejorando significativamente la eficiencia de recuperación
Optimización Multiobjetivo: Considera simultáneamente la calidad del contenido y el compromiso del usuario
Arquitectura Jerárquica: Logra un buen equilibrio entre eficiencia y efectividad

Configuración Experimental

Conjunto de Datos

Utiliza datos históricos del motor de búsqueda de contenidos de LinkedIn
Formato de datos de entrenamiento: tripletas (consulta, publicación, etiqueta)
Las etiquetas combinan dos métricas: relevancia temática y tiempo de permanencia prolongado

Métricas de Evaluación

Tasa de Relevancia Temática (On-topic rate):
- Utiliza GPT para calificar las primeras 10 publicaciones devueltas (1 indica relevancia y alta calidad, 0 indica irrelevancia)
- Calcula la proporción de publicaciones etiquetadas como 1
Tiempo de Permanencia Prolongado (Long-dwells):
- Clasificación binaria basada en el tiempo de permanencia del usuario en la publicación
- Cuenta el número de publicaciones etiquetadas como 1

Detalles de Implementación

Modelo de incrustación de texto: multilingual-e5
Almacenamiento de incrustaciones: Sistema de almacenamiento de pares clave-valor Venice
Búsqueda de vecinos más cercanos aproximados: Limita el número de publicaciones escaneadas para controlar la latencia
Optimización de precálculo: Cálculo de incrustaciones de publicaciones en línea y casi en línea

Resultados Experimentales

Resultados Principales

El nuevo motor de búsqueda semántica logró mejoras de rendimiento significativas:

Relevancia Temática: Mejora superior al 10%
Tiempo de Permanencia Prolongado: Mejora superior al 10%
Impacto a Nivel de Sitio: Impacto positivo en el número total de sesiones de LinkedIn

Casos Típicos

El motor de búsqueda ahora puede procesar efectivamente consultas complejas en lenguaje natural, como:

"how to ask for a raise?" (cómo pedir un aumento)
"dropout in AI" (abandono en inteligencia artificial)

Estas consultas generalmente resultaban difíciles de satisfacer en sistemas tradicionales basados en palabras clave.

Trabajo Relacionado

El artículo se enfoca principalmente en aplicaciones prácticas de sistemas de búsqueda a nivel industrial, incluyendo tecnologías relacionadas como:

Tecnología de incrustación de texto (multilingual-e5)
Arquitectura de modelo de dos torres
Sistemas de clasificación multietapa
Optimización de sistemas de recuperación a gran escala

Conclusiones y Discusión

Conclusiones Principales

La capacidad de comprensión semántica es crucial para motores de búsqueda modernos
La estrategia de recuperación híbrida puede satisfacer las necesidades tanto de coincidencia exacta como de coincidencia semántica
El marco de optimización multiobjetivo mejora efectivamente la experiencia del usuario

Limitaciones

La definición actual de la métrica de relevancia temática es relativamente simple, sin poder capturar completamente las expectativas de calidad para diferentes tipos de consultas
La dependencia de GPT para evaluación de calidad puede presentar ciertas limitaciones

Direcciones Futuras

El equipo planea:

Mejorar las métricas de evaluación de relevancia temática
Introducir modelos de lenguaje grande (LLM) en la capa de clasificación, implementando mecanismo de atención conjunta para texto de consulta y publicación
Mejorar aún más la capacidad de comprensión profunda del lenguaje

Evaluación Profunda

Fortalezas

Alto Valor Práctico: Resuelve problemas importantes en negocios reales
Diseño de Arquitectura Razonable: La arquitectura de dos capas equilibra efectivamente la efectividad y la eficiencia
Solución Técnica Madura: Considera completamente los desafíos de ingeniería del despliegue a gran escala
Sistema de Evaluación Completo: Establece un marco de evaluación dual de calidad y compromiso
Efectos Significativos: Logra mejoras de métricas superiores al 10%

Insuficiencias

Innovación Técnica Limitada: Principalmente aplicación de ingeniería de tecnologías existentes
Limitaciones en Métodos de Evaluación: La dependencia de evaluación por GPT puede introducir sesgos
Experimentos Comparativos Insuficientes: Falta comparación detallada con otros métodos de búsqueda semántica
Análisis Teórico Deficiente: Carece de análisis teórico profundo y experimentos de ablación

Impacto

Valor Industrial: Proporciona referencias prácticas para sistemas de búsqueda semántica a gran escala
Promoción Tecnológica: Demuestra los efectos prácticos de la comprensión semántica en motores de búsqueda
Intercambio de Experiencias: Proporciona experiencias de ingeniería valiosas

Escenarios Aplicables

Este método es adecuado para:

Plataformas de búsqueda de contenido a gran escala
Sistemas de búsqueda que necesitan procesar consultas complejas en lenguaje natural
Aplicaciones de búsqueda con altos requisitos de personalización
Escenarios de búsqueda que necesitan equilibrar múltiples objetivos de optimización

Referencias

El artículo cita las siguientes tecnologías y herramientas clave:

Apache Samza - Marco de procesamiento de flujos
MTEB Leaderboard - Referencia de evaluación de incrustación de texto
Venice - Plataforma de almacenamiento de datos de LinkedIn
Multilingual E5 - Modelo de incrustación de texto multilingüe

Resumen: Este es un informe técnico típico de la industria que se enfoca en compartir la experiencia de ingeniería práctica de LinkedIn en búsqueda semántica. Aunque la innovación técnica es relativamente limitada, su diseño de sistema completo, mejoras significativas de efectividad y consideración profunda de desafíos de ingeniería lo hacen de importante valor de referencia para la industria.