Introducing Semantic Capability in LinkedIn's Content Search Engine
Yang, Zheng, Mohan et al.
In the past, most search queries issued to a search engine were short and simple. A keyword based search engine was able to answer such queries quite well. However, members are now developing the habit of issuing long and complex natural language queries. Answering such queries requires evolution of a search engine to have semantic capability. In this paper we present the design of LinkedIn's new content search engine with semantic capability, and its impact on metrics.
academic
Introducción de Capacidad Semántica en el Motor de Búsqueda de Contenidos de LinkedIn
Con la evolución del comportamiento de búsqueda de los usuarios, los motores de búsqueda tradicionales basados en palabras clave ya no pueden satisfacer las crecientes demandas de consultas en lenguaje natural complejo. Este artículo presenta el motor de búsqueda de contenidos rediseñado de LinkedIn con capacidades de comprensión semántica, demostrando mejoras significativas en métricas clave.
Tendencia de Complejidad en Consultas de Búsqueda: Los usuarios han evolucionado desde consultas cortas de palabras clave hacia consultas complejas en lenguaje natural, como "how to ask for a raise?" (cómo pedir un aumento), "dropout in AI" (abandono en IA), etc.
Limitaciones de la Búsqueda Tradicional: Los motores de búsqueda basados en coincidencia de palabras clave presentan dos problemas principales al procesar consultas complejas:
Devuelven resultados vacíos cuando no todas las palabras clave de la consulta existen en ninguna publicación
Incluso cuando existen publicaciones que contienen todas las palabras clave, pueden no responder correctamente la pregunta debido a la falta de comprensión conceptual
LinkedIn descubrió mediante análisis que el índice de búsqueda contiene publicaciones que pueden responder correctamente las consultas, pero estas publicaciones pueden no contener todas las palabras clave de la consulta. Esto motivó al equipo a desarrollar un motor de búsqueda de contenidos con capacidades de coincidencia semántica para comprender mejor la intención de la consulta y devolver contenido relevante.
Diseño de una Arquitectura Semántica de Dos Capas: Incluye una capa de recuperación y una capa de clasificación multietapa, combinando efectivamente la coincidencia de palabras clave y la comprensión semántica
Implementación de una Estrategia de Recuperación Híbrida: Utiliza simultáneamente un recuperador basado en términos (TBR) y un recuperador basado en incrustaciones (EBR)
Establecimiento de un Marco de Optimización Multiobjetivo: Optimiza simultáneamente la tasa de relevancia temática (on-topic rate) y el compromiso del usuario (long-dwells)
Logro de Mejoras de Rendimiento Significativas: Ambas métricas de relevancia temática y tiempo de permanencia prolongado mejoraron más del 10%
La definición actual de la métrica de relevancia temática es relativamente simple, sin poder capturar completamente las expectativas de calidad para diferentes tipos de consultas
La dependencia de GPT para evaluación de calidad puede presentar ciertas limitaciones
Mejorar las métricas de evaluación de relevancia temática
Introducir modelos de lenguaje grande (LLM) en la capa de clasificación, implementando mecanismo de atención conjunta para texto de consulta y publicación
Mejorar aún más la capacidad de comprensión profunda del lenguaje
El artículo cita las siguientes tecnologías y herramientas clave:
Apache Samza - Marco de procesamiento de flujos
MTEB Leaderboard - Referencia de evaluación de incrustación de texto
Venice - Plataforma de almacenamiento de datos de LinkedIn
Multilingual E5 - Modelo de incrustación de texto multilingüe
Resumen: Este es un informe técnico típico de la industria que se enfoca en compartir la experiencia de ingeniería práctica de LinkedIn en búsqueda semántica. Aunque la innovación técnica es relativamente limitada, su diseño de sistema completo, mejoras significativas de efectividad y consideración profunda de desafíos de ingeniería lo hacen de importante valor de referencia para la industria.