Introducing Semantic Capability in LinkedIn's Content Search Engine
Yang, Zheng, Mohan et al.
In the past, most search queries issued to a search engine were short and simple. A keyword based search engine was able to answer such queries quite well. However, members are now developing the habit of issuing long and complex natural language queries. Answering such queries requires evolution of a search engine to have semantic capability. In this paper we present the design of LinkedIn's new content search engine with semantic capability, and its impact on metrics.
academic
Introduzione della Capacità Semantica nel Motore di Ricerca dei Contenuti di LinkedIn
Con l'evoluzione del comportamento di ricerca degli utenti, i tradizionali motori di ricerca basati su parole chiave non riescono più a soddisfare le crescenti esigenze di interrogazioni in linguaggio naturale complesso. Questo articolo presenta il nuovo motore di ricerca dei contenuti di LinkedIn, dotato di capacità di comprensione semantica, e dimostra i suoi effetti significativi sul miglioramento delle metriche principali.
Tendenza alla Complessità delle Query di Ricerca: Gli utenti sono passati da brevi query di parole chiave a interrogazioni in linguaggio naturale complesso, come "how to ask for a raise?" (come chiedere un aumento?), "dropout in AI" (abbandono nell'IA), ecc.
Limitazioni della Ricerca Tradizionale: I motori di ricerca basati su corrispondenza di parole chiave presentano due problemi principali nel gestire query complesse:
Restituiscono risultati vuoti quando non tutte le parole chiave della query sono presenti in alcun post
Anche quando esistono post contenenti tutte le parole chiave, potrebbero non rispondere correttamente alla domanda a causa della mancanza di comprensione concettuale
LinkedIn ha scoperto attraverso l'analisi che nell'indice di ricerca esistono effettivamente post in grado di rispondere correttamente alle query, ma questi post potrebbero non contenere tutte le parole chiave della query. Questo ha spinto il team a sviluppare un motore di ricerca dei contenuti dotato di capacità di corrispondenza semantica, per comprendere meglio l'intento della query e restituire contenuti rilevanti.
Progettazione di un'architettura semantica a due livelli: Comprende uno strato di recupero e uno strato di ranking multistadio, combinando efficacemente la corrispondenza di parole chiave e la comprensione semantica
Implementazione di una strategia di recupero ibrida: Utilizza contemporaneamente un recuperatore basato su termini (TBR) e un recuperatore basato su embedding (EBR)
Creazione di un framework di ottimizzazione multi-obiettivo: Ottimizza simultaneamente il tasso di rilevanza tematica (on-topic rate) e il coinvolgimento degli utenti (long-dwells)
Raggiungimento di miglioramenti significativi delle prestazioni: Sia la rilevanza tematica che gli indicatori di lunga permanenza hanno registrato miglioramenti superiori al 10%
La definizione attuale dell'indicatore di rilevanza tematica è relativamente semplice e non può catturare completamente le aspettative di qualità per diversi tipi di query
L'affidamento sulla valutazione di GPT potrebbe presentare alcune limitazioni
Migliorare l'indicatore di valutazione della rilevanza tematica
Introdurre modelli di linguaggio di grandi dimensioni (LLM) nello strato di ranking, implementando meccanismi di attenzione congiunta per il testo della query e del post
Migliorare ulteriormente la capacità di comprensione profonda del linguaggio
L'articolo cita le seguenti tecnologie e strumenti chiave:
Apache Samza - Framework di elaborazione dei flussi
MTEB Leaderboard - Benchmark di valutazione dell'embedding del testo
Venice - Piattaforma di archiviazione dati di LinkedIn
Multilingual E5 - Modello di embedding del testo multilingue
Riepilogo: Questo è un tipico rapporto tecnico del settore industriale, focalizzato sulla condivisione dell'esperienza pratica di LinkedIn nel campo della ricerca semantica. Sebbene l'innovazione tecnica sia relativamente limitata, il suo design di sistema completo, i significativi miglioramenti degli effetti e la considerazione approfondita delle sfide ingegneristiche lo rendono di importante valore di riferimento per il settore industriale.