2025-11-10T03:00:12.487488

Introducing Semantic Capability in LinkedIn's Content Search Engine

Yang, Zheng, Mohan et al.
In the past, most search queries issued to a search engine were short and simple. A keyword based search engine was able to answer such queries quite well. However, members are now developing the habit of issuing long and complex natural language queries. Answering such queries requires evolution of a search engine to have semantic capability. In this paper we present the design of LinkedIn's new content search engine with semantic capability, and its impact on metrics.
academic

Introduzione della Capacità Semantica nel Motore di Ricerca dei Contenuti di LinkedIn

Informazioni Fondamentali

  • ID Articolo: 2412.20366
  • Titolo: Introducing Semantic Capability in LinkedIn's Content Search Engine
  • Autori: Xin Yang, Chujie Zheng, Madhumitha Mohan, Sonali Bhadra, Pansul Bhatt, Lingyu (Claire) Zhang, Rupesh Gupta
  • Istituzione: LinkedIn Corporation, Mountain View, CA, USA
  • Classificazione: cs.IR (Information Retrieval)
  • Data di Pubblicazione: Dicembre 2024
  • Link dell'Articolo: https://arxiv.org/abs/2412.20366

Riassunto

Con l'evoluzione del comportamento di ricerca degli utenti, i tradizionali motori di ricerca basati su parole chiave non riescono più a soddisfare le crescenti esigenze di interrogazioni in linguaggio naturale complesso. Questo articolo presenta il nuovo motore di ricerca dei contenuti di LinkedIn, dotato di capacità di comprensione semantica, e dimostra i suoi effetti significativi sul miglioramento delle metriche principali.

Contesto della Ricerca e Motivazione

Definizione del Problema

  1. Tendenza alla Complessità delle Query di Ricerca: Gli utenti sono passati da brevi query di parole chiave a interrogazioni in linguaggio naturale complesso, come "how to ask for a raise?" (come chiedere un aumento?), "dropout in AI" (abbandono nell'IA), ecc.
  2. Limitazioni della Ricerca Tradizionale: I motori di ricerca basati su corrispondenza di parole chiave presentano due problemi principali nel gestire query complesse:
    • Restituiscono risultati vuoti quando non tutte le parole chiave della query sono presenti in alcun post
    • Anche quando esistono post contenenti tutte le parole chiave, potrebbero non rispondere correttamente alla domanda a causa della mancanza di comprensione concettuale

Motivazione della Ricerca

LinkedIn ha scoperto attraverso l'analisi che nell'indice di ricerca esistono effettivamente post in grado di rispondere correttamente alle query, ma questi post potrebbero non contenere tutte le parole chiave della query. Questo ha spinto il team a sviluppare un motore di ricerca dei contenuti dotato di capacità di corrispondenza semantica, per comprendere meglio l'intento della query e restituire contenuti rilevanti.

Contributi Principali

  1. Progettazione di un'architettura semantica a due livelli: Comprende uno strato di recupero e uno strato di ranking multistadio, combinando efficacemente la corrispondenza di parole chiave e la comprensione semantica
  2. Implementazione di una strategia di recupero ibrida: Utilizza contemporaneamente un recuperatore basato su termini (TBR) e un recuperatore basato su embedding (EBR)
  3. Creazione di un framework di ottimizzazione multi-obiettivo: Ottimizza simultaneamente il tasso di rilevanza tematica (on-topic rate) e il coinvolgimento degli utenti (long-dwells)
  4. Raggiungimento di miglioramenti significativi delle prestazioni: Sia la rilevanza tematica che gli indicatori di lunga permanenza hanno registrato miglioramenti superiori al 10%

Dettagli del Metodo

Definizione del Compito

Restituire post di contenuto di alta qualità e coinvolgenti per ogni query di ricerca, valutati attraverso i seguenti due indicatori quantitativi:

  • Tasso di Rilevanza Tematica (On-topic rate): Valutazione della qualità e della rilevanza dei post restituiti utilizzando GPT
  • Lunga Permanenza (Long-dwells): Misurazione del tempo di permanenza dell'utente sul post

Architettura del Modello

1. Strato di Recupero (Retrieval Layer)

Lo strato di recupero contiene due recuperatori paralleli:

Recuperatore Basato su Termini (TBR):

  • Mantiene un indice invertito che stabilisce la mappatura dalle parole chiave ai post che le contengono
  • Trova i post contenenti tutte le parole chiave della query attraverso operazioni di intersezione
  • Adatto per query di navigazione, come la ricerca di post specifici

Recuperatore Basato su Embedding (EBR):

  • Adotta un'architettura a doppia torre (Two-tower Model)
  • Torre di embedding della query: Elabora il testo della query e le caratteristiche dell'utente, generando l'embedding della query
  • Torre di embedding del post: Elabora il testo del post e le caratteristiche dell'autore, generando l'embedding del post
  • Utilizza il modello multilingual-e5 per l'embedding del testo
  • Calcola il punteggio di corrispondenza tra query e post mediante similarità del coseno

Vantaggi chiave dell'EBR:

  • Corrispondenza Semantica: Basata su concetti piuttosto che su corrispondenza esatta di parole chiave
  • Personalizzazione: Può restituire risultati personalizzati in base alle caratteristiche del ricercatore
  • Ottimizzazione dell'Obiettivo: Supporta l'ottimizzazione di funzioni obiettivo arbitrarie

2. Strato di Ranking Multistadio (Multi-stage Ranking Layer)

Lo strato di ranking adotta un design a due fasi per bilanciare efficacia ed efficienza:

Fase di Ranking L1:

  • Utilizza un modello semplice per il ranking iniziale di migliaia di post candidati
  • Seleziona i primi centinaia di post candidati per la fase successiva

Fase di Ranking L2:

  • Utilizza un modello complesso per il ranking fine dei post candidati
  • Genera i risultati di ricerca finali

L'architettura del modello di ranking comprende due modelli predittivi:

  • Modello di Predizione della Rilevanza Tematica: Riceve come input il testo della query e il testo del post, producendo un punteggio di rilevanza
  • Modello di Predizione della Lunga Permanenza: Riceve come input un set di caratteristiche più ricco, incluso:
    • Testo della query e del post
    • Caratteristiche di coppia come il punteggio di corrispondenza BM25
    • Caratteristiche della query (ad es., se contiene un titolo di posizione)
    • Caratteristiche del post (ad es., popolarità del post)
    • Caratteristiche dell'utente (ad es., se ha intenzione di cercare lavoro)
    • Caratteristiche dell'autore (ad es., influenza dell'autore)
    • Caratteristiche della relazione utente-autore (ad es., se sono amici)

La formula di calcolo del punteggio finale:

score = α × on-topicness_score + (1-α) × long-dwell_score

dove α funge da parametro di regolazione, il cui valore ottimale è determinato attraverso esperimenti online.

Punti di Innovazione Tecnica

  1. Strategia di Recupero Ibrida: Combina i vantaggi della corrispondenza esatta e della corrispondenza semantica
  2. Design del Modello a Doppia Torre: Supporta il precalcolo degli embedding dei post, migliorando significativamente l'efficienza del recupero
  3. Ottimizzazione Multi-Obiettivo: Considera simultaneamente la qualità del contenuto e il coinvolgimento degli utenti
  4. Architettura Stratificata: Raggiunge un buon equilibrio tra efficienza ed efficacia

Configurazione Sperimentale

Dataset

  • Utilizza dati storici del motore di ricerca dei contenuti di LinkedIn
  • Formato dei dati di addestramento: terzine (query, post, label)
  • Le etichette combinano entrambi gli indicatori di rilevanza tematica e lunga permanenza

Metriche di Valutazione

  1. Tasso di Rilevanza Tematica (On-topic rate):
    • Utilizza GPT per valutare i primi 10 post restituiti (1 indica rilevanza e alta qualità, 0 indica non rilevanza)
    • Calcola la proporzione di post con etichetta 1
  2. Lunga Permanenza (Long-dwells):
    • Classificazione binaria basata sul tempo di permanenza dell'utente sul post
    • Conta il numero di post con etichetta 1

Dettagli di Implementazione

  • Modello di embedding del testo: multilingual-e5
  • Archiviazione degli embedding: Sistema di archiviazione chiave-valore Venice
  • Ricerca dei vicini più prossimi approssimativi: Limitazione del numero di post scansionati per controllare la latenza
  • Ottimizzazione del precalcolo: Calcolo offline e near-line degli embedding dei post

Risultati Sperimentali

Risultati Principali

Il nuovo motore di ricerca semantico ha raggiunto miglioramenti significativi delle prestazioni:

  • Rilevanza Tematica: Miglioramento superiore al 10%
  • Lunga Permanenza: Miglioramento superiore al 10%
  • Impatto a Livello di Sito: Effetto positivo sul numero totale di sessioni di LinkedIn

Casi Tipici

Il motore di ricerca è ora in grado di gestire efficacemente query complesse in linguaggio naturale, come:

  • "how to ask for a raise?" (come chiedere un aumento?)
  • "dropout in AI" (abbandono nell'IA)

Queste query spesso producevano risultati insoddisfacenti nei sistemi tradizionali basati su parole chiave.

Lavori Correlati

L'articolo si concentra principalmente sull'applicazione pratica di sistemi di ricerca a livello industriale, con tecnologie correlate che includono:

  • Tecnologie di embedding del testo (multilingual-e5)
  • Architettura del modello a doppia torre
  • Sistemi di ranking multistadio
  • Ottimizzazione di sistemi di recupero su larga scala

Conclusioni e Discussione

Conclusioni Principali

  1. La capacità di comprensione semantica è cruciale per i moderni motori di ricerca
  2. Una strategia di recupero ibrida può soddisfare le esigenze sia della corrispondenza esatta che della corrispondenza semantica
  3. Un framework di ottimizzazione multi-obiettivo migliora efficacemente l'esperienza dell'utente

Limitazioni

  1. La definizione attuale dell'indicatore di rilevanza tematica è relativamente semplice e non può catturare completamente le aspettative di qualità per diversi tipi di query
  2. L'affidamento sulla valutazione di GPT potrebbe presentare alcune limitazioni

Direzioni Future

Il team prevede di:

  1. Migliorare l'indicatore di valutazione della rilevanza tematica
  2. Introdurre modelli di linguaggio di grandi dimensioni (LLM) nello strato di ranking, implementando meccanismi di attenzione congiunta per il testo della query e del post
  3. Migliorare ulteriormente la capacità di comprensione profonda del linguaggio

Valutazione Approfondita

Punti di Forza

  1. Alto Valore Pratico: Risolve importanti problemi nel business reale
  2. Design Architetturale Razionale: L'architettura a due livelli bilancia efficacemente efficacia ed efficienza
  3. Soluzione Tecnica Matura: Considera pienamente le sfide ingegneristiche della distribuzione su larga scala
  4. Sistema di Valutazione Completo: Stabilisce un framework di valutazione duale per qualità e coinvolgimento
  5. Effetti Significativi: Raggiunge miglioramenti degli indicatori superiori al 10%

Carenze

  1. Innovazione Tecnica Limitata: Principalmente applicazione ingegneristica di tecnologie esistenti
  2. Limitazioni del Metodo di Valutazione: L'affidamento sulla valutazione di GPT potrebbe introdurre distorsioni
  3. Esperimenti di Confronto Insufficienti: Mancano confronti dettagliati con altri metodi di ricerca semantica
  4. Analisi Teorica Assente: Mancano analisi teoriche approfondite e esperimenti di ablazione

Impatto

  1. Valore nel Settore Industriale: Fornisce riferimenti pratici per sistemi di ricerca semantica su larga scala
  2. Promozione Tecnologica: Dimostra gli effetti pratici dell'applicazione della comprensione semantica nei motori di ricerca
  3. Condivisione di Esperienze: Fornisce preziose esperienze di pratica ingegneristica

Scenari Applicabili

Questo metodo è adatto a:

  • Piattaforme di ricerca di contenuti su larga scala
  • Sistemi di ricerca che necessitano di gestire query complesse in linguaggio naturale
  • Applicazioni di ricerca con elevati requisiti di personalizzazione
  • Scenari di ricerca che richiedono il bilanciamento di più obiettivi di ottimizzazione

Bibliografia

L'articolo cita le seguenti tecnologie e strumenti chiave:

  1. Apache Samza - Framework di elaborazione dei flussi
  2. MTEB Leaderboard - Benchmark di valutazione dell'embedding del testo
  3. Venice - Piattaforma di archiviazione dati di LinkedIn
  4. Multilingual E5 - Modello di embedding del testo multilingue

Riepilogo: Questo è un tipico rapporto tecnico del settore industriale, focalizzato sulla condivisione dell'esperienza pratica di LinkedIn nel campo della ricerca semantica. Sebbene l'innovazione tecnica sia relativamente limitata, il suo design di sistema completo, i significativi miglioramenti degli effetti e la considerazione approfondita delle sfide ingegneristiche lo rendono di importante valore di riferimento per il settore industriale.