2025-11-12T22:49:10.680556

Query Brand Entity Linking in E-Commerce Search

Liu, Nag
In this work, we address the brand entity linking problem for e-commerce search queries. The entity linking task is done by either i)a two-stage process consisting of entity mention detection followed by entity disambiguation or ii) an end-to-end linking approaches that directly fetch the target entity given the input text. The task presents unique challenges: queries are extremely short (averaging 2.4 words), lack natural language structure, and must handle a massive space of unique brands. We present a two-stage approach combining named-entity recognition with matching, and a novel end-to-end solution using extreme multi-class classification. We validate our solutions by both offline benchmarks and the impact of online A/B test.
academic

Collegamento di Entità Marca di Query nella Ricerca E-Commerce

Informazioni di Base

  • ID Articolo: 2502.01555
  • Titolo: Query Brand Entity Linking in E-Commerce Search
  • Autori: Dong Liu, Sreyashi Nag (Amazon)
  • Classificazione: cs.IR cs.AI cs.LG
  • Data di Pubblicazione/Conferenza: 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2502.01555

Riassunto

Questo articolo affronta il problema del collegamento di entità marca nelle query di ricerca e-commerce. Il compito di collegamento di entità viene completato attraverso due approcci: 1) un processo in due fasi che comprende il rilevamento della menzione di entità e la disambiguazione; 2) un metodo di collegamento end-to-end che estrae direttamente l'entità target dal testo di input. Il compito presenta sfide uniche: query estremamente brevi (media di 2,4 parole), mancanza di struttura del linguaggio naturale, necessità di gestire uno spazio di marca su larga scala. L'articolo propone un metodo in due fasi che combina il riconoscimento di entità nominate con l'abbinamento, nonché una soluzione end-to-end innovativa che utilizza la classificazione multi-classe estrema. L'efficacia della soluzione è stata verificata attraverso benchmark offline e test A/B online.

Contesto di Ricerca e Motivazione

Definizione del Problema

Nella ricerca e-commerce, l'identificazione della marca è il secondo attributo più importante dopo il tipo di prodotto. L'identificazione corretta dei nomi di marca (sia menzioni dirette che indirette) è una componente cruciale della comprensione delle query di ricerca, essenziale per fornire una buona esperienza di acquisto.

Analisi delle Sfide

  1. Limitazioni delle Caratteristiche di Query: Le query e-commerce sono estremamente brevi (media di 2,4 parole), prive di struttura del linguaggio naturale, rendendo difficile l'elaborazione da parte di modelli NLP open-source su questa distribuzione di query
  2. Spazio di Marca Immenso: Necessità di gestire decine di migliaia di marche uniche, con nuove marche che si aggiungono continuamente
  3. Problemi di Diversità:
    • Unificazione delle varianti dei nomi di marca in diverse lingue e regioni
    • Diverse forme di superficie della stessa marca (abbreviazioni vs nomi completi)
    • Identificazione delle relazioni tra marche madri e marche figlie

Motivazione della Ricerca

I metodi di identificazione della marca basati su stringhe esistenti presentano limitazioni; è necessario unificare i concetti di marca in un unico spazio di denominazione di entità di marca globali, realizzando un'identificazione unificata tra lingue, negozi e forme di superficie.

Contributi Principali

  1. Costruzione di un Modello di Collegamento di Entità in Due Fasi: Framework di previsione di entità marca che combina un modello NER pre-addestrato e l'abbinamento di forme di superficie
  2. Esplorazione di Tecniche di Abbinamento: Sviluppo di tecniche di abbinamento lessicale e semantico, con proposta di un passo di filtraggio basato sul tipo di prodotto per l'ottimizzazione della previsione di entità nello spazio di output di marca su larga scala
  3. Proposta di Modello End-to-End di Classificazione Multi-Classe Estrema: Previsione diretta di entità marca rilevanti dall'input di query di ricerca, con fusione con il modello in due fasi
  4. Verifica Completa: Validazione dell'efficacia della soluzione attraverso benchmark di esperimenti offline su larga scala e test A/B online

Spiegazione Dettagliata dei Metodi

Definizione del Compito

Data una query di ricerca di marca (ad esempio, " running shoes"), identificare e collegare all'entità marca unica nel database di marca. L'input è il testo di query grezzo, l'output è l'ID di entità marca corrispondente.

Architettura del Modello

1. Framework in Due Fasi

Metodo Base in Due Fasi (NER + Abbinamento Lessicale Esatto):

  • Prima Fase: Estrazione di menzioni di marca utilizzando il modello MetaTS-NER
    m = f_NER(q)
    
  • Seconda Fase: Abbinamento di stringhe esatto tramite dizionario statico
    E_ID = g(m)
    
  • Passo di Filtraggio: Disambiguazione basata sul tipo di prodotto
    e = h(E_ID, q, PT_q)
    

Metodo Migliorato in Due Fasi (NER + Abbinamento Semantico PECOS):

  • Modellazione del passo di abbinamento come problema di classificazione multi-classe estrema
  • Utilizzo del framework PECOS per gestire lo spazio di entità marca su larga scala (circa 60.000 entità)
  • Output di entità marca e relativi punteggi di rilevanza: (E_ID, S) = g_M2E(m)

2. Framework End-to-End (Q2E-PECOS)

Previsione diretta di entità marca dalla query, evitando la propagazione di errori dalla fase NER:

(E_ID, S) = g_Q2E(q)
e = h(E_ID, PT_q, S, q)

Caratteristiche Principali:

  • Aggiunta della classe NIL per gestire query non-marca
  • Complessità Temporale: O(b × log L), dove b è la dimensione del beam, L è il numero di entità marca
  • Complessità Spaziale: Ridotta da O(d × L) a O(d × log L)

3. Framework di Fusione

Combinazione dei vantaggi dell'abbinamento esatto in due fasi e del metodo end-to-end:

  • Esecuzione parallela di entrambi i metodi
  • Priorità ai risultati di abbinamento esatto per garantire alta precisione
  • Fallback ai risultati Q2E-PECOS per aumentare la copertura

Punti di Innovazione Tecnica

  1. Applicazione di PECOS al Collegamento di Marca: Prima applicazione del framework di classificazione multi-classe estrema al collegamento di entità marca e-commerce
  2. Disambiguazione Assistita dal Tipo di Prodotto: Utilizzo delle informazioni del tipo di prodotto della query per la disambiguazione di entità marca
  3. Supporto Multilingue: Supporto per l'identificazione di marca in 13 lingue
  4. Strategia di Fusione: Combinazione intelligente di metodi ad alta precisione e alto richiamo

Configurazione Sperimentale

Dataset

DatasetScala
Numero di Entità Marca61.697
Brand2entity616.974
Dati Annotati Fortemente (SL)806.972
Dati Annotati Debolmente (WL)1.308.816
Dati di Test28.439

Composizione dei Dati:

  1. Brand2entity (B2E): Dizionario interno di coppie nome-marca-entità
  2. Dati Annotati Fortemente (SL): Dati di query di ricerca annotati manualmente in 13 lingue
  3. Dati Annotati Debolmente (WL): Dati derivati da supervisione debole da interazioni storiche query-prodotto

Metriche di Valutazione

  • Richiamo: Recall = |C| / |L_single|
  • Precisione: Precision = |C| / |P_single|
  • Copertura: Coverage = |P_single| / |T|
  • Punteggio F1: Media armonica

Dove C è l'insieme di previsioni corrette, L_single è l'insieme di query con etichette di entità marca singola, P_single è l'insieme di query con previsione di entità marca singola del modello.

Metodi di Confronto

  1. NER + Abbinamento Lessicale Esatto: Metodo baseline in due fasi
  2. NER + M2E-PECOS: Metodo in due fasi con abbinamento semantico
  3. Bi-encoder: Baseline di codificatore doppio utilizzando Qwen3 Embedding 0.6B
  4. Q2E-PECOS: Metodo PECOS end-to-end
  5. Modello Fuso: Varie combinazioni di metodo ibrido

Risultati Sperimentali

Risultati Principali

MetodoDati di AddestramentoFusioneGruppo-1Gruppo-2
Copertura/Richiamo/Precisione/F1Copertura/Richiamo/Precisione/F1
NER + Abbinamento Esatto✓ ✓58,28/64,66/97,22/77,6770,16/86,21/99,15/92,23
Q2E-PECOS✓ ✓ ✓70,98/75,26/96,13/84,4280,77/94,71/98,92/96,77
Q2E-PECOS✓ ✓ ✓75,31/77,35/94,93/85,2485,09/94,64/98,55/96,56

Scoperte Chiave:

  • Q2E-PECOS end-to-end aumenta significativamente la copertura e il richiamo
  • La strategia di fusione migliora il richiamo mantenendo alta precisione
  • I dati annotati debolmente hanno un impatto evidente sulle prestazioni del modello end-to-end

Analisi delle Prestazioni Multilingue

Le differenze di prestazione tra lingue sono significative:

  • Lingue ad Alta Risorsa (inglese, spagnolo): Tutti i metodi mostrano buone prestazioni
  • Lingue a Bassa Risorsa (giapponese): La copertura di NER + abbinamento esatto è solo del 19,03%
  • Metodo di Fusione: Bilancia precisione e richiamo in tutte le lingue

Analisi del Tasso di Falsi Positivi

Tasso di falsi positivi su 85K query non-marca:

  • NER + Abbinamento Esatto: 1,177%
  • Q2E-PECOS (con annotazione debole): 6,550%

Sebbene il metodo end-to-end abbia un tasso di falsi positivi più elevato, considerando il miglioramento complessivo delle prestazioni, rimane entro limiti accettabili.

Risultati dei Test A/B Online

MetricaNegozio Gruppo-1Negozio Gruppo-2
Richiamo Entità Marca+11,00%+5,44%
Coinvolgimento Cliente+0,02%-
Profitto Immediato Contribuito+0,03%-

I test online confermano il valore commerciale effettivo della soluzione di fusione.

Lavori Correlati

Metodi Tradizionali di Collegamento di Entità

  • Progettazione in Due Fasi: Identificazione di entità + Disambiguazione di entità
  • Generazione di Candidati: Abbinamento di forme di superficie, espansione di alias, abbinamento di probabilità precedente
  • Ranking di Candidati: Distanza di modifica, somiglianza di vettore semantico

Metodi End-to-End

  • Apprendimento Congiunto: Identificazione e disambiguazione simultanee
  • Etichettatura di Sequenza: Classificazione di token basata su BERT
  • Generazione Autoregressiva: Generazione token-by-token di nomi di entità

Specificità del Dominio E-Commerce

  • Caratteristiche di Query: Brevi, rumorose, ambigue
  • Scenari di Applicazione: Recupero di prodotti, riscrittura di query, miglioramento della qualità dei risultati di ricerca
  • Sfide Tecniche: Mancanza di contesto lessicale, base di conoscenza su larga scala

Conclusioni e Discussione

Conclusioni Principali

  1. Vantaggi del Metodo End-to-End: Q2E-PECOS supera significativamente il metodo tradizionale in due fasi in copertura e richiamo
  2. Efficacia della Strategia di Fusione: Il metodo di fusione che combina abbinamento lessicale ad alta precisione e abbinamento semantico ad alto richiamo mostra le migliori prestazioni
  3. Importanza dei Dati: I dati annotati debolmente sono cruciali per il miglioramento delle prestazioni del modello end-to-end
  4. Valore Pratico: I test A/B online confermano il valore commerciale del metodo

Limitazioni

  1. Tasso di Falsi Positivi: Il metodo end-to-end ha un tasso di falsi positivi più elevato su query non-marca
  2. Differenze Linguistiche: Le prestazioni su lingue a bassa risorsa hanno ancora spazio di miglioramento
  3. Complessità Computazionale: Il metodo di fusione richiede l'esecuzione parallela di più modelli
  4. Dipendenza dai Dati: Richiede una grande quantità di dati annotati debolmente per l'addestramento end-to-end

Direzioni Future

  1. Ottimizzazione del Modello: Ulteriore riduzione del tasso di falsi positivi, miglioramento delle prestazioni su lingue a bassa risorsa
  2. Miglioramento dell'Efficienza: Ottimizzazione della complessità computazionale, riduzione della latenza di inferenza
  3. Trasferimento Cross-Dominio: Estensione del metodo ad altri compiti di estrazione di attributi e-commerce
  4. Aggiornamento Dinamico: Gestione dell'aggiunta e dell'aggiornamento in tempo reale di nuove marche

Valutazione Approfondita

Punti di Forza

  1. Importanza del Problema: Risolve un problema centrale nella ricerca e-commerce con significativo valore pratico
  2. Innovazione del Metodo: Prima applicazione del framework di classificazione multi-classe estrema PECOS al collegamento di entità marca
  3. Esperimenti Completi: Copertura multilingue, confronto di più metodi, verifica mediante test A/B online
  4. Praticità Ingegneristica: Considera il bilanciamento tra efficienza e precisione nella distribuzione effettiva
  5. Dati Ricchi: Utilizzo di dati e-commerce reali su larga scala

Insufficienze

  1. Analisi Teorica Insufficiente: Mancanza di spiegazione teorica del perché il metodo end-to-end sia più efficace
  2. Esperimenti di Ablazione Limitati: Analisi insufficiente del contributo di ciascun componente
  3. Problema di Falsi Positivi: Il tasso di falsi positivi del metodo end-to-end è relativamente elevato, richiedendo ulteriore ottimizzazione
  4. Analisi del Costo Computazionale: Analisi insufficiente della complessità computazionale del metodo di fusione

Impatto

  1. Contributo Accademico: Fornisce una nuova soluzione tecnica per il campo dell'NLP e-commerce
  2. Valore Pratico: Già distribuito in Amazon, provando il valore commerciale
  3. Riproducibilità: Fornisce descrizioni dettagliate della configurazione sperimentale e dei dati
  4. Significato Ispiratore: Fornisce riferimenti per altri compiti di estrazione di attributi e-commerce

Scenari di Applicazione

  1. Piattaforme E-Commerce: Motori di ricerca e-commerce di vari tipi per l'identificazione di marca
  2. Ambienti Multilingue: Piattaforme e-commerce globalizzate che supportano più lingue
  3. Applicazioni su Larga Scala: Sistemi in tempo reale che devono elaborare query massicce
  4. Estrazione di Attributi: Compiti di collegamento di entità estendibili ad altri attributi di prodotto

Bibliografia

L'articolo cita numerosi lavori correlati importanti, tra cui:

  • Articolo originale del framework PECOS Yu et al., 2022
  • Modello di etichettatura di sequenza multilingue MetaTS-NER Li et al., 2021
  • Metodi tradizionali di collegamento di entità Cao et al., 2017; Le & Titov, 2019
  • Lavori correlati sulla comprensione di query e-commerce Kozareva et al., 2016; Manchanda et al., 2020

Valutazione Complessiva: Questo è un articolo di ricerca applicata di alta qualità che risolve un importante problema pratico nella ricerca e-commerce. Il metodo presenta una forte innovazione, la verifica sperimentale è completa, e i test A/B online dimostrano il valore pratico effettivo. Sebbene ci sia ancora spazio per miglioramenti nell'analisi teorica e in alcuni dettagli tecnici, nel complesso rappresenta un importante contributo al campo dell'NLP e-commerce.