2025-11-12T22:49:10.680556

Query Brand Entity Linking in E-Commerce Search

Liu, Nag

In this work, we address the brand entity linking problem for e-commerce search queries. The entity linking task is done by either i)a two-stage process consisting of entity mention detection followed by entity disambiguation or ii) an end-to-end linking approaches that directly fetch the target entity given the input text. The task presents unique challenges: queries are extremely short (averaging 2.4 words), lack natural language structure, and must handle a massive space of unique brands. We present a two-stage approach combining named-entity recognition with matching, and a novel end-to-end solution using extreme multi-class classification. We validate our solutions by both offline benchmarks and the impact of online A/B test.

academic

Collegamento di Entità Marca di Query nella Ricerca E-Commerce

Informazioni di Base

ID Articolo: 2502.01555
Titolo: Query Brand Entity Linking in E-Commerce Search
Autori: Dong Liu, Sreyashi Nag (Amazon)
Classificazione: cs.IR cs.AI cs.LG
Data di Pubblicazione/Conferenza: 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2502.01555

Riassunto

Questo articolo affronta il problema del collegamento di entità marca nelle query di ricerca e-commerce. Il compito di collegamento di entità viene completato attraverso due approcci: 1) un processo in due fasi che comprende il rilevamento della menzione di entità e la disambiguazione; 2) un metodo di collegamento end-to-end che estrae direttamente l'entità target dal testo di input. Il compito presenta sfide uniche: query estremamente brevi (media di 2,4 parole), mancanza di struttura del linguaggio naturale, necessità di gestire uno spazio di marca su larga scala. L'articolo propone un metodo in due fasi che combina il riconoscimento di entità nominate con l'abbinamento, nonché una soluzione end-to-end innovativa che utilizza la classificazione multi-classe estrema. L'efficacia della soluzione è stata verificata attraverso benchmark offline e test A/B online.

Contesto di Ricerca e Motivazione

Definizione del Problema

Nella ricerca e-commerce, l'identificazione della marca è il secondo attributo più importante dopo il tipo di prodotto. L'identificazione corretta dei nomi di marca (sia menzioni dirette che indirette) è una componente cruciale della comprensione delle query di ricerca, essenziale per fornire una buona esperienza di acquisto.

Analisi delle Sfide

Limitazioni delle Caratteristiche di Query: Le query e-commerce sono estremamente brevi (media di 2,4 parole), prive di struttura del linguaggio naturale, rendendo difficile l'elaborazione da parte di modelli NLP open-source su questa distribuzione di query
Spazio di Marca Immenso: Necessità di gestire decine di migliaia di marche uniche, con nuove marche che si aggiungono continuamente
Problemi di Diversità:
- Unificazione delle varianti dei nomi di marca in diverse lingue e regioni
- Diverse forme di superficie della stessa marca (abbreviazioni vs nomi completi)
- Identificazione delle relazioni tra marche madri e marche figlie

Motivazione della Ricerca

I metodi di identificazione della marca basati su stringhe esistenti presentano limitazioni; è necessario unificare i concetti di marca in un unico spazio di denominazione di entità di marca globali, realizzando un'identificazione unificata tra lingue, negozi e forme di superficie.

Contributi Principali

Costruzione di un Modello di Collegamento di Entità in Due Fasi: Framework di previsione di entità marca che combina un modello NER pre-addestrato e l'abbinamento di forme di superficie
Esplorazione di Tecniche di Abbinamento: Sviluppo di tecniche di abbinamento lessicale e semantico, con proposta di un passo di filtraggio basato sul tipo di prodotto per l'ottimizzazione della previsione di entità nello spazio di output di marca su larga scala
Proposta di Modello End-to-End di Classificazione Multi-Classe Estrema: Previsione diretta di entità marca rilevanti dall'input di query di ricerca, con fusione con il modello in due fasi
Verifica Completa: Validazione dell'efficacia della soluzione attraverso benchmark di esperimenti offline su larga scala e test A/B online

Spiegazione Dettagliata dei Metodi

Definizione del Compito

Data una query di ricerca di marca (ad esempio, " running shoes"), identificare e collegare all'entità marca unica nel database di marca. L'input è il testo di query grezzo, l'output è l'ID di entità marca corrispondente.

Architettura del Modello

1. Framework in Due Fasi

Metodo Base in Due Fasi (NER + Abbinamento Lessicale Esatto):

Prima Fase: Estrazione di menzioni di marca utilizzando il modello MetaTS-NER
```
m = f_NER(q)
```
Seconda Fase: Abbinamento di stringhe esatto tramite dizionario statico
```
E_ID = g(m)
```
Passo di Filtraggio: Disambiguazione basata sul tipo di prodotto
```
e = h(E_ID, q, PT_q)
```

Metodo Migliorato in Due Fasi (NER + Abbinamento Semantico PECOS):

Modellazione del passo di abbinamento come problema di classificazione multi-classe estrema
Utilizzo del framework PECOS per gestire lo spazio di entità marca su larga scala (circa 60.000 entità)
Output di entità marca e relativi punteggi di rilevanza: (E_ID, S) = g_M2E(m)

2. Framework End-to-End (Q2E-PECOS)

Previsione diretta di entità marca dalla query, evitando la propagazione di errori dalla fase NER:

(E_ID, S) = g_Q2E(q)
e = h(E_ID, PT_q, S, q)

Caratteristiche Principali:

Aggiunta della classe NIL per gestire query non-marca
Complessità Temporale: O(b × log L), dove b è la dimensione del beam, L è il numero di entità marca
Complessità Spaziale: Ridotta da O(d × L) a O(d × log L)

3. Framework di Fusione

Combinazione dei vantaggi dell'abbinamento esatto in due fasi e del metodo end-to-end:

Esecuzione parallela di entrambi i metodi
Priorità ai risultati di abbinamento esatto per garantire alta precisione
Fallback ai risultati Q2E-PECOS per aumentare la copertura

Punti di Innovazione Tecnica

Applicazione di PECOS al Collegamento di Marca: Prima applicazione del framework di classificazione multi-classe estrema al collegamento di entità marca e-commerce
Disambiguazione Assistita dal Tipo di Prodotto: Utilizzo delle informazioni del tipo di prodotto della query per la disambiguazione di entità marca
Supporto Multilingue: Supporto per l'identificazione di marca in 13 lingue
Strategia di Fusione: Combinazione intelligente di metodi ad alta precisione e alto richiamo

Configurazione Sperimentale

Dataset

Dataset	Scala
Numero di Entità Marca	61.697
Brand2entity	616.974
Dati Annotati Fortemente (SL)	806.972
Dati Annotati Debolmente (WL)	1.308.816
Dati di Test	28.439

Composizione dei Dati:

Brand2entity (B2E): Dizionario interno di coppie nome-marca-entità
Dati Annotati Fortemente (SL): Dati di query di ricerca annotati manualmente in 13 lingue
Dati Annotati Debolmente (WL): Dati derivati da supervisione debole da interazioni storiche query-prodotto

Metriche di Valutazione

Richiamo: Recall = |C| / |L_single|
Precisione: Precision = |C| / |P_single|
Copertura: Coverage = |P_single| / |T|
Punteggio F1: Media armonica

Dove C è l'insieme di previsioni corrette, L_single è l'insieme di query con etichette di entità marca singola, P_single è l'insieme di query con previsione di entità marca singola del modello.

Metodi di Confronto

NER + Abbinamento Lessicale Esatto: Metodo baseline in due fasi
NER + M2E-PECOS: Metodo in due fasi con abbinamento semantico
Bi-encoder: Baseline di codificatore doppio utilizzando Qwen3 Embedding 0.6B
Q2E-PECOS: Metodo PECOS end-to-end
Modello Fuso: Varie combinazioni di metodo ibrido

Risultati Sperimentali

Risultati Principali

Metodo	Dati di Addestramento	Fusione	Gruppo-1	Gruppo-2
			Copertura/Richiamo/Precisione/F1	Copertura/Richiamo/Precisione/F1
NER + Abbinamento Esatto	✓ ✓		58,28/64,66/97,22/77,67	70,16/86,21/99,15/92,23
Q2E-PECOS	✓ ✓ ✓		70,98/75,26/96,13/84,42	80,77/94,71/98,92/96,77
Q2E-PECOS	✓ ✓ ✓	✓	75,31/77,35/94,93/85,24	85,09/94,64/98,55/96,56

Scoperte Chiave:

Q2E-PECOS end-to-end aumenta significativamente la copertura e il richiamo
La strategia di fusione migliora il richiamo mantenendo alta precisione
I dati annotati debolmente hanno un impatto evidente sulle prestazioni del modello end-to-end

Analisi delle Prestazioni Multilingue

Le differenze di prestazione tra lingue sono significative:

Lingue ad Alta Risorsa (inglese, spagnolo): Tutti i metodi mostrano buone prestazioni
Lingue a Bassa Risorsa (giapponese): La copertura di NER + abbinamento esatto è solo del 19,03%
Metodo di Fusione: Bilancia precisione e richiamo in tutte le lingue

Analisi del Tasso di Falsi Positivi

Tasso di falsi positivi su 85K query non-marca:

NER + Abbinamento Esatto: 1,177%
Q2E-PECOS (con annotazione debole): 6,550%

Sebbene il metodo end-to-end abbia un tasso di falsi positivi più elevato, considerando il miglioramento complessivo delle prestazioni, rimane entro limiti accettabili.

Risultati dei Test A/B Online

Metrica	Negozio Gruppo-1	Negozio Gruppo-2
Richiamo Entità Marca	+11,00%	+5,44%
Coinvolgimento Cliente	+0,02%	-
Profitto Immediato Contribuito	+0,03%	-

I test online confermano il valore commerciale effettivo della soluzione di fusione.

Lavori Correlati

Metodi Tradizionali di Collegamento di Entità

Progettazione in Due Fasi: Identificazione di entità + Disambiguazione di entità
Generazione di Candidati: Abbinamento di forme di superficie, espansione di alias, abbinamento di probabilità precedente
Ranking di Candidati: Distanza di modifica, somiglianza di vettore semantico

Metodi End-to-End

Apprendimento Congiunto: Identificazione e disambiguazione simultanee
Etichettatura di Sequenza: Classificazione di token basata su BERT
Generazione Autoregressiva: Generazione token-by-token di nomi di entità

Specificità del Dominio E-Commerce

Caratteristiche di Query: Brevi, rumorose, ambigue
Scenari di Applicazione: Recupero di prodotti, riscrittura di query, miglioramento della qualità dei risultati di ricerca
Sfide Tecniche: Mancanza di contesto lessicale, base di conoscenza su larga scala

Conclusioni e Discussione

Conclusioni Principali

Vantaggi del Metodo End-to-End: Q2E-PECOS supera significativamente il metodo tradizionale in due fasi in copertura e richiamo
Efficacia della Strategia di Fusione: Il metodo di fusione che combina abbinamento lessicale ad alta precisione e abbinamento semantico ad alto richiamo mostra le migliori prestazioni
Importanza dei Dati: I dati annotati debolmente sono cruciali per il miglioramento delle prestazioni del modello end-to-end
Valore Pratico: I test A/B online confermano il valore commerciale del metodo

Limitazioni

Tasso di Falsi Positivi: Il metodo end-to-end ha un tasso di falsi positivi più elevato su query non-marca
Differenze Linguistiche: Le prestazioni su lingue a bassa risorsa hanno ancora spazio di miglioramento
Complessità Computazionale: Il metodo di fusione richiede l'esecuzione parallela di più modelli
Dipendenza dai Dati: Richiede una grande quantità di dati annotati debolmente per l'addestramento end-to-end

Direzioni Future

Ottimizzazione del Modello: Ulteriore riduzione del tasso di falsi positivi, miglioramento delle prestazioni su lingue a bassa risorsa
Miglioramento dell'Efficienza: Ottimizzazione della complessità computazionale, riduzione della latenza di inferenza
Trasferimento Cross-Dominio: Estensione del metodo ad altri compiti di estrazione di attributi e-commerce
Aggiornamento Dinamico: Gestione dell'aggiunta e dell'aggiornamento in tempo reale di nuove marche

Valutazione Approfondita

Punti di Forza

Importanza del Problema: Risolve un problema centrale nella ricerca e-commerce con significativo valore pratico
Innovazione del Metodo: Prima applicazione del framework di classificazione multi-classe estrema PECOS al collegamento di entità marca
Esperimenti Completi: Copertura multilingue, confronto di più metodi, verifica mediante test A/B online
Praticità Ingegneristica: Considera il bilanciamento tra efficienza e precisione nella distribuzione effettiva
Dati Ricchi: Utilizzo di dati e-commerce reali su larga scala

Insufficienze

Analisi Teorica Insufficiente: Mancanza di spiegazione teorica del perché il metodo end-to-end sia più efficace
Esperimenti di Ablazione Limitati: Analisi insufficiente del contributo di ciascun componente
Problema di Falsi Positivi: Il tasso di falsi positivi del metodo end-to-end è relativamente elevato, richiedendo ulteriore ottimizzazione
Analisi del Costo Computazionale: Analisi insufficiente della complessità computazionale del metodo di fusione

Impatto

Contributo Accademico: Fornisce una nuova soluzione tecnica per il campo dell'NLP e-commerce
Valore Pratico: Già distribuito in Amazon, provando il valore commerciale
Riproducibilità: Fornisce descrizioni dettagliate della configurazione sperimentale e dei dati
Significato Ispiratore: Fornisce riferimenti per altri compiti di estrazione di attributi e-commerce

Scenari di Applicazione

Piattaforme E-Commerce: Motori di ricerca e-commerce di vari tipi per l'identificazione di marca
Ambienti Multilingue: Piattaforme e-commerce globalizzate che supportano più lingue
Applicazioni su Larga Scala: Sistemi in tempo reale che devono elaborare query massicce
Estrazione di Attributi: Compiti di collegamento di entità estendibili ad altri attributi di prodotto

Bibliografia

L'articolo cita numerosi lavori correlati importanti, tra cui:

Articolo originale del framework PECOS Yu et al., 2022
Modello di etichettatura di sequenza multilingue MetaTS-NER Li et al., 2021
Metodi tradizionali di collegamento di entità Cao et al., 2017; Le & Titov, 2019
Lavori correlati sulla comprensione di query e-commerce Kozareva et al., 2016; Manchanda et al., 2020

Valutazione Complessiva: Questo è un articolo di ricerca applicata di alta qualità che risolve un importante problema pratico nella ricerca e-commerce. Il metodo presenta una forte innovazione, la verifica sperimentale è completa, e i test A/B online dimostrano il valore pratico effettivo. Sebbene ci sia ancora spazio per miglioramenti nell'analisi teorica e in alcuni dettagli tecnici, nel complesso rappresenta un importante contributo al campo dell'NLP e-commerce.