In this work, we address the brand entity linking problem for e-commerce search queries. The entity linking task is done by either i)a two-stage process consisting of entity mention detection followed by entity disambiguation or ii) an end-to-end linking approaches that directly fetch the target entity given the input text. The task presents unique challenges: queries are extremely short (averaging 2.4 words), lack natural language structure, and must handle a massive space of unique brands. We present a two-stage approach combining named-entity recognition with matching, and a novel end-to-end solution using extreme multi-class classification. We validate our solutions by both offline benchmarks and the impact of online A/B test.
academic
Collegamento di Entità Marca di Query nella Ricerca E-Commerce
Questo articolo affronta il problema del collegamento di entità marca nelle query di ricerca e-commerce. Il compito di collegamento di entità viene completato attraverso due approcci: 1) un processo in due fasi che comprende il rilevamento della menzione di entità e la disambiguazione; 2) un metodo di collegamento end-to-end che estrae direttamente l'entità target dal testo di input. Il compito presenta sfide uniche: query estremamente brevi (media di 2,4 parole), mancanza di struttura del linguaggio naturale, necessità di gestire uno spazio di marca su larga scala. L'articolo propone un metodo in due fasi che combina il riconoscimento di entità nominate con l'abbinamento, nonché una soluzione end-to-end innovativa che utilizza la classificazione multi-classe estrema. L'efficacia della soluzione è stata verificata attraverso benchmark offline e test A/B online.
Nella ricerca e-commerce, l'identificazione della marca è il secondo attributo più importante dopo il tipo di prodotto. L'identificazione corretta dei nomi di marca (sia menzioni dirette che indirette) è una componente cruciale della comprensione delle query di ricerca, essenziale per fornire una buona esperienza di acquisto.
Limitazioni delle Caratteristiche di Query: Le query e-commerce sono estremamente brevi (media di 2,4 parole), prive di struttura del linguaggio naturale, rendendo difficile l'elaborazione da parte di modelli NLP open-source su questa distribuzione di query
Spazio di Marca Immenso: Necessità di gestire decine di migliaia di marche uniche, con nuove marche che si aggiungono continuamente
Problemi di Diversità:
Unificazione delle varianti dei nomi di marca in diverse lingue e regioni
Diverse forme di superficie della stessa marca (abbreviazioni vs nomi completi)
Identificazione delle relazioni tra marche madri e marche figlie
I metodi di identificazione della marca basati su stringhe esistenti presentano limitazioni; è necessario unificare i concetti di marca in un unico spazio di denominazione di entità di marca globali, realizzando un'identificazione unificata tra lingue, negozi e forme di superficie.
Costruzione di un Modello di Collegamento di Entità in Due Fasi: Framework di previsione di entità marca che combina un modello NER pre-addestrato e l'abbinamento di forme di superficie
Esplorazione di Tecniche di Abbinamento: Sviluppo di tecniche di abbinamento lessicale e semantico, con proposta di un passo di filtraggio basato sul tipo di prodotto per l'ottimizzazione della previsione di entità nello spazio di output di marca su larga scala
Proposta di Modello End-to-End di Classificazione Multi-Classe Estrema: Previsione diretta di entità marca rilevanti dall'input di query di ricerca, con fusione con il modello in due fasi
Verifica Completa: Validazione dell'efficacia della soluzione attraverso benchmark di esperimenti offline su larga scala e test A/B online
Data una query di ricerca di marca (ad esempio, " running shoes"), identificare e collegare all'entità marca unica nel database di marca. L'input è il testo di query grezzo, l'output è l'ID di entità marca corrispondente.
Applicazione di PECOS al Collegamento di Marca: Prima applicazione del framework di classificazione multi-classe estrema al collegamento di entità marca e-commerce
Disambiguazione Assistita dal Tipo di Prodotto: Utilizzo delle informazioni del tipo di prodotto della query per la disambiguazione di entità marca
Supporto Multilingue: Supporto per l'identificazione di marca in 13 lingue
Strategia di Fusione: Combinazione intelligente di metodi ad alta precisione e alto richiamo
Dove C è l'insieme di previsioni corrette, L_single è l'insieme di query con etichette di entità marca singola, P_single è l'insieme di query con previsione di entità marca singola del modello.
Sebbene il metodo end-to-end abbia un tasso di falsi positivi più elevato, considerando il miglioramento complessivo delle prestazioni, rimane entro limiti accettabili.
Vantaggi del Metodo End-to-End: Q2E-PECOS supera significativamente il metodo tradizionale in due fasi in copertura e richiamo
Efficacia della Strategia di Fusione: Il metodo di fusione che combina abbinamento lessicale ad alta precisione e abbinamento semantico ad alto richiamo mostra le migliori prestazioni
Importanza dei Dati: I dati annotati debolmente sono cruciali per il miglioramento delle prestazioni del modello end-to-end
Valore Pratico: I test A/B online confermano il valore commerciale del metodo
L'articolo cita numerosi lavori correlati importanti, tra cui:
Articolo originale del framework PECOS Yu et al., 2022
Modello di etichettatura di sequenza multilingue MetaTS-NER Li et al., 2021
Metodi tradizionali di collegamento di entità Cao et al., 2017; Le & Titov, 2019
Lavori correlati sulla comprensione di query e-commerce Kozareva et al., 2016; Manchanda et al., 2020
Valutazione Complessiva: Questo è un articolo di ricerca applicata di alta qualità che risolve un importante problema pratico nella ricerca e-commerce. Il metodo presenta una forte innovazione, la verifica sperimentale è completa, e i test A/B online dimostrano il valore pratico effettivo. Sebbene ci sia ancora spazio per miglioramenti nell'analisi teorica e in alcuni dettagli tecnici, nel complesso rappresenta un importante contributo al campo dell'NLP e-commerce.