In this work, we address the brand entity linking problem for e-commerce search queries. The entity linking task is done by either i)a two-stage process consisting of entity mention detection followed by entity disambiguation or ii) an end-to-end linking approaches that directly fetch the target entity given the input text. The task presents unique challenges: queries are extremely short (averaging 2.4 words), lack natural language structure, and must handle a massive space of unique brands. We present a two-stage approach combining named-entity recognition with matching, and a novel end-to-end solution using extreme multi-class classification. We validate our solutions by both offline benchmarks and the impact of online A/B test.
academic
Abfrage-Markenentitätsverknüpfung in der E-Commerce-Suche
Dieses Papier befasst sich mit dem Problem der Markenentitätsverknüpfung in E-Commerce-Suchanfragen. Die Entitätsverknüpfungsaufgabe wird auf zwei Wegen durchgeführt: 1) ein zweistufiger Prozess, der Entitätserwähnungserkennung und Entitätsdisambiguierung umfasst; 2) eine End-to-End-Verknüpfungsmethode, die direkt Zielentitäten aus dem Eingabetext extrahiert. Die Aufgabe stellt einzigartige Herausforderungen dar: Anfragen sind extrem kurz (durchschnittlich 2,4 Wörter), weisen keine natürliche Sprachstruktur auf und erfordern die Verarbeitung eines großen Markenraums. Der Artikel schlägt eine zweistufige Methode vor, die benannte Entitätserkennung mit Matching kombiniert, sowie eine neuartige End-to-End-Lösung mit extremer Mehrklassen-Klassifizierung. Die Wirksamkeit der Lösung wird durch Offline-Benchmarks und Online-A/B-Tests validiert.
In der E-Commerce-Suche ist die Markenerkennung das zweiwichtigste Attribut nach dem Produkttyp. Die korrekte Identifizierung von Markennamen – ob direkt oder indirekt erwähnt – ist ein wesentlicher Bestandteil des Verständnisses von Suchanfragen und entscheidend für ein gutes Einkaufserlebnis.
Abfrageeigenschaften-Einschränkungen: E-Commerce-Anfragen sind extrem kurz (durchschnittlich 2,4 Wörter), weisen keine natürliche Sprachstruktur auf und Open-Source-NLP-Modelle können solche Abfrageverteilungen schwer verarbeiten
Großer Markenraum: Erfordert die Verarbeitung von Zehntausenden eindeutiger Marken mit ständig neuen Hinzufügungen
Vielfaltsprobleme:
Vereinheitlichung von Markennamen-Varianten in verschiedenen Sprachen und Regionen
Verschiedene Oberflächenformen derselben Marke (Abkürzung vs. vollständiger Name)
Erkennung von Mutter- und Tochtermarkenbeziehungen
Bestehende zeichenfolgenbasierte Markenerkennung hat Grenzen. Es ist notwendig, Markenkonzepte in einem einzigen Namensraum zu globalen Markenentitäten zu vereinheitlichen, um eine einheitliche Erkennung über Sprachen, Geschäfte und Oberflächenformen hinweg zu erreichen.
Konstruktion eines zweistufigen Entitätsverknüpfungsmodells: Ein Markenentitäts-Vorhersage-Framework, das vortrainierte NER-Modelle und Oberflächenform-Matching kombiniert
Erkundung von Matching-Techniken: Entwicklung von lexikalischen und semantischen Matching-Techniken sowie Vorschlag eines produkttyp-basierten Filterschritts zur Optimierung der Entitätsvorhersage für großflächige Markenausgaberäume
Vorschlag eines End-to-End-Extremklassifizierungsmodells: Direkte Vorhersage relevanter Markenentitäten aus Suchanfragen mit Fusion mit dem zweistufigen Modell
Umfassende Validierung: Validierung der Lösung durch großflächige Offline-Experiment-Benchmarks und Online-A/B-Tests
Gegeben eine Markensuche-Abfrage (z.B. „ running shoes"), werden Markenentitäten identifiziert und mit eindeutigen Markenentitäten in der Markendatenbank verknüpft. Die Eingabe ist der ursprüngliche Abfragetext, die Ausgabe ist die entsprechende Markenentitäts-ID.
Wobei C die Menge korrekter Vorhersagen ist, L_single die Abfragen mit einzelnen Markenentitäts-Labels und P_single die Modellvorhersagen für Abfragen mit einzelnen Markenentitäten sind.
Vorteile der End-to-End-Methode: Q2E-PECOS übertrifft traditionelle zweistufige Methoden deutlich bei Abdeckung und Recall
Effektivität der Fusionsstrategie: Die Fusionsmethode, die hochpräzises lexikalisches Matching mit hochrückruf-semantischem Matching kombiniert, zeigt die beste Leistung
Datenwichtigkeit: Schwach annotierte Daten sind entscheidend für die Leistungsverbesserung von End-to-End-Modellen
Praktischer Wert: Online-A/B-Tests bestätigen den kommerziellen Wert der Methode
Das Papier zitiert mehrere wichtige verwandte Arbeiten, einschließlich:
Originalarbeiten zum PECOS-Framework Yu et al., 2022
MetaTS-NER-Mehrsprachiges Sequenz-Tagging-Modell Li et al., 2021
Traditionelle Entitätsverknüpfungsmethoden Cao et al., 2017; Le & Titov, 2019
E-Commerce-Abfrage-Verständnis verwandte Arbeiten Kozareva et al., 2016; Manchanda et al., 2020
Gesamtbewertung: Dies ist ein hochqualitatives Anwendungsforschungspapier, das ein wichtiges praktisches Problem in der E-Commerce-Suche löst. Die Methode zeigt starke Innovation, umfassende experimentelle Validierung, insbesondere mit Online-A/B-Tests, die praktischen Wert nachweisen. Obwohl es Raum für Verbesserungen in der theoretischen Analyse und einigen technischen Details gibt, ist es insgesamt ein wichtiger Beitrag zum E-Commerce-NLP-Feld.