In this work, we address the brand entity linking problem for e-commerce search queries. The entity linking task is done by either i)a two-stage process consisting of entity mention detection followed by entity disambiguation or ii) an end-to-end linking approaches that directly fetch the target entity given the input text. The task presents unique challenges: queries are extremely short (averaging 2.4 words), lack natural language structure, and must handle a massive space of unique brands. We present a two-stage approach combining named-entity recognition with matching, and a novel end-to-end solution using extreme multi-class classification. We validate our solutions by both offline benchmarks and the impact of online A/B test.
यह पेपर ई-कॉमर्स सर्च क्वेरी में ब्रांड एंटिटी लिंकिंग समस्या को हल करता है। एंटिटी लिंकिंग कार्य दो तरीकों से पूरा किया जाता है: 1) एंटिटी उल्लेख पहचान और एंटिटी विसंदिग्धता वाली दो-चरणीय प्रक्रिया; 2) इनपुट टेक्स्ट से सीधे लक्ष्य एंटिटी प्राप्त करने की अंत-से-अंत लिंकिंग विधि। यह कार्य अद्वितीय चुनौतियों का सामना करता है: अत्यंत छोटी क्वेरी (औसतन 2.4 शब्द), प्राकृतिक भाषा संरचना की कमी, बड़े पैमाने पर ब्रांड स्पेस को संभालने की आवश्यकता। लेख ने नामित एंटिटी पहचान और मिलान को जोड़ने वाली दो-चरणीय विधि, और चरम बहु-वर्गीकरण का उपयोग करके एक नोवल अंत-से-अंत समाधान प्रस्तावित किया। ऑफलाइन बेंचमार्क परीक्षण और ऑनलाइन A/B परीक्षण के माध्यम से समाधान की प्रभावशीलता को सत्यापित किया गया।
ई-कॉमर्स सर्च में, ब्रांड पहचान उत्पाद प्रकार के बाद दूसरी सबसे महत्वपूर्ण विशेषता है। ब्रांड नाम की सही पहचान (चाहे प्रत्यक्ष हो या अप्रत्यक्ष) सर्च क्वेरी समझ का एक महत्वपूर्ण घटक है, जो अच्छे खरीदारी अनुभव प्रदान करने के लिए महत्वपूर्ण है।
क्वेरी विशेषता सीमाएं: ई-कॉमर्स क्वेरी अत्यंत छोटी (औसतन 2.4 शब्द), प्राकृतिक भाषा संरचना की कमी, ओपन-सोर्स NLP मॉडल इस तरह की क्वेरी वितरण को संभालने में कठिनाई
विशाल ब्रांड स्पेस: दसियों हजार अद्वितीय ब्रांड को संभालने की आवश्यकता, और लगातार नए ब्रांड जोड़े जा रहे हैं
विविधता समस्या:
विभिन्न भाषाओं और क्षेत्रों में ब्रांड नाम के रूप
एक ही ब्रांड के विभिन्न सतह रूप (संक्षिप्त बनाम पूर्ण नाम)
मौजूदा स्ट्रिंग-आधारित ब्रांड पहचान विधियों में सीमाएं हैं, ब्रांड अवधारणा को एकल नामकरण स्पेस में वैश्विक ब्रांड एंटिटी में एकीकृत करने की आवश्यकता है, भाषा, स्टोर और सतह रूप में एकीकृत पहचान प्राप्त करने के लिए।
दो-चरणीय एंटिटी लिंकिंग मॉडल का निर्माण: पूर्व-प्रशिक्षित NER मॉडल और सतह रूप मिलान को जोड़ने वाली ब्रांड एंटिटी भविष्यवाणी ढांचा
मिलान तकनीकों की खोज: शब्दावली और शब्दार्थ मिलान तकनीकें विकसित करना, और बड़े पैमाने पर ब्रांड आउटपुट स्पेस के लिए एंटिटी भविष्यवाणी अनुकूलन के लिए उत्पाद प्रकार-आधारित फ़िल्टरिंग चरण प्रस्तावित करना
अंत-से-अंत चरम बहु-वर्गीकरण मॉडल प्रस्तावित करना: सीधे सर्च क्वेरी को इनपुट के रूप में लेकर संबंधित ब्रांड एंटिटी की भविष्यवाणी करना, और दो-चरणीय मॉडल के साथ संलयन
व्यापक सत्यापन: बड़े पैमाने पर ऑफलाइन प्रयोग बेंचमार्क परीक्षण और ऑनलाइन A/B परीक्षण के माध्यम से समाधान प्रभावशीलता को सत्यापित करना
दिए गए ब्रांड सर्च क्वेरी (जैसे " running shoes"), ब्रांड डेटाबेस में अद्वितीय ब्रांड एंटिटी की पहचान और लिंकिंग करना। इनपुट कच्ची क्वेरी टेक्स्ट है, आउटपुट संबंधित ब्रांड एंटिटी ID है।
पेपर कई महत्वपूर्ण संबंधित कार्यों का उद्धृत करता है, जिनमें शामिल हैं:
PECOS ढांचे का मूल पेपर Yu et al., 2022
MetaTS-NER बहुभाषी अनुक्रम लेबलिंग मॉडल Li et al., 2021
पारंपरिक एंटिटी लिंकिंग विधियां Cao et al., 2017; Le & Titov, 2019
ई-कॉमर्स क्वेरी समझ संबंधित कार्य Kozareva et al., 2016; Manchanda et al., 2020
समग्र मूल्यांकन: यह ई-कॉमर्स सर्च में एक महत्वपूर्ण व्यावहारिक समस्या को हल करने वाला एक उच्च-गुणवत्ता वाला अनुप्रयोग अनुसंधान पेपर है। विधि में मजबूत नवाचार है, प्रयोग सत्यापन व्यापक है, विशेष रूप से ऑनलाइन A/B परीक्षण ने व्यावहारिक मूल्य सिद्ध किया है। यद्यपि सैद्धांतिक विश्लेषण और कुछ तकनीकी विवरणों में सुधार की गुंजाइश है, लेकिन समग्र रूप से यह ई-कॉमर्स NLP क्षेत्र का एक महत्वपूर्ण योगदान है।