2025-11-12T22:49:10.680556

Query Brand Entity Linking in E-Commerce Search

Liu, Nag
In this work, we address the brand entity linking problem for e-commerce search queries. The entity linking task is done by either i)a two-stage process consisting of entity mention detection followed by entity disambiguation or ii) an end-to-end linking approaches that directly fetch the target entity given the input text. The task presents unique challenges: queries are extremely short (averaging 2.4 words), lack natural language structure, and must handle a massive space of unique brands. We present a two-stage approach combining named-entity recognition with matching, and a novel end-to-end solution using extreme multi-class classification. We validate our solutions by both offline benchmarks and the impact of online A/B test.
academic

ई-कॉमर्स सर्च में क्वेरी ब्रांड एंटिटी लिंकिंग

मूल जानकारी

  • पेपर ID: 2502.01555
  • शीर्षक: Query Brand Entity Linking in E-Commerce Search
  • लेखक: Dong Liu, Sreyashi Nag (Amazon)
  • वर्गीकरण: cs.IR cs.AI cs.LG
  • प्रकाशन समय/सम्मेलन: 2025 (arXiv प्रीप्रिंट)
  • पेपर लिंक: https://arxiv.org/abs/2502.01555

सारांश

यह पेपर ई-कॉमर्स सर्च क्वेरी में ब्रांड एंटिटी लिंकिंग समस्या को हल करता है। एंटिटी लिंकिंग कार्य दो तरीकों से पूरा किया जाता है: 1) एंटिटी उल्लेख पहचान और एंटिटी विसंदिग्धता वाली दो-चरणीय प्रक्रिया; 2) इनपुट टेक्स्ट से सीधे लक्ष्य एंटिटी प्राप्त करने की अंत-से-अंत लिंकिंग विधि। यह कार्य अद्वितीय चुनौतियों का सामना करता है: अत्यंत छोटी क्वेरी (औसतन 2.4 शब्द), प्राकृतिक भाषा संरचना की कमी, बड़े पैमाने पर ब्रांड स्पेस को संभालने की आवश्यकता। लेख ने नामित एंटिटी पहचान और मिलान को जोड़ने वाली दो-चरणीय विधि, और चरम बहु-वर्गीकरण का उपयोग करके एक नोवल अंत-से-अंत समाधान प्रस्तावित किया। ऑफलाइन बेंचमार्क परीक्षण और ऑनलाइन A/B परीक्षण के माध्यम से समाधान की प्रभावशीलता को सत्यापित किया गया।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

ई-कॉमर्स सर्च में, ब्रांड पहचान उत्पाद प्रकार के बाद दूसरी सबसे महत्वपूर्ण विशेषता है। ब्रांड नाम की सही पहचान (चाहे प्रत्यक्ष हो या अप्रत्यक्ष) सर्च क्वेरी समझ का एक महत्वपूर्ण घटक है, जो अच्छे खरीदारी अनुभव प्रदान करने के लिए महत्वपूर्ण है।

चुनौती विश्लेषण

  1. क्वेरी विशेषता सीमाएं: ई-कॉमर्स क्वेरी अत्यंत छोटी (औसतन 2.4 शब्द), प्राकृतिक भाषा संरचना की कमी, ओपन-सोर्स NLP मॉडल इस तरह की क्वेरी वितरण को संभालने में कठिनाई
  2. विशाल ब्रांड स्पेस: दसियों हजार अद्वितीय ब्रांड को संभालने की आवश्यकता, और लगातार नए ब्रांड जोड़े जा रहे हैं
  3. विविधता समस्या:
    • विभिन्न भाषाओं और क्षेत्रों में ब्रांड नाम के रूप
    • एक ही ब्रांड के विभिन्न सतह रूप (संक्षिप्त बनाम पूर्ण नाम)
    • मूल ब्रांड और उप-ब्रांड संबंध पहचान

अनुसंधान प्रेरणा

मौजूदा स्ट्रिंग-आधारित ब्रांड पहचान विधियों में सीमाएं हैं, ब्रांड अवधारणा को एकल नामकरण स्पेस में वैश्विक ब्रांड एंटिटी में एकीकृत करने की आवश्यकता है, भाषा, स्टोर और सतह रूप में एकीकृत पहचान प्राप्त करने के लिए।

मुख्य योगदान

  1. दो-चरणीय एंटिटी लिंकिंग मॉडल का निर्माण: पूर्व-प्रशिक्षित NER मॉडल और सतह रूप मिलान को जोड़ने वाली ब्रांड एंटिटी भविष्यवाणी ढांचा
  2. मिलान तकनीकों की खोज: शब्दावली और शब्दार्थ मिलान तकनीकें विकसित करना, और बड़े पैमाने पर ब्रांड आउटपुट स्पेस के लिए एंटिटी भविष्यवाणी अनुकूलन के लिए उत्पाद प्रकार-आधारित फ़िल्टरिंग चरण प्रस्तावित करना
  3. अंत-से-अंत चरम बहु-वर्गीकरण मॉडल प्रस्तावित करना: सीधे सर्च क्वेरी को इनपुट के रूप में लेकर संबंधित ब्रांड एंटिटी की भविष्यवाणी करना, और दो-चरणीय मॉडल के साथ संलयन
  4. व्यापक सत्यापन: बड़े पैमाने पर ऑफलाइन प्रयोग बेंचमार्क परीक्षण और ऑनलाइन A/B परीक्षण के माध्यम से समाधान प्रभावशीलता को सत्यापित करना

विधि विवरण

कार्य परिभाषा

दिए गए ब्रांड सर्च क्वेरी (जैसे " running shoes"), ब्रांड डेटाबेस में अद्वितीय ब्रांड एंटिटी की पहचान और लिंकिंग करना। इनपुट कच्ची क्वेरी टेक्स्ट है, आउटपुट संबंधित ब्रांड एंटिटी ID है।

मॉडल आर्किटेक्चर

1. दो-चरणीय ढांचा

मूल दो-चरणीय विधि (NER + सटीक शब्दावली मिलान):

  • पहला चरण: MetaTS-NER मॉडल का उपयोग करके ब्रांड उल्लेख निकालना
    m = f_NER(q)
    
  • दूसरा चरण: स्थिर शब्दकोश के माध्यम से सटीक स्ट्रिंग मिलान
    E_ID = g(m)
    
  • फ़िल्टरिंग चरण: उत्पाद प्रकार के आधार पर विसंदिग्धता
    e = h(E_ID, q, PT_q)
    

सुधारी गई दो-चरणीय विधि (NER + PECOS शब्दार्थ मिलान):

  • मिलान चरण को चरम बहु-वर्गीकरण समस्या के रूप में मॉडलिंग करना
  • PECOS ढांचे का उपयोग करके बड़े पैमाने पर ब्रांड एंटिटी स्पेस को संभालना (लगभग 6 लाख एंटिटी)
  • ब्रांड एंटिटी और उनके प्रासंगिकता स्कोर आउटपुट करना: (E_ID, S) = g_M2E(m)

2. अंत-से-अंत ढांचा (Q2E-PECOS)

क्वेरी से सीधे ब्रांड एंटिटी की भविष्यवाणी करना, NER चरण की त्रुटि प्रसार से बचना:

(E_ID, S) = g_Q2E(q)
e = h(E_ID, PT_q, S, q)

मुख्य विशेषताएं:

  • गैर-ब्रांड क्वेरी को संभालने के लिए NIL क्लास जोड़ना
  • समय जटिलता: O(b × log L), जहां b बीम आकार है, L ब्रांड एंटिटी संख्या है
  • स्पेस जटिलता: O(d × L) से O(d × log L) तक कम

3. संलयन ढांचा

दो-चरणीय सटीक मिलान और अंत-से-अंत विधि के लाभों को जोड़ना:

  • दोनों विधियों को समानांतर में निष्पादित करना
  • उच्च सटीकता सुनिश्चित करने के लिए सटीक मिलान परिणाम को प्राथमिकता देना
  • कवरेज बढ़ाने के लिए Q2E-PECOS परिणाम पर वापस जाना

तकनीकी नवाचार बिंदु

  1. ब्रांड लिंकिंग में PECOS का अनुप्रयोग: पहली बार चरम बहु-वर्गीकरण ढांचे को ई-कॉमर्स ब्रांड एंटिटी लिंकिंग में लागू करना
  2. उत्पाद प्रकार-सहायक विसंदिग्धता: क्वेरी उत्पाद प्रकार जानकारी का उपयोग करके ब्रांड एंटिटी विसंदिग्धता
  3. बहुभाषी समर्थन: 13 भाषाओं में ब्रांड पहचान का समर्थन
  4. संलयन रणनीति: उच्च सटीकता और उच्च रिकॉल विधियों को कुशलतापूर्वक जोड़ना

प्रयोग सेटअप

डेटासेट

डेटासेटस्केल
ब्रांड एंटिटी संख्या61,697
Brand2entity616,974
मजबूत एनोटेशन डेटा (SL)806,972
कमजोर एनोटेशन डेटा (WL)1,308,816
परीक्षण डेटा28,439

डेटा संरचना:

  1. Brand2entity (B2E): ब्रांड नाम-एंटिटी जोड़ी का आंतरिक शब्दकोश
  2. मजबूत एनोटेशन डेटा (SL): 13 भाषाओं में मानव-एनोटेट सर्च क्वेरी डेटा
  3. कमजोर एनोटेशन डेटा (WL): ऐतिहासिक क्वेरी-उत्पाद इंटरैक्शन से प्राप्त कमजोर पर्यवेक्षण डेटा

मूल्यांकन मेट्रिक्स

  • रिकॉल दर: Recall = |C| / |L_single|
  • सटीकता: Precision = |C| / |P_single|
  • कवरेज: Coverage = |P_single| / |T|
  • F1 स्कोर: हार्मोनिक माध्य

जहां C सही भविष्यवाणी सेट है, L_single एकल ब्रांड एंटिटी लेबल क्वेरी सेट है, P_single मॉडल द्वारा भविष्यवाणी की गई एकल ब्रांड एंटिटी क्वेरी सेट है।

तुलना विधियां

  1. NER + सटीक शब्दावली मिलान: आधारभूत दो-चरणीय विधि
  2. NER + M2E-PECOS: शब्दार्थ मिलान की दो-चरणीय विधि
  3. Bi-encoder: Qwen3 Embedding 0.6B का उपयोग करके द्वि-एनकोडर आधारभूत
  4. Q2E-PECOS: अंत-से-अंत PECOS विधि
  5. संलयन मॉडल: मिश्रित विधि के विभिन्न संयोजन

प्रयोग परिणाम

मुख्य परिणाम

विधिप्रशिक्षण डेटासंलयनसमूह-1समूह-2
कवरेज/रिकॉल/सटीकता/F1कवरेज/रिकॉल/सटीकता/F1
NER + सटीक मिलान✓ ✓58.28/64.66/97.22/77.6770.16/86.21/99.15/92.23
Q2E-PECOS✓ ✓ ✓70.98/75.26/96.13/84.4280.77/94.71/98.92/96.77
Q2E-PECOS✓ ✓ ✓75.31/77.35/94.93/85.2485.09/94.64/98.55/96.56

मुख्य निष्कर्ष:

  • अंत-से-अंत Q2E-PECOS कवरेज और रिकॉल दर में महत्वपूर्ण सुधार
  • संलयन रणनीति उच्च सटीकता बनाए रखते हुए रिकॉल दर में सुधार
  • कमजोर एनोटेशन डेटा अंत-से-अंत मॉडल प्रदर्शन में सुधार के लिए महत्वपूर्ण

बहुभाषी प्रदर्शन विश्लेषण

विभिन्न भाषाओं में प्रदर्शन में महत्वपूर्ण अंतर:

  • उच्च-संसाधन भाषाएं (अंग्रेजी, स्पेनिश): सभी विधियों का प्रदर्शन अच्छा
  • कम-संसाधन भाषाएं (जापानी): NER + सटीक मिलान कवरेज केवल 19.03%
  • संलयन विधि: सभी भाषाओं में सटीकता और रिकॉल दर को संतुलित कर सकता है

गलत सकारात्मक दर विश्लेषण

85K गैर-ब्रांड क्वेरी पर गलत सकारात्मक दर:

  • NER + सटीक मिलान: 1.177%
  • Q2E-PECOS (कमजोर एनोटेशन के साथ): 6.550%

यद्यपि अंत-से-अंत विधि की गलत सकारात्मक दर अधिक है, लेकिन समग्र प्रदर्शन सुधार को ध्यान में रखते हुए, यह स्वीकार्य सीमा में है।

ऑनलाइन A/B परीक्षण परिणाम

मेट्रिकसमूह-1 स्टोरसमूह-2 स्टोर
ब्रांड एंटिटी रिकॉल दर+11.00%+5.44%
ग्राहक जुड़ाव+0.02%-
तत्काल योगदान लाभ+0.03%-

ऑनलाइन परीक्षण ने संलयन समाधान के वास्तविक व्यावसायिक मूल्य की पुष्टि की।

संबंधित कार्य

पारंपरिक एंटिटी लिंकिंग विधियां

  • दो-चरणीय डिजाइन: एंटिटी पहचान + एंटिटी विसंदिग्धता
  • उम्मीदवार पीढ़ी: सतह रूप मिलान, उपनाम विस्तार, पूर्व संभावना मिलान
  • उम्मीदवार रैंकिंग: संपादन दूरी, शब्दार्थ वेक्टर समानता

अंत-से-अंत विधियां

  • संयुक्त शिक्षण: एक साथ पहचान और विसंदिग्धता
  • अनुक्रम लेबलिंग: BERT-आधारित टोकन वर्गीकरण
  • ऑटोरेग्रेसिव पीढ़ी: टोकन-दर-टोकन एंटिटी नाम पीढ़ी

ई-कॉमर्स डोमेन विशेषता

  • क्वेरी विशेषता: छोटी, शोर, अस्पष्ट
  • अनुप्रयोग परिदृश्य: उत्पाद पुनः प्राप्ति, क्वेरी पुनः लेखन, सर्च परिणाम गुणवत्ता सुधार
  • तकनीकी चुनौतियां: शब्दावली संदर्भ की कमी, बड़े पैमाने पर ज्ञान आधार

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. अंत-से-अंत विधि लाभ: Q2E-PECOS पारंपरिक दो-चरणीय विधि की तुलना में कवरेज और रिकॉल दर में महत्वपूर्ण सुधार
  2. संलयन रणनीति प्रभावी: उच्च सटीकता शब्दावली मिलान और उच्च रिकॉल दर शब्दार्थ मिलान को जोड़ने वाली संलयन विधि सर्वश्रेष्ठ प्रदर्शन करती है
  3. डेटा महत्व: कमजोर एनोटेशन डेटा अंत-से-अंत मॉडल प्रदर्शन सुधार के लिए महत्वपूर्ण
  4. व्यावहारिक मूल्य: ऑनलाइन A/B परीक्षण विधि के व्यावसायिक मूल्य की पुष्टि करता है

सीमाएं

  1. गलत सकारात्मक दर: अंत-से-अंत विधि गैर-ब्रांड क्वेरी पर गलत सकारात्मक दर अधिक है
  2. भाषा अंतर: कम-संसाधन भाषा प्रदर्शन में अभी भी सुधार की गुंजाइश है
  3. कम्प्यूटेशनल ओवरहेड: संलयन विधि को कई मॉडल समानांतर में चलाने की आवश्यकता है
  4. डेटा निर्भरता: अंत-से-अंत प्रशिक्षण का समर्थन करने के लिए बड़ी मात्रा में कमजोर एनोटेशन डेटा की आवश्यकता है

भविष्य की दिशा

  1. मॉडल अनुकूलन: गलत सकारात्मक दर को और कम करना, कम-संसाधन भाषा प्रदर्शन में सुधार
  2. दक्षता सुधार: कम्प्यूटेशनल जटिलता को अनुकूलित करना, अनुमान विलंबता को कम करना
  3. क्रॉस-डोमेन स्थानांतरण: विधि को अन्य ई-कॉमर्स विशेषता निष्कर्षण कार्यों तक विस्तारित करना
  4. गतिशील अपडेट: नए ब्रांड के वास्तविक समय जोड़ और अपडेट को संभालना

गहन मूल्यांकन

शक्तियां

  1. समस्या महत्व: ई-कॉमर्स सर्च में मुख्य समस्या को हल करता है, महत्वपूर्ण व्यावहारिक मूल्य है
  2. विधि नवाचार: पहली बार PECOS चरम बहु-वर्गीकरण ढांचे को ब्रांड एंटिटी लिंकिंग में लागू करना
  3. व्यापक प्रयोग: बहुभाषी, बहु-विधि तुलना, ऑनलाइन A/B परीक्षण सत्यापन को शामिल करता है
  4. इंजीनियरिंग व्यावहारिकता: वास्तविक तैनाती में दक्षता और सटीकता संतुलन पर विचार किया गया
  5. समृद्ध डेटा: बड़े पैमाने पर वास्तविक ई-कॉमर्स डेटा का उपयोग किया गया

कमियां

  1. सैद्धांतिक विश्लेषण अपर्याप्त: अंत-से-अंत विधि अधिक प्रभावी क्यों है इसके सैद्धांतिक व्याख्या की कमी
  2. सीमित विलोपन प्रयोग: प्रत्येक घटक के योगदान का विश्लेषण पर्याप्त गहन नहीं है
  3. गलत सकारात्मक समस्या: अंत-से-अंत विधि गलत सकारात्मक दर अधिक है, आगे अनुकूलन की आवश्यकता है
  4. कम्प्यूटेशनल ओवरहेड: संलयन विधि की कम्प्यूटेशनल जटिलता विश्लेषण पर्याप्त विस्तृत नहीं है

प्रभाव

  1. शैक्षणिक योगदान: ई-कॉमर्स NLP क्षेत्र के लिए नई तकनीकी समाधान प्रदान करता है
  2. व्यावहारिक मूल्य: Amazon में वास्तविक तैनाती, व्यावसायिक मूल्य सिद्ध किया गया
  3. पुनरुत्पादनीयता: विस्तृत प्रयोग सेटअप और डेटा विवरण प्रदान किया गया
  4. प्रेरणा महत्व: अन्य ई-कॉमर्स विशेषता निष्कर्षण कार्यों के लिए संदर्भ प्रदान करता है

लागू परिदृश्य

  1. ई-कॉमर्स प्लेटफॉर्म: विभिन्न ई-कॉमर्स सर्च इंजन की ब्रांड पहचान
  2. बहुभाषी वातावरण: वैश्विक ई-कॉमर्स प्लेटफॉर्म का बहुभाषी समर्थन
  3. बड़े पैमाने पर अनुप्रयोग: विशाल क्वेरी को संभालने वाली वास्तविक समय प्रणाली
  4. विशेषता निष्कर्षण: अन्य उत्पाद विशेषताओं के एंटिटी लिंकिंग कार्य तक विस्तार योग्य

संदर्भ

पेपर कई महत्वपूर्ण संबंधित कार्यों का उद्धृत करता है, जिनमें शामिल हैं:

  • PECOS ढांचे का मूल पेपर Yu et al., 2022
  • MetaTS-NER बहुभाषी अनुक्रम लेबलिंग मॉडल Li et al., 2021
  • पारंपरिक एंटिटी लिंकिंग विधियां Cao et al., 2017; Le & Titov, 2019
  • ई-कॉमर्स क्वेरी समझ संबंधित कार्य Kozareva et al., 2016; Manchanda et al., 2020

समग्र मूल्यांकन: यह ई-कॉमर्स सर्च में एक महत्वपूर्ण व्यावहारिक समस्या को हल करने वाला एक उच्च-गुणवत्ता वाला अनुप्रयोग अनुसंधान पेपर है। विधि में मजबूत नवाचार है, प्रयोग सत्यापन व्यापक है, विशेष रूप से ऑनलाइन A/B परीक्षण ने व्यावहारिक मूल्य सिद्ध किया है। यद्यपि सैद्धांतिक विश्लेषण और कुछ तकनीकी विवरणों में सुधार की गुंजाइश है, लेकिन समग्र रूप से यह ई-कॉमर्स NLP क्षेत्र का एक महत्वपूर्ण योगदान है।