In this work, we address the brand entity linking problem for e-commerce search queries. The entity linking task is done by either i)a two-stage process consisting of entity mention detection followed by entity disambiguation or ii) an end-to-end linking approaches that directly fetch the target entity given the input text. The task presents unique challenges: queries are extremely short (averaging 2.4 words), lack natural language structure, and must handle a massive space of unique brands. We present a two-stage approach combining named-entity recognition with matching, and a novel end-to-end solution using extreme multi-class classification. We validate our solutions by both offline benchmarks and the impact of online A/B test.
academic
ربط كيان العلامة التجارية في بحث التجارة الإلكترونية
تتناول هذه الورقة مشكلة ربط كيان العلامة التجارية في استعلامات بحث التجارة الإلكترونية. يتم إنجاز مهمة ربط الكيان بطريقتين: 1) عملية ذات مرحلتين تتضمن كشف ذكر الكيان وتوضيح الكيان؛ 2) طريقة ربط من طرف إلى طرف تستخرج الكيان المستهدف مباشرة من نص الإدخال. تواجه المهمة تحديات فريدة: الاستعلامات قصيرة جداً (متوسط 2.4 كلمة)، وتفتقر إلى البنية اللغوية الطبيعية، وتتطلب التعامل مع مساحة علامات تجارية واسعة النطاق. تقترح الورقة طريقة ذات مرحلتين تجمع بين التعرف على الكيانات المسماة والمطابقة، بالإضافة إلى حل جديد من طرف إلى طرف باستخدام التصنيف المتعدد الشديد. تم التحقق من فعالية الحل من خلال اختبارات معايير غير متصلة واختبارات A/B متصلة.
في بحث التجارة الإلكترونية، يعتبر التعرف على العلامة التجارية ثاني أهم سمة بعد نوع المنتج. يعتبر التعرف الصحيح على أسماء العلامات التجارية (سواء كانت مذكورة بشكل مباشر أو غير مباشر) جزءاً حاسماً من فهم استعلام البحث، وهو ضروري لتوفير تجربة تسوق جيدة.
قيود خصائص الاستعلام: استعلامات التجارة الإلكترونية قصيرة جداً (متوسط 2.4 كلمة)، وتفتقر إلى البنية اللغوية الطبيعية، مما يصعب على نماذج معالجة اللغة الطبيعية مفتوحة المصدر التعامل مع هذا التوزيع
مساحة العلامات التجارية الضخمة: يتطلب التعامل مع مئات الآلاف من العلامات التجارية الفريدة، مع استمرار إضافة علامات تجارية جديدة
مشاكل التنوع:
توحيد متغيرات أسماء العلامات التجارية عبر اللغات والمناطق الجغرافية المختلفة
الأشكال السطحية المختلفة لنفس العلامة التجارية (الاختصارات مقابل الأسماء الكاملة)
تعاني الطرق الحالية القائمة على السلاسل النصية من قيود في التعرف على العلامات التجارية، وهناك حاجة لتوحيد مفهوم العلامة التجارية إلى كيان علامة تجارية عام واحد في مساحة تسمية موحدة، مما يحقق التعرف الموحد عبر اللغات والمتاجر والأشكال السطحية.
بناء نموذج ربط كيان ذي مرحلتين: إطار عمل للتنبؤ بكيان العلامة التجارية يجمع بين نموذج NER المدرب مسبقاً ومطابقة الأشكال السطحية
استكشاف تقنيات المطابقة: تطوير تقنيات المطابقة المعجمية والدلالية، مع اقتراح خطوة تصفية قائمة على نوع المنتج لتحسين التنبؤ بالكيان في مساحة الإخراج الكبيرة للعلامات التجارية
اقتراح نموذج تصنيف متعدد شديد من طرف إلى طرف: التنبؤ المباشر بكيانات العلامة التجارية ذات الصلة من استعلام البحث، والدمج مع النموذج ذي المرحلتين
التحقق الشامل: التحقق من فعالية الحل من خلال اختبارات معايير غير متصلة واسعة النطاق واختبارات A/B متصلة
بالنظر إلى استعلام بحث عن العلامة التجارية (مثل " running shoes")، يتم تحديد وربط كيان العلامة التجارية الفريد في قاعدة بيانات العلامات التجارية. الإدخال هو نص الاستعلام الأولي، والإخراج هو معرّف كيان العلامة التجارية المقابل.
حيث C هي مجموعة التنبؤات الصحيحة، و L_single هي مجموعة استعلامات التسمية ذات كيان العلامة التجارية الواحدة، و P_single هي مجموعة استعلامات التنبؤ ذات كيان العلامة التجارية الواحدة.
تستشهد الورقة بأعمال ذات صلة مهمة متعددة، بما في ذلك:
الورقة الأصلية لإطار عمل PECOS Yu et al., 2022
نموذج MetaTS-NER لوسم التسلسل متعدد اللغات Li et al., 2021
طرق ربط الكيان التقليدية Cao et al., 2017; Le & Titov, 2019
الأعمال ذات الصلة بفهم استعلام البحث في التجارة الإلكترونية Kozareva et al., 2016; Manchanda et al., 2020
التقييم الإجمالي: هذه ورقة بحثية عالية الجودة في مجال التطبيقات، تحل مشكلة عملية مهمة في بحث التجارة الإلكترونية. تتمتع الطريقة بابتكار قوي، والتحقق التجريبي شامل، وخاصة أن اختبار A/B المتصل يثبت القيمة العملية. على الرغم من وجود مجال للتحسين في التحليل النظري وبعض التفاصيل التقنية، إلا أنها بشكل عام مساهمة مهمة في مجال معالجة اللغة الطبيعية للتجارة الإلكترونية.