2025-11-12T22:49:10.680556

Query Brand Entity Linking in E-Commerce Search

Liu, Nag
In this work, we address the brand entity linking problem for e-commerce search queries. The entity linking task is done by either i)a two-stage process consisting of entity mention detection followed by entity disambiguation or ii) an end-to-end linking approaches that directly fetch the target entity given the input text. The task presents unique challenges: queries are extremely short (averaging 2.4 words), lack natural language structure, and must handle a massive space of unique brands. We present a two-stage approach combining named-entity recognition with matching, and a novel end-to-end solution using extreme multi-class classification. We validate our solutions by both offline benchmarks and the impact of online A/B test.
academic

ربط كيان العلامة التجارية في بحث التجارة الإلكترونية

المعلومات الأساسية

  • معرّف الورقة: 2502.01555
  • العنوان: ربط كيان العلامة التجارية في بحث التجارة الإلكترونية
  • المؤلفون: Dong Liu, Sreyashi Nag (Amazon)
  • التصنيف: cs.IR cs.AI cs.LG
  • وقت النشر/المؤتمر: 2025 (نسخة أولية من arXiv)
  • رابط الورقة: https://arxiv.org/abs/2502.01555

الملخص

تتناول هذه الورقة مشكلة ربط كيان العلامة التجارية في استعلامات بحث التجارة الإلكترونية. يتم إنجاز مهمة ربط الكيان بطريقتين: 1) عملية ذات مرحلتين تتضمن كشف ذكر الكيان وتوضيح الكيان؛ 2) طريقة ربط من طرف إلى طرف تستخرج الكيان المستهدف مباشرة من نص الإدخال. تواجه المهمة تحديات فريدة: الاستعلامات قصيرة جداً (متوسط 2.4 كلمة)، وتفتقر إلى البنية اللغوية الطبيعية، وتتطلب التعامل مع مساحة علامات تجارية واسعة النطاق. تقترح الورقة طريقة ذات مرحلتين تجمع بين التعرف على الكيانات المسماة والمطابقة، بالإضافة إلى حل جديد من طرف إلى طرف باستخدام التصنيف المتعدد الشديد. تم التحقق من فعالية الحل من خلال اختبارات معايير غير متصلة واختبارات A/B متصلة.

السياق البحثي والدافع

تعريف المشكلة

في بحث التجارة الإلكترونية، يعتبر التعرف على العلامة التجارية ثاني أهم سمة بعد نوع المنتج. يعتبر التعرف الصحيح على أسماء العلامات التجارية (سواء كانت مذكورة بشكل مباشر أو غير مباشر) جزءاً حاسماً من فهم استعلام البحث، وهو ضروري لتوفير تجربة تسوق جيدة.

تحليل التحديات

  1. قيود خصائص الاستعلام: استعلامات التجارة الإلكترونية قصيرة جداً (متوسط 2.4 كلمة)، وتفتقر إلى البنية اللغوية الطبيعية، مما يصعب على نماذج معالجة اللغة الطبيعية مفتوحة المصدر التعامل مع هذا التوزيع
  2. مساحة العلامات التجارية الضخمة: يتطلب التعامل مع مئات الآلاف من العلامات التجارية الفريدة، مع استمرار إضافة علامات تجارية جديدة
  3. مشاكل التنوع:
    • توحيد متغيرات أسماء العلامات التجارية عبر اللغات والمناطق الجغرافية المختلفة
    • الأشكال السطحية المختلفة لنفس العلامة التجارية (الاختصارات مقابل الأسماء الكاملة)
    • التعرف على علاقات العلامة الأم والعلامة الفرعية

الدافع البحثي

تعاني الطرق الحالية القائمة على السلاسل النصية من قيود في التعرف على العلامات التجارية، وهناك حاجة لتوحيد مفهوم العلامة التجارية إلى كيان علامة تجارية عام واحد في مساحة تسمية موحدة، مما يحقق التعرف الموحد عبر اللغات والمتاجر والأشكال السطحية.

المساهمات الأساسية

  1. بناء نموذج ربط كيان ذي مرحلتين: إطار عمل للتنبؤ بكيان العلامة التجارية يجمع بين نموذج NER المدرب مسبقاً ومطابقة الأشكال السطحية
  2. استكشاف تقنيات المطابقة: تطوير تقنيات المطابقة المعجمية والدلالية، مع اقتراح خطوة تصفية قائمة على نوع المنتج لتحسين التنبؤ بالكيان في مساحة الإخراج الكبيرة للعلامات التجارية
  3. اقتراح نموذج تصنيف متعدد شديد من طرف إلى طرف: التنبؤ المباشر بكيانات العلامة التجارية ذات الصلة من استعلام البحث، والدمج مع النموذج ذي المرحلتين
  4. التحقق الشامل: التحقق من فعالية الحل من خلال اختبارات معايير غير متصلة واسعة النطاق واختبارات A/B متصلة

شرح الطريقة

تعريف المهمة

بالنظر إلى استعلام بحث عن العلامة التجارية (مثل " running shoes")، يتم تحديد وربط كيان العلامة التجارية الفريد في قاعدة بيانات العلامات التجارية. الإدخال هو نص الاستعلام الأولي، والإخراج هو معرّف كيان العلامة التجارية المقابل.

معمارية النموذج

1. الإطار ذو المرحلتين

الطريقة الأساسية ذات المرحلتين (NER + المطابقة المعجمية الدقيقة):

  • المرحلة الأولى: استخراج ذكر العلامة التجارية باستخدام نموذج MetaTS-NER
    m = f_NER(q)
    
  • المرحلة الثانية: المطابقة الدقيقة للسلاسل النصية من خلال قاموس ثابت
    E_ID = g(m)
    
  • خطوة التصفية: توضيح بناءً على نوع المنتج
    e = h(E_ID, q, PT_q)
    

طريقة ذات مرحلتين محسّنة (NER + مطابقة دلالية PECOS):

  • نمذجة خطوة المطابقة كمشكلة تصنيف متعدد شديد
  • استخدام إطار عمل PECOS للتعامل مع مساحة كيان العلامة التجارية الكبيرة (حوالي 60,000 كيان)
  • إخراج كيان العلامة التجارية ودرجة الصلة: (E_ID, S) = g_M2E(m)

2. الإطار من طرف إلى طرف (Q2E-PECOS)

التنبؤ المباشر بكيان العلامة التجارية من الاستعلام، مما يتجنب انتشار الأخطاء من مرحلة NER:

(E_ID, S) = g_Q2E(q)
e = h(E_ID, PT_q, S, q)

الميزات الرئيسية:

  • إضافة فئة NIL للتعامل مع الاستعلامات غير المتعلقة بالعلامات التجارية
  • التعقيد الزمني: O(b × log L)، حيث b هو حجم الشعاع و L هو عدد كيانات العلامة التجارية
  • التعقيد المكاني: تقليل من O(d × L) إلى O(d × log L)

3. إطار العمل المدمج

الجمع بين مزايا المطابقة الدقيقة ذات المرحلتين والطريقة من طرف إلى طرف:

  • تنفيذ الطريقتين بالتوازي
  • إعطاء الأولوية لنتائج المطابقة الدقيقة لضمان الدقة العالية
  • الرجوع إلى نتائج Q2E-PECOS لتحسين الاستدعاء

نقاط الابتكار التقني

  1. تطبيق PECOS في ربط العلامات التجارية: أول تطبيق لإطار عمل التصنيف المتعدد الشديد في ربط كيان العلامة التجارية بالتجارة الإلكترونية
  2. توضيح مساعد بنوع المنتج: الاستفادة من معلومات نوع المنتج في الاستعلام لتوضيح كيان العلامة التجارية
  3. الدعم متعدد اللغات: دعم التعرف على العلامات التجارية في 13 لغة
  4. استراتيجية الدمج: الجمع الماهر بين طرق الدقة العالية والاستدعاء العالي

إعداد التجربة

مجموعة البيانات

مجموعة البياناتالحجم
عدد كيانات العلامة التجارية61,697
Brand2entity616,974
البيانات المعنونة بقوة (SL)806,972
البيانات المعنونة بضعف (WL)1,308,816
بيانات الاختبار28,439

تكوين البيانات:

  1. Brand2entity (B2E): قاموس داخلي لأزواج اسم العلامة التجارية والكيان
  2. البيانات المعنونة بقوة (SL): بيانات استعلام البحث المعنونة يدوياً في 13 لغة
  3. البيانات المعنونة بضعف (WL): بيانات مشتقة من التفاعلات التاريخية بين الاستعلام والمنتج

مقاييس التقييم

  • الاستدعاء: Recall = |C| / |L_single|
  • الدقة: Precision = |C| / |P_single|
  • التغطية: Coverage = |P_single| / |T|
  • درجة F1: المتوسط التوافقي

حيث C هي مجموعة التنبؤات الصحيحة، و L_single هي مجموعة استعلامات التسمية ذات كيان العلامة التجارية الواحدة، و P_single هي مجموعة استعلامات التنبؤ ذات كيان العلامة التجارية الواحدة.

الطرق المقارنة

  1. NER + المطابقة المعجمية الدقيقة: طريقة خط الأساس ذات المرحلتين
  2. NER + M2E-PECOS: طريقة ذات مرحلتين مع المطابقة الدلالية
  3. Bi-encoder: خط أساس مشفر ثنائي باستخدام Qwen3 Embedding 0.6B
  4. Q2E-PECOS: طريقة PECOS من طرف إلى طرف
  5. النموذج المدمج: مختلف مجموعات الطريقة الهجينة

نتائج التجربة

النتائج الرئيسية

الطريقةبيانات التدريبالدمجالمجموعة-1المجموعة-2
التغطية/الاستدعاء/الدقة/F1التغطية/الاستدعاء/الدقة/F1
NER + المطابقة الدقيقة✓ ✓58.28/64.66/97.22/77.6770.16/86.21/99.15/92.23
Q2E-PECOS✓ ✓ ✓70.98/75.26/96.13/84.4280.77/94.71/98.92/96.77
Q2E-PECOS✓ ✓ ✓75.31/77.35/94.93/85.2485.09/94.64/98.55/96.56

النتائج الرئيسية:

  • يحسّن Q2E-PECOS من طرف إلى طرف بشكل كبير التغطية والاستدعاء
  • تحسّن استراتيجية الدمج الاستدعاء مع الحفاظ على الدقة العالية
  • البيانات المعنونة بضعف لها تأثير واضح على تحسين أداء النموذج من طرف إلى طرف

تحليل الأداء متعدد اللغات

يختلف الأداء بشكل كبير عبر اللغات المختلفة:

  • اللغات عالية الموارد (الإنجليزية والإسبانية): أداء جيدة لجميع الطرق
  • اللغات منخفضة الموارد (اليابانية): تغطية NER + المطابقة الدقيقة فقط 19.03%
  • الطريقة المدمجة: توازن بين الدقة والاستدعاء في جميع اللغات

تحليل معدل الإيجابيات الكاذبة

معدل الإيجابيات الكاذبة على 85K استعلام غير متعلق بالعلامات التجارية:

  • NER + المطابقة الدقيقة: 1.177%
  • Q2E-PECOS (مع البيانات المعنونة بضعف): 6.550%

على الرغم من أن معدل الإيجابيات الكاذبة أعلى للطريقة من طرف إلى طرف، إلا أنه يظل مقبولاً بالنظر إلى تحسن الأداء الإجمالي.

نتائج اختبار A/B المتصل

المقياسمتجر المجموعة-1متجر المجموعة-2
استدعاء كيان العلامة التجارية+11.00%+5.44%
مشاركة العميل+0.02%-
الربح الفوري المساهم+0.03%-

يؤكد الاختبار المتصل القيمة التجارية الفعلية لحل الدمج.

الأعمال ذات الصلة

طرق ربط الكيان التقليدية

  • التصميم ذو المرحلتين: تحديد الكيان + توضيح الكيان
  • توليد المرشحين: مطابقة الأشكال السطحية، توسيع الأسماء المستعارة، مطابقة الاحتمالية السابقة
  • ترتيب المرشحين: مسافة التحرير، تشابه المتجه الدلالي

الطرق من طرف إلى طرف

  • التعلم المشترك: تنفيذ التحديد والتوضيح بشكل متزامن
  • وسم التسلسل: تصنيف الرمز القائم على BERT
  • الإنشاء الانحداري: إنشاء اسم الكيان رمزاً تلو الآخر

الخصوصية في مجال التجارة الإلكترونية

  • خصائص الاستعلام: قصير وضوضائي وغامض
  • حالات الاستخدام: استرجاع المنتج وإعادة كتابة الاستعلام وتحسين جودة نتائج البحث
  • التحديات التقنية: نقص السياق المعجمي وقاعدة المعرفة الكبيرة

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. مزايا الطريقة من طرف إلى طرف: يتفوق Q2E-PECOS بشكل كبير على طرق المرحلتين التقليدية في التغطية والاستدعاء
  2. فعالية استراتيجية الدمج: تحقق الطريقة المدمجة التي تجمع بين المطابقة المعجمية عالية الدقة والمطابقة الدلالية عالية الاستدعاء أفضل أداء
  3. أهمية البيانات: البيانات المعنونة بضعف حاسمة لتحسين أداء النموذج من طرف إلى طرف
  4. القيمة العملية: يؤكد اختبار A/B المتصل القيمة التجارية للطريقة

القيود

  1. معدل الإيجابيات الكاذبة: معدل الإيجابيات الكاذبة أعلى للطريقة من طرف إلى طرف في الاستعلامات غير المتعلقة بالعلامات التجارية
  2. الاختلافات اللغوية: لا تزال هناك مجالات لتحسين الأداء في اللغات منخفضة الموارد
  3. التعقيد الحسابي: تتطلب الطريقة المدمجة تشغيل نماذج متعددة بالتوازي
  4. الاعتماد على البيانات: يتطلب كمية كبيرة من البيانات المعنونة بضعف لدعم التدريب من طرف إلى طرف

الاتجاهات المستقبلية

  1. تحسين النموذج: تقليل معدل الإيجابيات الكاذبة بشكل أكبر وتحسين أداء اللغات منخفضة الموارد
  2. تحسين الكفاءة: تحسين التعقيد الحسابي وتقليل زمن الاستدلال
  3. نقل المجال: توسيع الطريقة لمهام استخراج السمات الأخرى في التجارة الإلكترونية
  4. التحديث الديناميكي: التعامل مع إضافة وتحديث العلامات التجارية الجديدة في الوقت الفعلي

التقييم المتعمق

المزايا

  1. أهمية المشكلة: حل مشكلة أساسية في بحث التجارة الإلكترونية بقيمة عملية مهمة
  2. ابتكار الطريقة: أول تطبيق لإطار عمل PECOS للتصنيف المتعدد الشديد في ربط كيان العلامة التجارية
  3. التجارب الشاملة: تغطي متعددة اللغات ومقارنة الطرق المتعددة والتحقق من اختبار A/B المتصل
  4. الفائدة الهندسية: تأخذ في الاعتبار التوازن بين الكفاءة والدقة في النشر الفعلي
  5. البيانات الغنية: استخدام بيانات التجارة الإلكترونية الحقيقية واسعة النطاق

أوجه القصور

  1. نقص التحليل النظري: افتقار إلى شرح نظري لسبب فعالية الطريقة من طرف إلى طرف
  2. تجارب الاستئصال محدودة: تحليل غير كافٍ لمساهمة كل مكون
  3. مشكلة الإيجابيات الكاذبة: معدل الإيجابيات الكاذبة مرتفع للطريقة من طرف إلى طرف ويتطلب تحسيناً إضافياً
  4. تحليل التعقيد الحسابي: تفاصيل غير كافية حول التعقيد الحسابي للطريقة المدمجة

التأثير

  1. المساهمة الأكاديمية: توفير حل تقني جديد لمجال معالجة اللغة الطبيعية في التجارة الإلكترونية
  2. القيمة العملية: تم نشره بالفعل في Amazon مما يثبت القيمة التجارية
  3. إمكانية التكرار: توفير وصف تفصيلي لإعداد التجربة والبيانات
  4. القيمة الإرشادية: توفير مرجع لمهام استخراج السمات الأخرى في التجارة الإلكترونية

السيناريوهات المطبقة

  1. منصات التجارة الإلكترونية: محركات بحث التجارة الإلكترونية المختلفة للتعرف على العلامات التجارية
  2. البيئات متعددة اللغات: منصات التجارة الإلكترونية العالمية التي تدعم لغات متعددة
  3. التطبيقات واسعة النطاق: الأنظمة في الوقت الفعلي التي تتطلب معالجة استعلامات ضخمة
  4. استخراج السمات: يمكن توسيعها لمهام ربط الكيان لسمات المنتج الأخرى

المراجع

تستشهد الورقة بأعمال ذات صلة مهمة متعددة، بما في ذلك:

  • الورقة الأصلية لإطار عمل PECOS Yu et al., 2022
  • نموذج MetaTS-NER لوسم التسلسل متعدد اللغات Li et al., 2021
  • طرق ربط الكيان التقليدية Cao et al., 2017; Le & Titov, 2019
  • الأعمال ذات الصلة بفهم استعلام البحث في التجارة الإلكترونية Kozareva et al., 2016; Manchanda et al., 2020

التقييم الإجمالي: هذه ورقة بحثية عالية الجودة في مجال التطبيقات، تحل مشكلة عملية مهمة في بحث التجارة الإلكترونية. تتمتع الطريقة بابتكار قوي، والتحقق التجريبي شامل، وخاصة أن اختبار A/B المتصل يثبت القيمة العملية. على الرغم من وجود مجال للتحسين في التحليل النظري وبعض التفاصيل التقنية، إلا أنها بشكل عام مساهمة مهمة في مجال معالجة اللغة الطبيعية للتجارة الإلكترونية.