2025-11-26T01:46:17.989246

LLMDistill4Ads: Using Cross-Encoders to Distill from LLM Signals for Advertiser Keyphrase Recommendations

Dey, Braun, Ravipati et al.

E-commerce sellers are advised to bid on keyphrases to boost their advertising campaigns. These keyphrases must be relevant to prevent irrelevant items from cluttering search systems and to maintain positive seller perception. It is vital that keyphrase suggestions align with seller, search and buyer judgments. Given the challenges in collecting negative feedback in these systems, LLMs have been used as a scalable proxy to human judgments. This paper presents an empirical study on a major ecommerce platform of a distillation framework involving an LLM teacher, a cross-encoder assistant and a bi-encoder Embedding Based Retrieval (EBR) student model, aimed at mitigating click-induced biases in keyphrase recommendations.

academic

LLMDistill4Ads: استخدام المشفرات المتقاطعة لتقطير إشارات LLM لتوصيات العبارات الرئيسية للمعلنين

المعلومات الأساسية

معرّف الورقة: 2508.03628
العنوان: LLMDistill4Ads: استخدام المشفرات المتقاطعة لتقطير إشارات LLM لتوصيات العبارات الرئيسية للمعلنين
المؤلفون: Soumik Dey, Benjamin Braun, Naveen Ravipati, Hansi Wu, Binbin Li (eBay Inc)
التصنيف: cs.IR (استرجاع المعلومات)، cs.AI، cs.LG
تاريخ النشر: arXiv v5، 20 نوفمبر 2025
رابط الورقة: https://arxiv.org/abs/2508.03628v5

الملخص

يحتاج بائعو التجارة الإلكترونية إلى المزايدة على العبارات الرئيسية لتحسين أداء الإعلانات، ويجب أن تكون هذه العبارات ذات صلة لمنع تلوث المنتجات غير ذات الصلة في أنظمة البحث والحفاظ على رضا البائعين. نظراً لصعوبة جمع التعليقات السلبية، تقترح هذه الورقة استخدام نماذج اللغة الكبيرة (LLM) كوكيل قابل للتوسع للحكم البشري. تطبق الدراسة إطار عمل تقطير معرفة على منصة تجارة إلكترونية كبيرة: نموذج معلم LLM → مشفر متقاطع مساعد → نموذج طالب مشفر ثنائي EBR، بهدف تخفيف مشكلة انحياز النقر في توصيات العبارات الرئيسية.

خلفية البحث والدافع

1. المشكلة الأساسية

في أنظمة الإعلانات بالتجارة الإلكترونية، توصية العبارات الرئيسية ذات الصلة (استعلامات المشترين) للبائعين للمزايدة على الإعلانات. تشمل التحديات الرئيسية:

عدم موثوقية بيانات النقر: النقرات العالية/المبيعات تشير إلى الصلة، لكن عدم وجود نقرات لا يعني عدم الصلة
انحياز MNAR (غير مفقود عشوائياً): المنتجات غير المرغوبة تحتل مرتبة منخفضة، مما يؤدي إلى تعريض وانقرات أقل
انحياز الوسيط (Middleman Bias): بيانات التدريب تحتوي فقط على العبارات الرئيسية التي تمر عبر مرشح صلة البحث، مما يؤدي إلى انحياز اختيار العينة

2. أهمية المشكلة

تؤثر صلة العبارات الرئيسية بشكل مباشر على استراتيجية البائع وجودة نظام البحث
التوصيات غير ذات الصلة تقلل من رضا البائع وتهدر الموارد وتؤثر على أداء الإعلانات
الحاجة إلى تلبية معايير الحكم لثلاث جهات: البائعون ونظام الإعلانات ونظام البحث

3. قيود الطرق الموجودة

التدريب على أساس CTR فقط: يسهل نسخ الشهرة والانحياز في التعريض في بيانات التدريب
العينات السلبية غير موثوقة: العينات السلبية في سجلات النقر لا تعكس عدم الصلة بشكل حقيقي
الوسم اليدوي صعب: تكلفة عالية وحجم محدود ووجود انحياز مشروط (المُعلِّمون يرون الصور لكن النموذج لا يراها)

4. دافع البحث

الاستفادة من المعرفة العالمية وقدرات الحكم لنماذج اللغة الكبيرة كوكيل للحكم البشري، من خلال التعلم متعدد المهام وإطار عمل تقطير المعرفة، مع دمج إشارات CTR وصلة البحث وإشارات LLM، لتدريب نموذج استرجاع مشفر ثنائي فعال.

المساهمات الأساسية

اقتراح إطار عمل تقطير معلم-مساعد-طالب: معمارية ثلاثية المستويات من معلم LLM → مشفر متقاطع مساعد → طالب مشفر ثنائي
استراتيجية تدريب متعددة الإشارات: دمج نموذج التعلم متعدد المهام لإشارات CTR وصلة البحث (SR) والعلامات من LLM
دراسة مقارنة منهجية لدوال الخسارة: تقييم 8 دوال خسارة تقطير معرفة، مع اكتشاف أن خسارة الارتباط بيرسون هي الأمثل
بروتوكول تقييم بيئة الإنتاج: اقتراح طريقة تقييم غير متصلة تحاكي سيناريوهات المزاد الإعلاني الحقيقية
تأثير عملي كبير: تظهر اختبارات A/B تحسناً في GMB بنسبة 51.26%، وفي ROAS بنسبة 38.69%، وفي معدل اعتماد العبارات الرئيسية بنسبة 11.75%

شرح الطريقة

تعريف المهمة

الإدخال: عنوان المنتج (item title) + الفئة (category) والعبارة الرئيسية للمشتري (keyphrase)
الإخراج: حكم الصلة (تصنيف ثنائي أو درجة تشابه مستمرة)
الهدف: استرجاع أفضل K عبارة رئيسية الأكثر صلة لكل منتج للمزايدة على الإعلانات
القيود: الحاجة إلى زمن تأخير منخفض (مناسب لبيئة الإنتاج)، دقة عالية (محاذاة أحكام متعددة الأطراف)

معمارية النموذج

1. بناء مجموعة البيانات (ثلاث مصادر علامات)

علامات CTR (10,702,747):

حساب نسبة النقر إلى الانطباع على مدار 30 يوماً الماضية
علامات CTR > 0.05 كعينات موجبة
العينات الموجبة موثوقة، العينات السلبية غير موثوقة (تُستخدم فقط لخسارة MNR)

علامات صلة البحث (SR) (18,721,682):

جمع درجات نموذج SR من عملية المزاد على مدار 3 أشهر
تجاوز عتبة العمل يُعتبر عينة موجبة
بدون انحياز وسيط وبدون انحياز اختيار العينة

علامات LLM (50,078,315 مجموعة تدريب، 3,524,414 مجموعة اختبار):

استخدام Mixtral 8X7B Instruct-v0.1
توافق 90% مع بيانات النقر
تصميم الطلب:

Given an item with title: "{title}", 
determine whether the keyphrase: "{keyphrase}", 
is relevant for cpc targeting or not by giving 
ONLY yes or no answer

2. المشفر المتقاطع (المساعد)

النموذج الأساسي: microBERT (نسخة مقطرة من eBERT)

أصغر بـ 4.3 مرات من eBERT، وأسرع بـ 5.5 مرات
تم التدريب المسبق على بيانات منتجات eBay

تنسيق الإدخال:

query [SEP] category name [SEP] item title

التدريب:

ضبط دقيق على 50M علامة LLM باستخدام خسارة الإنتروبيا المتقاطعة
F1 على مجموعة الاختبار = 96% (7.5M عينة)

الدور: بمثابة نموذج مساعد وسيط، يوفر علامات ناعمة للتقطير

3. المشفر الثنائي (الطالب)

النموذج الأساسي: معمارية microBERT ثنائية البرج

معالجة الإدخال:

برج المنتج: item title [SEP] category name
برج العبارة الرئيسية: buyer query
حساب تشابه جيب التمام بعد الترميز المستقل

تحسين بُعد الإخراج:

استخدام Matryoshka Loss لاختزال التضمينات إلى 64 بُعداً (تقليل زمن تأخير ANN)

4. نموذج التدريب متعدد المهام

الفكرة الأساسية: كل دفعة تحتوي على عينات من مجموعة بيانات واحدة فقط، مع أخذ العينات بنسبة حجم مجموعة البيانات

مجموعة دوال الخسارة:

مصدر البيانات	دالة الخسارة	السبب
علامات CTR	خسارة MNR	عينات موجبة موثوقة فقط، عينات سلبية من IRNS
علامات SR	خسارة Contrastive	عينات موجبة وسلبية واضحة
علامات LLM	خسارة Contrastive	عينات موجبة وسلبية واضحة
تقطير المشفر المتقاطع	خسارة ارتباط بيرسون	محاذاة ترتيب الترتيب

نقاط الابتكار التقني

1. ضرورة معمارية معلم-مساعد

التقطير المباشر من LLM إلى المشفر الثنائي أداء ضعيف (F1=0.66 مقابل 0.88)
المشفر المتقاطع كجسر وسيط:
- قدرة تعلم أقوى من المشفر الثنائي (يمكن الترميز المشترك)
- أكثر كفاءة من LLM (يمكن توليد علامات ناعمة بحجم كبير)
- تحقيق نقل معرفة تدريجي

2. معقولية دمج الإشارات المتعددة

أداء نموذج LLM+CTR+KD الأمثل:
- عدد العبارات الرئيسية الوسيط: 12
- معدل نجاح LLM: 71%
- معدل نجاح البحث: >99%

مبدأ التصميم:

CTR يوفر إشارة تفاعل حقيقية (عينات موجبة موثوقة)
LLM يوفر حكماً غير متحيز (يغطي العينات غير المعروضة)
SR يضمن قبول نظام البحث
المشفر المتقاطع يوفر إشارة ترتيب دقيقة

3. تفوق خسارة بيرسون

تجربة المقارنة (الجدول 1):

خسارة KD	F1	الدقة	الاستدعاء	ρ (ارتباط بيرسون)
MSE	0.81	0.77	0.86	0.78
CoSENT	0.87	0.86	0.88	0.82
بيرسون	0.88	0.87	0.88	0.87
MSEmar	0.86	0.84	0.88	0.80
KL-Div	0.85	0.83	0.88	0.66

تحليل السبب:

MSE هي خسارة نقطة تلو الأخرى، لا يمكنها التقاط علاقات الترتيب
CoSENT هي خسارة ترتيب زوجية، لها قدرة معايرة
بيرسون هي خسارة ترتيب دفعية، تحسّن الارتباط الخطي الكلي
أعلى معامل ارتباط بيرسون مع المشفر المتقاطع (0.87)

إعداد التجربة

مجموعة البيانات

حجم المنصة: 2.3 مليار منتج
مجموعة التدريب:
- CTR: 10.7M
- SR: 18.7M
- LLM: 50M (تدريب) + 3.5M (اختبار)
مجموعة التقييم: 10,000 عينة (لكل نموذج)
اختبار A/B: سوق الولايات المتحدة لمدة 12 يوماً

مقاييس التقييم

المقاييس غير المتصلة:

F1، الدقة، الاستدعاء: أداء التصنيف
ρ (ارتباط بيرسون): درجة المحاذاة مع المشفر المتقاطع
KP (عدد العبارات الرئيسية): عدد العبارات الرئيسية الوسيط بعد تصفية الصلة
PR (معدل النجاح): معدل نجاح LLM/SR في مواضع ترتيب مختلفة

المقاييس المتصلة:

GMB (إجمالي السلع المشتراة): حجم المبيعات
ROAS (العائد على نفقات الإعلانات): نسبة العائد على الاستثمار الإعلاني
معدل الاعتماد: عدد العبارات الرئيسية التي يستخدمها البائعون فعلياً

طرق المقارنة

CTR فقط: خط أساس يتم تدريبه على CTR فقط
LLM: علامات LLM فقط + خسارة Contrastive
LLM+KD: علامات LLM + تقطير المشفر المتقاطع
LLM+SR+KD: علامات LLM + SR + تقطير
LLM+CTR+KD: أفضل مجموعة
LLM+SR+CTR+KD: مجموعة الإشارات الكاملة

تفاصيل التنفيذ

النموذج الأساسي: microBERT (انظر الجدول 3 للأسباب)
إطار العمل: PyTorch + Transformers
أخذ عينات الدفعة: بنسبة حجم مجموعة البيانات
نشر الإنتاج:
- الاستدلال الدفعي: PySpark (1500 منفذ)
- الاستدلال NRT: Triton + ONNX (V100 GPU)
- زمن التأخير الإضافي اليومي: 35 دقيقة (20 مليون منتج)
- استرجاع ANN: 2.5 ساعة إضافية

نتائج التجربة

النتائج الرئيسية

الجدول 2: تجربة استبدال العلامات

النموذج	KP	PR	Pass@5	Pass@10	Pass@15	Pass@20
LLM+CTR+KD	12.0	71	68	60	55	52
LLM+SR+CTR+KD	11.0	70	67	59	54	51
LLM+SR+KD	12.0	51	47	42	41	39
LLM+KD	11.0	49	36	35	33	32
LLM	11.0	61	45	41	38	35
CTR	7	60	51	42	37	34

الاكتشافات الرئيسية:

LLM+CTR+KD الأمثل: يحقق أفضل توازن بين الكفاءة (KP=12) والجودة (PR=71%)
كفاءة CTR فقط منخفضة: 7 عبارات رئيسية فقط، مما يحد من التغطية
التقطير يجلب تحسناً كبيراً: LLM → LLM+KD (PR: 61% → 49%، لكن Pass@5 يتحسن)
دور إشارة SR: تحسين معدل نجاح البحث إلى >99%

تجارب الاستبدال

1. مقارنة خسائر تقطير المعرفة (الجدول 1)

خسارة بيرسون الأمثل: F1=0.88, ρ=0.87
CoSENT الثانية: F1=0.87, ρ=0.82
MSE غير فعالة: التحقق من اكتشافات ورقة CUPID
التقطير المباشر (LLM→BE) ضعيف: Contrastive F1=0.83, Softmax F1=0.66

2. اختيار النموذج الأساسي (الجدول 3)

النموذج الأساسي	الاستدعاء	الدقة	F1
eBERT	0.92	0.81	0.86
microBERT	0.92	0.78	0.85
ModernBERT	0.91	0.76	0.83

أسباب اختيار microBERT:

الأداء قريبة من eBERT (F1 أقل بـ 0.01 فقط)
سرعة الاستدلال أسرع بـ 30%
تم التدريب المسبق على بيانات المنصة (ModernBERT لم يتم التدريب المسبق)

3. البناء التدريجي لإطار العمل متعدد المهام

CTR (F1=0.66) 
→ CTR+LLM (F1=0.83) 
→ LLM+CTR+KD (F1=0.88)

كل مكون يجلب تحسناً

نتائج اختبار A/B (التحقق المتصل)

إعداد الاختبار: سوق الولايات المتحدة، 12 يوماً، استبدال نموذج CTR-only EBR

تحسن المقاييس العملية:

GMB +51.26% (p=0.01) - نمو كبير في المبيعات
ROAS +38.69% (p=0.02) - تحسن كبير في العائد على الاستثمار
معدل الاعتماد +11.75% (p=0.03) - البائعون أكثر استعداداً لاستخدام التوصيات

الأهمية: إثبات تحويل تحسن المقاييس غير المتصلة إلى قيمة عملية حقيقية

تحليل الحالات

حالة إيجابية (اتفاق LLM والنموذج):

المنتج: "محول طاقة AC أصلي 15V 4A لشاحن الكمبيوتر المحمول Surface Pro 3 4 5 6"
العبارة الرئيسية: "شاحن microsoft surface"
الحكم: ذات صلة ✓

حالة سلبية (فشل LLM المضبوط):

المنتج: "iPhone 11 64GB 128G مفتوح..."
العبارة الرئيسية: "iphone أصفر" (الصورة تظهر لون أصفر)
LLM العام: غير ذات صلة (بناءً على النص فقط)
LLM المضبوط: ذات صلة (متأثر بانحياز الوسائط)

اكتشافات التجربة

LLM العام أفضل من LLM المضبوط:
- LLM العام: تقليل 68% من العبارات الرئيسية، المبيعات +10%
- LLM المضبوط: الاحتفاظ بـ 75% من العبارات الرئيسية، المبيعات -20%
- السبب: الوسم اليدوي يحتوي على انحياز مشروط
ضرورة معمارية معلم-مساعد:
- المشفر المتقاطع له معايرة أفضل
- يمكنه التعامل مع بيانات بحجم كبير لتوليد علامات ناعمة
تكامل الإشارات المتعددة:
- CTR: عينات موجبة موثوقة
- LLM: تغطية الذيل الطويل
- SR: محاذاة نظام البحث
- الثلاثة ضرورية

الأعمال ذات الصلة

1. الاسترجاع المضمن (EBR)

المشفر الثنائي مقابل المشفر المتقاطع:
- المشفر الثنائي: ترميز مستقل، يدعم ANN، زمن تأخير منخفض
- المشفر المتقاطع: ترميز مشترك، أداء أفضل، زمن تأخير عالي
مساهمة هذه الورقة: دمج مزايا كلاهما من خلال التقطير

2. مشكلة انحياز النقر

انحياز MNAR: Chen et al. (2023)
انحياز الوسيط: Dey et al. (2025b) - عمل سابق للمؤلفين
حل هذه الورقة: استخدام إشارات LLM و SR لتكملة بيانات النقر

3. طرق تقطير المعرفة

TwinBERT (Lu et al., 2020): متقاطع → ثنائي BERT
ERNIE-search (Lu et al., 2022): معمارية معلم-مساعد
PROD (Lin et al., 2023): تقطير تدريجي
D2LLM (Liao et al., 2024): خسارة بيرسون لتقطير LLM
مساهمة هذه الورقة: دمج التعلم متعدد المهام ومعمارية معلم-مساعد

4. LLM كمحكّم

تقييم GPT-4: Zheng et al. (2023) - MT-Bench
تطبيق البحث: Wang et al. (2024) - Pinterest
مساهمة هذه الورقة:
- تطبيق بحجم كبير (50M علامة)
- تقييم منهجي لـ LLM العام مقابل LLM المضبوط
- اكتشاف مشكلة انحياز الوسائط

الخلاصة والنقاش

الاستنتاجات الرئيسية

إشارات LLM فعالة في تخفيف انحياز النقر: في سيناريو توصية العبارات الرئيسية للإعلانات، تتفوق العلامات المولدة من LLM بشكل كبير على استخدام CTR فقط
معمارية معلم-مساعد أفضل من التقطير المباشر: المشفر المتقاطع كجسر وسيط حاسم
خسارة بيرسون الأنسب لتقطير الترتيب: خسارة الترتيب الدفعية أفضل من خسائر النقطة والزوج
دمج الإشارات المتعددة ينتج تأثيراً تآزرياً: مجموعة CTR+LLM+KD تحقق أفضل تأثير عملي
LLM العام أفضل من LLM المضبوط: على بيانات الوسم اليدوي التي تحتوي على انحياز مشروط

القيود

الخصوصية الخاصة بالمجال:
- البحث مقتصر على سيناريو الإعلانات بالتجارة الإلكترونية
- تحتاج قابلية النقل إلى التحقق
مشاكل جودة الوسم اليدوي:
- المُعلِّمون يرون الصور لكن النموذج لا يراها (انحياز مشروط)
- دقة العلامات دقيقة جداً (ممتاز/جيد/عادل/سيء)
- حجم العينة غير كافٍ لتغطية 2.3 مليار منتج
استراتيجية تعدين العينات السلبية بسيطة:
- بيانات CTR تستخدم فقط IRNS (أخذ عينات سلبية عشوائية داخل الدفعة)
- لم يتم استكشاف طرق متقدمة مثل ANCE و N-Game
- متروك للبحث المستقبلي
اختيار LLM محدود:
- استخدام Mixtral 8X7B (مفتوح المصدر، حجم متوسط)
- نماذج أكبر (GPT-4) محدودة بقيود API
- عدم ضبط LLM (بسبب مشاكل جودة البيانات اليدوية)
قيود التقييم:
- التقييم غير المتصل فقط على مجموعة اختبار علامات LLM
- اختبار A/B فقط في سوق الولايات المتحدة
- التأثيرات طويلة الأجل لم يتم تقييمها

الاتجاهات المستقبلية

جمع بيانات حكم بشري أفضل:
- توحيد وسائط الإدخال (نص فقط أو متعدد الوسائط)
- تبسيط العلامات (تصنيف ثنائي)
- توسيع حجم العينة
تعدين عينات سلبية متقدم:
- استكشاف طرق ANCE و N-Game
- موازنة تكلفة الحساب والأداء
توسيع متعدد الوسائط:
- دمج معلومات الصور في النموذج
- حل مشكلة انحياز الوسائط
استكشاف ضبط LLM:
- ضبط على بيانات عالية الجودة
- قد يحسن الأداء بشكل أكبر
نقل عبر المجالات:
- التحقق من الطريقة على منصات تجارة إلكترونية أخرى
- التوسع إلى سيناريوهات غير إعلانية

التقييم المتعمق

المزايا

1. الابتكار في الطريقة ⭐⭐⭐⭐⭐

معمارية معلم-مساعد-طالب ثلاثية المستويات: دمج مبتكر لـ LLM والمشفر المتقاطع والمشفر الثنائي
تدريب مختلط متعدد المهام: دمج ماهر لثلاث مصادر إشارات غير متجانسة
دراسة منهجية لدوال الخسارة: مقارنة 8 خسائر KD، توفير إرشادات واضحة

2. اكتمال التجربة ⭐⭐⭐⭐⭐

بيانات حقيقية بحجم كبير: 50M علامة LLM، 2.3 مليار منتج
تجارب استبدال شاملة: علامات، خسائر، نماذج أساسية، معماريات
التحقق المتصل: اختبار A/B يثبت القيمة العملية
ملحق مفصل: تقييم LLM، اشتقاق رياضي للخسائر، معمارية النظام

3. القيمة العملية ⭐⭐⭐⭐⭐

تحسن عملي كبير: GMB +51%، ROAS +39%
تفاصيل نشر الإنتاج: معمارية نظام كاملة وتحليل زمن التأخير
قابلية إعادة الإنتاج قوية: نماذج مفتوحة المصدر (Mixtral)، وصف طريقة واضح

4. عمق الرؤية ⭐⭐⭐⭐

اكتشاف انحياز الوسائط: كشف مشكلة مخفية في الوسم اليدوي
تفوق LLM العام: تحدي الاعتقاد التقليدي بأن "الضبط دائماً أفضل"
انحياز الوسيط: اقتراح نوع انحياز جديد وحل له

5. جودة الكتابة ⭐⭐⭐⭐

هيكل واضح، منطق صارم
رسوم بيانية غنية (رسم آلية المزاد، معمارية، نظام الإنتاج)
صيغ رياضية كاملة (الملحق 8.3 اشتقاق مفصل)

أوجه القصور

1. قيود الطريقة

تكاليف الحساب غير محددة كمياً: لم يتم الإبلاغ عن وقت GPU/التكلفة لتوليد 50M علامة LLM
حساسية المعاملات الفائقة: لم يتم تحليل تأثير معدل التعلم وحجم الدفعة ومعامل درجة الحرارة
اختيار LLM محدود: Mixtral 8X7B ليس الأمثل، لكن محدود بالمصدر المفتوح والتكلفة

2. عيوب إعداد التجربة

تقييم مجموعة اختبار واحدة: التجارب غير المتصلة فقط على مجموعة اختبار علامات LLM، لم يتم التحقق على مجموعات اختبار SR/CTR
مدة اختبار A/B قصيرة: 12 يوماً قد لا تكون كافية لملاحظة التأثيرات طويلة الأجل (مثل إرهاق البائع)
قيود جغرافية: فقط سوق الولايات المتحدة، التأثير في دول أخرى غير معروف

3. تحليل غير كافٍ

تحليل حالات الفشل قليل: مثال واحد فقط على انحياز الوسائط
مقاييس جودة الترتيب غير مقيمة: لا توجد مقاييس NDCG و MRR للترتيب
التنوع غير محدد كمياً: على الرغم من ذكر uniqueness والتنوع، لا توجد مقاييس محددة

4. مشاكل قابلية الإعادة

إخفاء هوية المنصة: لا يمكن الوصول إلى eBERT/microBERT الخاص بـ eBay
البيانات غير عامة: بيانات تجارية لا يمكن مشاركتها
الكود الكامل غير مفتوح المصدر: وصف الطريقة فقط

5. نقص التحليل النظري

لماذا بيرسون الأمثل: افتقار إلى التفسير النظري، التحقق التجريبي فقط
مصدر الكسب من معمارية معلم-مساعد: لم يتم تحديد كمية مساهمات كل مستوى
نظرية التعلم متعدد المهام: لم يتم تحليل التداخل/التآزر بين المهام

تقييم التأثير

على المجال ⭐⭐⭐⭐⭐

انحياز الإعلانات: شرح منهجي لانحياز الوسيط، توفير نموذج حل
تقطير المعرفة: التحقق من فعالية معمارية معلم-مساعد في مهام الاسترجاع
تطبيق LLM: حالة نجاح واسعة النطاق لتوليد علامات LLM (50M)
الممارسة الصناعية: مرجع تصميم نظام إنتاج كامل

التأثير الأكاديمي

إمكانية الاستشهاد عالية: حل مشاكل عملية، طرق قابلة للنقل
اتجاهات البحث المستقبلية: LLM متعدد الوسائط، بروتوكولات وسم أفضل
دور المعيار: قد تصبح خسارة بيرسون معيار التقطير

التأثير الصناعي

قيمة عملية مباشرة: GMB +51% لـ eBay ذات أهمية كبيرة
قابلية النسخ قوية: منصات تجارة إلكترونية أخرى يمكنها الاستفادة (Amazon، Alibaba)
فعالية التكلفة واضحة: علامات LLM تحل محل الوسم اليدوي الضخم

السيناريوهات المعمول بها

قابلة للتطبيق بشكل كبير ✅

توصيات الإعلانات بالتجارة الإلكترونية: العبارات الرئيسية، توصيات المنتجات
صلة البحث: مطابقة الاستعلام والمستند
استرجاع المعلومات: أي سيناريو يحتاج إلى محاذاة أحكام متعددة الأطراف
تخفيف الانحياز: أنظمة التوصية مع انحياز النقر/التعريض

قابلة للتطبيق بشكل متوسط ⚠️

سيناريوهات توصية أخرى: تحتاج إلى تعديل مصادر الإشارات (مثل توصيات الفيديو)
الاسترجاع عبر اللغات: تحتاج إلى نماذج LLM ونماذج تدريب مسبق متعددة اللغات
الأنظمة في الوقت الفعلي: تحتاج إلى تحسين زمن تأخير الاستدلال NRT

غير قابلة للتطبيق ❌

البيانات الصغيرة الحجم: الطريقة تحتاج إلى بيانات كبيرة (مستوى المليون)
السيناريوهات بدون انحياز: إذا كانت بيانات النقر موثوقة، الكسب محدود
مهام الاستكشاف البحت: تحتاج إلى التنوع بدلاً من الصلة

توصيات الإعادة

إذا كنت تريد إعادة إنتاج هذا العمل:

استبدال LLM: استخدام Llama 3.1 70B أو Qwen 2.5 72B
استبدال النموذج الأساسي: استخدام نماذج sentence-transformers العامة
نسخة مبسطة: التحقق أولاً من LLM+CTR+Pearson Loss (بدون بيانات SR)
بروتوكول التقييم: اتبع عملية التقييم غير المتصل في الملحق 8.2
حجم البداية: ابدأ ببيانات بحجم المليون، وسّع تدريجياً

المراجع (مختارة)

الأعمال الأساسية ذات الصلة

D2LLM (Liao et al., 2024): أول من اقترح خسارة بيرسون لتقطير LLM → مشفر ثنائي
CUPID (Bhattacharya et al., 2023): إثبات أن خسارة MSE غير مناسبة لتقطير متقاطع → ثنائي
ERNIE-search (Lu et al., 2022): استكشاف معمارية معلم-مساعد المبكر
Middleman Bias (Dey et al., 2025b): نظرية انحياز الوسيط من المؤلفين

الانحياز والتوصية

Chen et al. (2023): مسح شامل لانحيازات أنظمة التوصية
Joachims et al. (2017): التعلم غير المتحيز من التعليقات المتحيزة

تقييم LLM

Zheng et al. (2023): MT-Bench و LLM-as-a-judge
Gu et al. (2025): مسح شامل لـ LLM كمحكّم

التقييم الكلي: ⭐⭐⭐⭐⭐ (5/5)

هذه ورقة تطبيق صناعي ممتازة، تتحقق من فعالية التدريب بمساعدة LLM في سيناريو حقيقي بحجم كبير، وتوفر حلاً شاملاً من النظرية إلى الممارسة. على الرغم من وجود بعض القيود (مثل نقص التحليل النظري واختبار سوق واحد)، فإن قيمتها العملية وابتكار الطريقة وشمول التجربة جميعها تصل إلى مستوى عالمي. يستحق الثناء بشكل خاص التحليل المتعمق للمؤلفين حول LLM العام مقابل LLM المضبوط، والذي يكشف عن مشكلة انحياز الوسائط في الوسم اليدوي، مما يوفر تحذيراً مهماً للمجال.