2025-11-26T01:46:17.989246

LLMDistill4Ads: Using Cross-Encoders to Distill from LLM Signals for Advertiser Keyphrase Recommendations

Dey, Braun, Ravipati et al.
E-commerce sellers are advised to bid on keyphrases to boost their advertising campaigns. These keyphrases must be relevant to prevent irrelevant items from cluttering search systems and to maintain positive seller perception. It is vital that keyphrase suggestions align with seller, search and buyer judgments. Given the challenges in collecting negative feedback in these systems, LLMs have been used as a scalable proxy to human judgments. This paper presents an empirical study on a major ecommerce platform of a distillation framework involving an LLM teacher, a cross-encoder assistant and a bi-encoder Embedding Based Retrieval (EBR) student model, aimed at mitigating click-induced biases in keyphrase recommendations.
academic

LLMDistill4Ads: विज्ञापनदाता कीवर्ड अनुशंसाओं के लिए LLM संकेतों से क्रॉस-एन्कोडर्स का उपयोग करके डिस्टिलेशन

मूल जानकारी

  • पत्र ID: 2508.03628
  • शीर्षक: LLMDistill4Ads: विज्ञापनदाता कीवर्ड अनुशंसाओं के लिए LLM संकेतों से क्रॉस-एन्कोडर्स का उपयोग करके डिस्टिलेशन
  • लेखक: सौमिक डे, बेंजामिन ब्रौन, नवीन रविपति, हांसी वू, बिनबिन ली (ईबे इंक)
  • वर्गीकरण: cs.IR (सूचना पुनर्प्राप्ति), cs.AI, cs.LG
  • प्रकाशन तिथि: arXiv v5, 20 नवंबर 2025
  • पत्र लिंक: https://arxiv.org/abs/2508.03628v5

सारांश

ई-कॉमर्स विक्रेताओं को विज्ञापन प्रभावशीलता बढ़ाने के लिए कीवर्ड पर बोली लगानी पड़ती है, ये कीवर्ड प्रासंगिक होने चाहिए ताकि अप्रासंगिक उत्पादों से खोज प्रणाली प्रदूषित न हो और विक्रेता संतुष्टि बनी रहे। नकारात्मक प्रतिक्रिया संग्रह की कठिनाई के कारण, यह पत्र मानव निर्णय के स्केलेबल प्रॉक्सी के रूप में LLM का उपयोग करने का प्रस्ताव करता है। अध्ययन ने बड़े ई-कॉमर्स प्लेटफॉर्म पर एक ज्ञान डिस्टिलेशन ढांचा लागू किया: LLM शिक्षक मॉडल → क्रॉस-एन्कोडर सहायक → द्वि-एन्कोडर EBR छात्र मॉडल, जिसका उद्देश्य कीवर्ड अनुशंसा में क्लिक पूर्वाग्रह समस्या को कम करना है।

शोध पृष्ठभूमि और प्रेरणा

1. मुख्य समस्या

ई-कॉमर्स विज्ञापन प्रणाली में, विक्रेताओं को प्रासंगिक कीवर्ड (खरीदार प्रश्न) बोली विज्ञापन के लिए सुझाए जाते हैं। मुख्य चुनौतियों में शामिल हैं:

  • क्लिक डेटा की अविश्वसनीयता: उच्च क्लिक/बिक्री प्रासंगिकता दर्शाती है, लेकिन क्लिक की कमी अप्रासंगिकता नहीं दर्शाती
  • MNAR पूर्वाग्रह (Missing Not At Random): अप्रिय उत्पादों की रैंकिंग कम होती है, कम प्रदर्शन और क्लिक मिलते हैं
  • मध्यस्थ पूर्वाग्रह (Middleman Bias): प्रशिक्षण डेटा में केवल खोज प्रासंगिकता फ़िल्टर किए गए कीवर्ड शामिल होते हैं, जिससे नमूना चयन पूर्वाग्रह होता है

2. समस्या का महत्व

  • कीवर्ड प्रासंगिकता सीधे विक्रेता रणनीति और खोज प्रणाली गुणवत्ता को प्रभावित करती है
  • अप्रासंगिक अनुशंसाएं विक्रेता संतुष्टि कम करती हैं, संसाधन बर्बाद करती हैं, विज्ञापन प्रभावशीलता को प्रभावित करती हैं
  • विक्रेता, विज्ञापन प्रणाली और खोज प्रणाली तीनों के निर्णय मानदंडों को एक साथ पूरा करने की आवश्यकता है

मुख्य योगदान

  1. शिक्षक-सहायक-छात्र डिस्टिलेशन ढांचा प्रस्तावित: LLM शिक्षक → क्रॉस-एन्कोडर सहायक → द्वि-एन्कोडर छात्र की त्रि-स्तरीय संरचना
  2. बहु-संकेत संलयन प्रशिक्षण रणनीति: CTR, खोज प्रासंगिकता (SR) और LLM लेबल के बहु-कार्य सीखने का तरीका
  3. व्यवस्थित हानि फ़ंक्शन तुलना अध्ययन: 8 ज्ञान डिस्टिलेशन हानि कार्यों का मूल्यांकन, पियर्सन सहसंबंध हानि सर्वोत्तम पाई गई
  4. उत्पादन वातावरण मूल्यांकन प्रोटोकॉल: वास्तविक विज्ञापन नीलामी परिदृश्य का अनुकरण करने वाली ऑफलाइन मूल्यांकन विधि प्रस्तावित
  5. महत्वपूर्ण व्यावसायिक प्रभाव: A/B परीक्षण से GMB में 51.26%, ROAS में 38.69%, कीवर्ड स्वीकृति दर में 11.75% वृद्धि

विधि विवरण

कार्य परिभाषा

इनपुट: उत्पाद शीर्षक + श्रेणी और खरीदार कीवर्ड
आउटपुट: प्रासंगिकता निर्णय (द्वि-वर्गीकरण या सतत समानता स्कोर)
लक्ष्य: प्रत्येक उत्पाद के लिए शीर्ष-K सबसे प्रासंगिक कीवर्ड खोजना विज्ञापन बोली के लिए
बाधाएं: कम विलंबता (उत्पादन वातावरण के लिए उपयुक्त), उच्च सटीकता (बहु-पक्ष निर्णय के साथ संरेखण)

मॉडल वास्तुकला

1. डेटासेट निर्माण (तीन लेबल स्रोत)

CTR लेबल (10,702,747 प्रविष्टियां):

  • पिछले 30 दिनों का क्लिक-टू-इंप्रेशन अनुपात
  • CTR > 0.05 को सकारात्मक नमूने के रूप में चिह्नित
  • सकारात्मक नमूने विश्वसनीय, नकारात्मक नमूने अविश्वसनीय (केवल MNR हानि के लिए)

खोज प्रासंगिकता (SR) लेबल (18,721,682 प्रविष्टियां):

  • नीलामी प्रक्रिया से 3 महीने का SR मॉडल स्कोर
  • व्यावसायिक सीमा से अधिक को सकारात्मक के रूप में चिह्नित
  • कोई मध्यस्थ पूर्वाग्रह या नमूना चयन पूर्वाग्रह नहीं

LLM लेबल (50,078,315 प्रशिक्षण सेट, 3,524,414 परीक्षण सेट):

  • Mixtral 8X7B Instruct-v0.1 का उपयोग करके उत्पन्न
  • क्लिक डेटा के साथ 90% संगति

2. क्रॉस-एन्कोडर (सहायक)

आधार मॉडल: माइक्रोBERT (eBERT का डिस्टिल्ड संस्करण)

  • eBERT से 4.3 गुना छोटा, 5.5 गुना तेज
  • ईबे उत्पाद डेटा पर पूर्व-प्रशिक्षित

3. द्वि-एन्कोडर (छात्र)

आधार मॉडल: माइक्रोBERT द्वि-टावर वास्तुकला

तकनीकी नवाचार बिंदु

1. शिक्षक-सहायक वास्तुकला की आवश्यकता

  • सीधे LLM से द्वि-एन्कोडर में डिस्टिलेशन का प्रभाव कम (F1=0.66 बनाम 0.88)
  • क्रॉस-एन्कोडर मध्यस्थ सेतु के रूप में:
    • द्वि-एन्कोडर से बेहतर सीखने की क्षमता
    • LLM से अधिक कुशल (बड़े पैमाने पर सॉफ्ट लेबल उत्पन्न कर सकता है)

2. बहु-संकेत संलयन की तर्कसंगतता

LLM+CTR+KD मॉडल प्रदर्शन सर्वोत्तम:
- मध्यस्थ कीवर्ड संख्या: 12
- LLM स्वीकृति दर: 71%
- खोज स्वीकृति दर: >99%

3. पियर्सन हानि की श्रेष्ठता

प्रयोगात्मक तुलना (तालिका 1):

KD हानिF1सटीकतापुनर्प्राप्तिρ (पियर्सन सहसंबंध)
MSE0.810.770.860.78
CoSENT0.870.860.880.82
पियर्सन0.880.870.880.87

प्रयोगात्मक सेटअप

डेटासेट

  • प्लेटफ़ॉर्म पैमाना: 2.3 बिलियन उत्पाद
  • प्रशिक्षण सेट: CTR: 10.7M, SR: 18.7M, LLM: 50M
  • मूल्यांकन सेट: 10,000 नमूने

मूल्यांकन मीट्रिक

ऑफ़लाइन मीट्रिक: F1, सटीकता, पुनर्प्राप्ति, पियर्सन सहसंबंध ऑनलाइन मीट्रिक: GMB, ROAS, स्वीकृति दर

प्रयोगात्मक परिणाम

मुख्य परिणाम

तालिका 2: लेबल संलयन प्रयोग

मॉडलKPPRPass@5Pass@10
LLM+CTR+KD12.0716860

मुख्य निष्कर्ष:

  1. LLM+CTR+KD सर्वोत्तम: दक्षता (KP=12) और गुणवत्ता (PR=71%) के बीच सर्वोत्तम संतुलन
  2. CTR-only दक्षता कम: केवल 7 कीवर्ड, कवरेज सीमित

संबंधित कार्य

1. एंबेडेड पुनर्प्राप्ति (EBR)

  • द्वि-एन्कोडर बनाम क्रॉस-एन्कोडर
  • इस पत्र का योगदान: डिस्टिलेशन के माध्यम से दोनों के लाभों का संयोजन

2. क्लिक पूर्वाग्रह समस्या

  • MNAR पूर्वाग्रह: Chen et al. (2023)
  • मध्यस्थ पूर्वाग्रह: Dey et al. (2025b)

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. LLM संकेत क्लिक पूर्वाग्रह को प्रभावी ढंग से कम करते हैं
  2. शिक्षक-सहायक वास्तुकला सीधे डिस्टिलेशन से बेहतर
  3. पियर्सन हानि रैंकिंग डिस्टिलेशन के लिए सबसे उपयुक्त

सीमाएं

  1. डोमेन विशिष्टता: केवल ई-कॉमर्स विज्ञापन परिदृश्य
  2. मानव लेबल गुणवत्ता: मोडेलिटी पूर्वाग्रह

भविष्य की दिशाएं

  1. बेहतर मानव निर्णय डेटा संग्रह
  2. उन्नत नकारात्मक नमूना खनन
  3. बहु-मोडेलिटी विस्तार

गहन मूल्यांकन

गुण

  1. विधि नवीनता ⭐⭐⭐⭐⭐
  2. प्रयोगात्मक पूर्णता ⭐⭐⭐⭐⭐
  3. व्यावहारिक मूल्य ⭐⭐⭐⭐⭐

दोष

  1. विधि सीमाएं
  2. प्रयोगात्मक सेटअप सीमाएं
  3. विश्लेषण अपर्याप्तता

प्रभाव मूल्यांकन

डोमेन योगदान: विज्ञापन प्रणाली पूर्वाग्रह, ज्ञान डिस्टिलेशन, LLM अनुप्रयोग शैक्षणिक प्रभाव: उच्च उद्धरण क्षमता औद्योगिक प्रभाव: प्रत्यक्ष व्यावसायिक मूल्य

कुल मिलाकर रेटिंग: ⭐⭐⭐⭐⭐ (5/5)

यह एक उत्कृष्ट औद्योगिक अनुप्रयोग पत्र है जो वास्तविक बड़े पैमाने के परिदृश्य में LLM-सहायता प्राप्त प्रशिक्षण की प्रभावशीलता को मान्य करता है।