LLMDistill4Ads: Using Cross-Encoders to Distill from LLM Signals for Advertiser Keyphrase Recommendations
Dey, Braun, Ravipati et al.
E-commerce sellers are advised to bid on keyphrases to boost their advertising campaigns. These keyphrases must be relevant to prevent irrelevant items from cluttering search systems and to maintain positive seller perception. It is vital that keyphrase suggestions align with seller, search and buyer judgments. Given the challenges in collecting negative feedback in these systems, LLMs have been used as a scalable proxy to human judgments. This paper presents an empirical study on a major ecommerce platform of a distillation framework involving an LLM teacher, a cross-encoder assistant and a bi-encoder Embedding Based Retrieval (EBR) student model, aimed at mitigating click-induced biases in keyphrase recommendations.
academic
LLMDistill4Ads: বিজ্ঞাপনদাতা কীফ্রেজ সুপারিশের জন্য ক্রস-এনকোডার ব্যবহার করে LLM সিগন্যাল থেকে জ্ঞান নিষ্কাশন
ই-কমার্স বিক্রেতাদের বিজ্ঞাপনের কার্যকারিতা বৃদ্ধির জন্য কীওয়ার্ডে বিড করতে হয়, এই কীওয়ার্ডগুলি অবশ্যই প্রাসঙ্গিক হতে হবে যাতে অপ্রাসঙ্গিক পণ্য অনুসন্ধান সিস্টেমকে দূষিত না করে এবং বিক্রেতার সন্তুষ্টি বজায় থাকে। নেতিবাচক প্রতিক্রিয়া সংগ্রহের অসুবিধার কারণে, এই পেপারটি মানব বিচারের একটি স্কেলেবল প্রতিনিধি হিসাবে LLM ব্যবহার করার প্রস্তাব দেয়। গবেষণা একটি বৃহৎ ই-কমার্স প্ল্যাটফর্মে একটি জ্ঞান নিষ্কাশন কাঠামো প্রয়োগ করেছে: LLM শিক্ষক মডেল → ক্রস-এনকোডার সহায়ক → দ্বি-এনকোডার EBR শিক্ষার্থী মডেল, যা কীওয়ার্ড সুপারিশে ক্লিক পক্ষপাত সমস্যা হ্রাস করার লক্ষ্যে।
ই-কমার্স বিজ্ঞাপন সিস্টেমে, বিক্রেতাদের জন্য প্রাসঙ্গিক কীওয়ার্ড (ক্রেতা অনুসন্ধান শব্দ) সুপারিশ করা যা বিজ্ঞাপন বিড করার জন্য ব্যবহৃত হয়। মূল চ্যালেঞ্জগুলির মধ্যে রয়েছে:
ক্লিক ডেটার অবিশ্বাসযোগ্যতা: উচ্চ ক্লিক/বিক্রয় প্রাসঙ্গিকতা নির্দেশ করে, কিন্তু ক্লিক না হওয়া অপ্রাসঙ্গিকতা নির্দেশ করে না
MNAR পক্ষপাত (Missing Not At Random): অজনপ্রিয় পণ্যগুলি কম র্যাঙ্ক করা হয়, কম এক্সপোজার এবং ক্লিক পায়
মধ্যস্থতাকারী পক্ষপাত (Middleman Bias): প্রশিক্ষণ ডেটা শুধুমাত্র অনুসন্ধান প্রাসঙ্গিকতা ফিল্টারের মাধ্যমে যাওয়া কীওয়ার্ড অন্তর্ভুক্ত করে, যা নমুনা নির্বাচন পক্ষপাত সৃষ্টি করে
মানব বিচারের প্রতিনিধি হিসাবে LLM এর বিশ্ব জ্ঞান এবং বিচার ক্ষমতা ব্যবহার করা, বহু-কাজ শেখা এবং জ্ঞান নিষ্কাশন কাঠামোর মাধ্যমে, CTR, অনুসন্ধান প্রাসঙ্গিকতা এবং LLM সিগন্যাল একত্রিত করে, দক্ষ দ্বি-এনকোডার পুনরুদ্ধার মডেল প্রশিক্ষণ করা।
১. শিক্ষক-সহায়ক-শিক্ষার্থী নিষ্কাশন কাঠামো প্রস্তাব: LLM শিক্ষক → ক্রস-এনকোডার সহায়ক → দ্বি-এনকোডার শিক্ষার্থীর তিন-স্তরীয় স্থাপত্য
२. বহু-সিগন্যাল সংমিশ্রণ প্রশিক্ষণ কৌশল: CTR, অনুসন্ধান প্রাসঙ্গিকতা (SR) এবং LLM লেবেলের বহু-কাজ শেখার প্যারাডাইম একীভূত করা
३. সিস্টেমেটিক ক্ষতি ফাংশন তুলনা গবেষণা: ৮টি জ্ঞান নিষ্কাশন ক্ষতি ফাংশন মূল্যায়ন করা, পিয়ার্সন সম্পর্ক ক্ষতি সর্বোত্তম খুঁজে পাওয়া
४. উৎপাদন পরিবেশ মূল্যায়ন প্রোটোকল: বাস্তব বিজ্ঞাপন নিলাম পরিস্থিতি অনুকরণকারী অফলাইন মূল্যায়ন পদ্ধতি প্রস্তাব করা
५. উল্লেখযোগ্য ব্যবসায়িক প্রভাব: A/B পরীক্ষা GMB ৫১.२६% বৃদ্ধি, ROAS ३८.६९% বৃদ্ধি, কীওয়ার্ড গ্রহণ হার ११.७५% বৃদ্ধি দেখায়
ইনপুট: পণ্য শিরোনাম (item title) + বিভাগ (category) এবং ক্রেতা অনুসন্ধান শব্দ (keyphrase) আউটপুট: প্রাসঙ্গিকতা বিচার (দ্বি-শ্রেণী বা ক্রমাগত সাদৃশ্য স্কোর) লক্ষ্য: প্রতিটি পণ্যের জন্য বিজ্ঞাপন বিডের জন্য শীর্ষ-K সবচেয়ে প্রাসঙ্গিক কীওয়ার্ড পুনরুদ্ধার করা সীমাবদ্ধতা: কম বিলম্ব প্রয়োজন (উৎপাদন পরিবেশের জন্য উপযুক্ত), উচ্চ নির্ভুলতা (বহু-পক্ষ বিচারের সাথে সংযোগ)
নিলাম প্রক্রিয়া থেকে ३ মাসের SR মডেল স্কোর সংগ্রহ করা
ব্যবসায়িক থ্রেশহোল্ড অতিক্রম করা ইতিবাচক নমুনা হিসাবে চিহ্নিত করা
কোন মধ্যস্থতাকারী পক্ষপাত এবং নমুনা নির্বাচন পক্ষপাত নেই
LLM লেবেল (५०,०७८,३१५ প্রশিক্ষণ সেট, ३,५२४,४१४ পরীক্ষা সেট):
Mixtral 8X7B Instruct-v0.1 ব্যবহার করে উৎপন্ন
ক্লিক ডেটার সাথে ९०% সামঞ্জস্যপূর্ণতা
প্রম্পট ডিজাইন:
Given an item with title: "{title}",
determine whether the keyphrase: "{keyphrase}",
is relevant for cpc targeting or not by giving
ONLY yes or no answer
१. শুধুমাত্র CTR: শুধুমাত্র CTR প্রশিক্ষিত ভিত্তিরেখা
२. LLM: শুধুমাত্র LLM লেবেল+বৈপরীত্য ক্ষতি
३. LLM+KD: LLM লেবেল+ক্রস-এনকোডার নিষ্কাশন
४. LLM+SR+KD: LLM+SR লেবেল+নিষ্কাশন
५. LLM+CTR+KD: সর্বোত্তম সমন্বয়
६. LLM+SR+CTR+KD: সম্পূর্ণ সিগন্যাল সমন্বয়
মূল আবিষ্কার:
१. LLM+CTR+KD সর্বোত্তম: দক্ষতা (KP=१२) এবং গুণমান (PR=७१%) মধ্যে সর্বোত্তম ভারসাম্য অর্জন করা
२. শুধুমাত্র CTR দক্ষতা কম: মাত্র ७টি কীওয়ার্ড, কভারেজ সীমিত করা
३. নিষ্কাশন উল্লেখযোগ্য উন্নতি নিয়ে আসে: LLM → LLM+KD (PR: ६१% → ४९%, কিন্তু Pass@५ উন্নতি)
४. SR সিগন্যালের ভূমিকা: অনুসন্ধান পাস হার >९९% এ উন্নীত করা
१. LLM সিগন্যাল কার্যকরভাবে ক্লিক পক্ষপাত হ্রাস করে: বিজ্ঞাপন কীওয়ার্ড সুপারিশ দৃশ্যে, LLM-উৎপন্ন লেবেল শুধুমাত্র CTR এর চেয়ে উল্লেখযোগ্যভাবে উচ্চতর
२. শিক্ষক-সহায়ক স্থাপত্য সরাসরি নিষ্কাশনের চেয়ে উচ্চতর: ক্রস-এনকোডার মধ্যবর্তী সেতু হিসাবে গুরুত্বপূর্ণ
३. পিয়ার্সন ক্ষতি র্যাঙ্কিং নিষ্কাশনের জন্য সবচেয়ে উপযুক্ত: ব্যাচ র্যাঙ্কিং ক্ষতি পয়েন্ট-ওয়াইজ এবং জোড়া ক্ষতির চেয়ে উচ্চতর
४. বহু-সিগন্যাল সংমিশ্রণ সহযোগী প্রভাব তৈরি করে: CTR+LLM+KD সমন্বয় সর্বোত্তম ব্যবসায়িক প্রভাব অর্জন করে
५. সাধারণ LLM সূক্ষ্ম-টিউন LLM এর চেয়ে উচ্চতর: মানব টীকা ডেটায় মডালিটি পক্ষপাত বিদ্যমান
१. বিজ্ঞাপন সিস্টেম পক্ষপাত: মধ্যস্থতাকারী পক্ষপাত সিস্টেমেটিকভাবে ব্যাখ্যা করা, সমাধান প্যারাডাইম প্রদান করা
२. জ্ঞান নিষ্কাশন: শিক্ষক-সহায়ক স্থাপত্য পুনরুদ্ধার কাজে কার্যকারিতা যাচাই করা
३. LLM প্রয়োগ: বড় আকারের LLM লেবেল উৎপাদনের সফল কেস (५०M)
४. শিল্প অনুশীলন: সম্পূর্ণ উৎপাদন সিস্টেম ডিজাইন রেফারেন্স
१. ই-কমার্স বিজ্ঞাপন সুপারিশ: কীওয়ার্ড, পণ্য সুপারিশ
२. অনুসন্ধান প্রাসঙ্গিকতা: অনুসন্ধান-নথি মিলান
३. তথ্য পুনরুদ্ধার: বহু-পক্ষ বিচার সংযোগের প্রয়োজনীয় যেকোনো দৃশ্য
४. পক্ষপাত হ্রাস: ক্লিক/এক্সপোজার পক্ষপাত সহ সুপারিশ সিস্টেম
१. অন্যান্য সুপারিশ দৃশ্য: সিগন্যাল উৎস সমন্বয় প্রয়োজন (যেমন ভিডিও সুপারিশ)
२. ক্রস-ভাষা পুনরুদ্ধার: বহুভাষিক LLM এবং প্রাক-প্রশিক্ষিত মডেল প্রয়োজন
३. রিয়েল-টাইম সিস্টেম: NRT অনুমান বিলম্ব অপ্টিমাইজেশন প্রয়োজন
१. ছোট আকারের ডেটা: পদ্ধতি বড় ডেটা প্রয়োজন (লক্ষ স্তর)
२. নিরপেক্ষ দৃশ্য: ক্লিক ডেটা নির্ভরযোগ্য হলে পদ্ধতি লাভ সীমিত
३. বিশুদ্ধ অন্বেষণ কাজ: বৈচিত্র্য প্রয়োজন এমন দৃশ্য, প্রাসঙ্গিকতা নয়
এই কাজ পুনরুৎপাদন করতে চাইলে:
१. LLM প্রতিস্থাপন: Llama 3.1 70B বা Qwen 2.5 72B ব্যবহার করা
२. ভিত্তি মডেল প্রতিস্থাপন: জনসাধারণের sentence-transformers মডেল ব্যবহার করা
३. সরলীকৃত সংস্করণ: প্রথমে LLM+CTR+Pearson Loss যাচাই করা (SR ডেটা প্রয়োজন নেই)
४. মূল্যায়ন প্রোটোকল: সংযোজন ৮.२ অফলাইন মূল্যায়ন প্রক্রিয়া অনুসরণ করা
५. শুরু স্কেল: লক্ষ-স্তরের ডেটা থেকে শুরু করা, ক্রমান্বয়ে সম্প্রসারণ করা
१. D2LLM (Liao et al., २०२४): প্রথমবার LLM→দ্বি-এনকোডার নিষ্কাশনের জন্য পিয়ার্সন ক্ষতি প্রস্তাব করা
२. CUPID (Bhattacharya et al., २०२३): MSE ক্ষতি ক্রস→দ্বি-এনকোডার নিষ্কাশনের জন্য অনুপযুক্ত প্রমাণ করা
३. ERNIE-search (Lu et al., २०२२): শিক্ষক-সহায়ক স্থাপত্যের প্রাথমিক অন্বেষণ
४. মধ্যস্থতাকারী পক্ষপাত (Dey et al., २०२५b): এই পেপারের লেখক দ্বারা প্রস্তাবিত মধ্যস্থতাকারী পক্ষপাত তত্ত্ব
७. Zheng et al. (२०२३): MT-Bench এবং LLM-as-a-judge
८. Gu et al. (२०२५): বিচারক হিসাবে LLM সমীক্ষা
সামগ্রিক রেটিং: ⭐⭐⭐⭐⭐ (५/५)
এটি একটি উৎকৃষ্ট শিল্প প্রয়োগ পেপার, যা বাস্তব বড় আকারের দৃশ্যে LLM-সহায়ক প্রশিক্ষণের কার্যকারিতা যাচাই করে, তত্ত্ব থেকে অনুশীলন পর্যন্ত সম্পূর্ণ সমাধান প্রদান করে। কিছু সীমাবদ্ধতা থাকলেও (যেমন তাত্ত্বিক বিশ্লেষণ অপূর্ণ, একক বাজার পরীক্ষা), এর ব্যবহারিক মূল্য, পদ্ধতি উদ্ভাবনী এবং পরীক্ষা সম্পূর্ণতা শীর্ষ স্তরে পৌঁছেছে। বিশেষভাবে প্রশংসনীয় হল সাধারণ LLM বনাম সূক্ষ্ম-টিউন LLM এর গভীর বিশ্লেষণ, যা মানব টীকায় মডালিটি পক্ষপাত সমস্যা প্রকাশ করে, ক্ষেত্রের জন্য গুরুত্বপূর্ণ সতর্কতা প্রদান করে।