2025-11-26T01:46:17.989246

LLMDistill4Ads: Using Cross-Encoders to Distill from LLM Signals for Advertiser Keyphrase Recommendations

Dey, Braun, Ravipati et al.
E-commerce sellers are advised to bid on keyphrases to boost their advertising campaigns. These keyphrases must be relevant to prevent irrelevant items from cluttering search systems and to maintain positive seller perception. It is vital that keyphrase suggestions align with seller, search and buyer judgments. Given the challenges in collecting negative feedback in these systems, LLMs have been used as a scalable proxy to human judgments. This paper presents an empirical study on a major ecommerce platform of a distillation framework involving an LLM teacher, a cross-encoder assistant and a bi-encoder Embedding Based Retrieval (EBR) student model, aimed at mitigating click-induced biases in keyphrase recommendations.
academic

LLMDistill4Ads: বিজ্ঞাপনদাতা কীফ্রেজ সুপারিশের জন্য ক্রস-এনকোডার ব্যবহার করে LLM সিগন্যাল থেকে জ্ঞান নিষ্কাশন

মৌলিক তথ্য

  • পেপার আইডি: 2508.03628
  • শিরোনাম: LLMDistill4Ads: Using Cross-Encoders to Distill from LLM Signals for Advertiser Keyphrase Recommendations
  • লেখক: Soumik Dey, Benjamin Braun, Naveen Ravipati, Hansi Wu, Binbin Li (eBay Inc)
  • শ্রেণীবিভাগ: cs.IR (তথ্য পুনরুদ্ধার), cs.AI, cs.LG
  • প্রকাশনার সময়: arXiv v5, ২০২৫ সালের নভেম্বর ২০ তারিখ
  • পেপার লিঙ্ক: https://arxiv.org/abs/2508.03628v5

সারসংক্ষেপ

ই-কমার্স বিক্রেতাদের বিজ্ঞাপনের কার্যকারিতা বৃদ্ধির জন্য কীওয়ার্ডে বিড করতে হয়, এই কীওয়ার্ডগুলি অবশ্যই প্রাসঙ্গিক হতে হবে যাতে অপ্রাসঙ্গিক পণ্য অনুসন্ধান সিস্টেমকে দূষিত না করে এবং বিক্রেতার সন্তুষ্টি বজায় থাকে। নেতিবাচক প্রতিক্রিয়া সংগ্রহের অসুবিধার কারণে, এই পেপারটি মানব বিচারের একটি স্কেলেবল প্রতিনিধি হিসাবে LLM ব্যবহার করার প্রস্তাব দেয়। গবেষণা একটি বৃহৎ ই-কমার্স প্ল্যাটফর্মে একটি জ্ঞান নিষ্কাশন কাঠামো প্রয়োগ করেছে: LLM শিক্ষক মডেল → ক্রস-এনকোডার সহায়ক → দ্বি-এনকোডার EBR শিক্ষার্থী মডেল, যা কীওয়ার্ড সুপারিশে ক্লিক পক্ষপাত সমস্যা হ্রাস করার লক্ষ্যে।

গবেষণা পটভূমি এবং প্রেরণা

১. মূল সমস্যা

ই-কমার্স বিজ্ঞাপন সিস্টেমে, বিক্রেতাদের জন্য প্রাসঙ্গিক কীওয়ার্ড (ক্রেতা অনুসন্ধান শব্দ) সুপারিশ করা যা বিজ্ঞাপন বিড করার জন্য ব্যবহৃত হয়। মূল চ্যালেঞ্জগুলির মধ্যে রয়েছে:

  • ক্লিক ডেটার অবিশ্বাসযোগ্যতা: উচ্চ ক্লিক/বিক্রয় প্রাসঙ্গিকতা নির্দেশ করে, কিন্তু ক্লিক না হওয়া অপ্রাসঙ্গিকতা নির্দেশ করে না
  • MNAR পক্ষপাত (Missing Not At Random): অজনপ্রিয় পণ্যগুলি কম র‍্যাঙ্ক করা হয়, কম এক্সপোজার এবং ক্লিক পায়
  • মধ্যস্থতাকারী পক্ষপাত (Middleman Bias): প্রশিক্ষণ ডেটা শুধুমাত্র অনুসন্ধান প্রাসঙ্গিকতা ফিল্টারের মাধ্যমে যাওয়া কীওয়ার্ড অন্তর্ভুক্ত করে, যা নমুনা নির্বাচন পক্ষপাত সৃষ্টি করে

২. সমস্যার গুরুত্ব

  • কীওয়ার্ড প্রাসঙ্গিকতা সরাসরি বিক্রেতার কৌশল এবং অনুসন্ধান সিস্টেমের গুণমান প্রভাবিত করে
  • অপ্রাসঙ্গিক সুপারিশ বিক্রেতার সন্তুষ্টি হ্রাস করে, সম্পদ নষ্ট করে, বিজ্ঞাপনের কার্যকারিতা প্রভাবিত করে
  • বিক্রেতা, বিজ্ঞাপন সিস্টেম এবং অনুসন্ধান সিস্টেম তিনটি পক্ষের বিচারের মান একযোগে পূরণ করার প্রয়োজন

৩. বিদ্যমান পদ্ধতির সীমাবদ্ধতা

  • শুধুমাত্র CTR প্রশিক্ষণ: প্রশিক্ষণ ডেটায় জনপ্রিয়তা এবং এক্সপোজার পক্ষপাত প্রতিলিপি করা সহজ
  • অবিশ্বাস্য নেতিবাচক নমুনা: ক্লিক লগে নেতিবাচক নমুনা অপ্রাসঙ্গিকতা সত্যিকারভাবে প্রতিফলিত করতে পারে না
  • মানব টীকা কঠিন: উচ্চ খরচ, সীমিত স্কেল, মডালিটি পক্ষপাত বিদ্যমান (টীকাকারী ছবি দেখতে পারে কিন্তু মডেল পারে না)

৪. গবেষণা প্রেরণা

মানব বিচারের প্রতিনিধি হিসাবে LLM এর বিশ্ব জ্ঞান এবং বিচার ক্ষমতা ব্যবহার করা, বহু-কাজ শেখা এবং জ্ঞান নিষ্কাশন কাঠামোর মাধ্যমে, CTR, অনুসন্ধান প্রাসঙ্গিকতা এবং LLM সিগন্যাল একত্রিত করে, দক্ষ দ্বি-এনকোডার পুনরুদ্ধার মডেল প্রশিক্ষণ করা।

মূল অবদান

১. শিক্ষক-সহায়ক-শিক্ষার্থী নিষ্কাশন কাঠামো প্রস্তাব: LLM শিক্ষক → ক্রস-এনকোডার সহায়ক → দ্বি-এনকোডার শিক্ষার্থীর তিন-স্তরীয় স্থাপত্য २. বহু-সিগন্যাল সংমিশ্রণ প্রশিক্ষণ কৌশল: CTR, অনুসন্ধান প্রাসঙ্গিকতা (SR) এবং LLM লেবেলের বহু-কাজ শেখার প্যারাডাইম একীভূত করা ३. সিস্টেমেটিক ক্ষতি ফাংশন তুলনা গবেষণা: ৮টি জ্ঞান নিষ্কাশন ক্ষতি ফাংশন মূল্যায়ন করা, পিয়ার্সন সম্পর্ক ক্ষতি সর্বোত্তম খুঁজে পাওয়া ४. উৎপাদন পরিবেশ মূল্যায়ন প্রোটোকল: বাস্তব বিজ্ঞাপন নিলাম পরিস্থিতি অনুকরণকারী অফলাইন মূল্যায়ন পদ্ধতি প্রস্তাব করা ५. উল্লেখযোগ্য ব্যবসায়িক প্রভাব: A/B পরীক্ষা GMB ৫১.२६% বৃদ্ধি, ROAS ३८.६९% বৃদ্ধি, কীওয়ার্ড গ্রহণ হার ११.७५% বৃদ্ধি দেখায়

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

ইনপুট: পণ্য শিরোনাম (item title) + বিভাগ (category) এবং ক্রেতা অনুসন্ধান শব্দ (keyphrase)
আউটপুট: প্রাসঙ্গিকতা বিচার (দ্বি-শ্রেণী বা ক্রমাগত সাদৃশ্য স্কোর)
লক্ষ্য: প্রতিটি পণ্যের জন্য বিজ্ঞাপন বিডের জন্য শীর্ষ-K সবচেয়ে প্রাসঙ্গিক কীওয়ার্ড পুনরুদ্ধার করা
সীমাবদ্ধতা: কম বিলম্ব প্রয়োজন (উৎপাদন পরিবেশের জন্য উপযুক্ত), উচ্চ নির্ভুলতা (বহু-পক্ষ বিচারের সাথে সংযোগ)

মডেল স্থাপত্য

১. ডেটাসেট নির্মাণ (তিনটি লেবেল উৎস)

CTR লেবেল (१०,७०२,७४७ রেকর্ড):

  • গত ৩০ দিনের ক্লিক-এক্সপোজার অনুপাত গণনা করা
  • CTR > ०.०५ ইতিবাচক নমুনা হিসাবে চিহ্নিত করা
  • ইতিবাচক নমুনা নির্ভরযোগ্য, নেতিবাচক নমুনা অনির্ভরযোগ্য (শুধুমাত্র MNR ক্ষতির জন্য ব্যবহৃত)

অনুসন্ধান প্রাসঙ্গিকতা (SR) লেবেল (१८,७२१,६८२ রেকর্ড):

  • নিলাম প্রক্রিয়া থেকে ३ মাসের SR মডেল স্কোর সংগ্রহ করা
  • ব্যবসায়িক থ্রেশহোল্ড অতিক্রম করা ইতিবাচক নমুনা হিসাবে চিহ্নিত করা
  • কোন মধ্যস্থতাকারী পক্ষপাত এবং নমুনা নির্বাচন পক্ষপাত নেই

LLM লেবেল (५०,०७८,३१५ প্রশিক্ষণ সেট, ३,५२४,४१४ পরীক্ষা সেট):

  • Mixtral 8X7B Instruct-v0.1 ব্যবহার করে উৎপন্ন
  • ক্লিক ডেটার সাথে ९०% সামঞ্জস্যপূর্ণতা
  • প্রম্পট ডিজাইন:
Given an item with title: "{title}", 
determine whether the keyphrase: "{keyphrase}", 
is relevant for cpc targeting or not by giving 
ONLY yes or no answer

२. ক্রস-এনকোডার (সহায়ক)

ভিত্তি মডেল: microBERT (eBERT এর নিষ্কাশিত সংস্করণ)

  • eBERT এর চেয়ে ४.३ গুণ ছোট, ५.५ গুণ দ্রুত
  • eBay পণ্য ডেটায় প্রাক-প্রশিক্ষিত

ইনপুট ফর্ম্যাট:

query [SEP] category name [SEP] item title

প্রশিক্ষণ:

  • ५०M LLM লেবেলে ক্রস-এন্ট্রপি ক্ষতি দিয়ে সূক্ষ্ম-টিউন করা
  • পরীক্ষা সেট F1=९६% (७.५M নমুনা)

ভূমিকা: মধ্যবর্তী সহায়ক মডেল হিসাবে কাজ করা, নিষ্কাশনের জন্য নরম লেবেল প্রদান করা

३. দ্বি-এনকোডার (শিক্ষার্থী)

ভিত্তি মডেল: microBERT দ্বি-টাওয়ার স্থাপত্য

ইনপুট প্রক্রিয়াকরণ:

  • পণ্য টাওয়ার: item title [SEP] category name
  • কীওয়ার্ড টাওয়ার: buyer query
  • স্বাধীনভাবে এনকোড করার পরে কোসাইন সাদৃশ্য গণনা করা

আউটপুট মাত্রা অপ্টিমাইজেশন:

  • Matryoshka ক্ষতি ব্যবহার করে এমবেডিং ६४ মাত্রায় কাটা (ANN বিলম্ব হ্রাস করা)

४. বহু-কাজ প্রশিক্ষণ প্যারাডাইম

মূল ধারণা: প্রতিটি ব্যাচ শুধুমাত্র একটি ডেটাসেটের নমুনা অন্তর্ভুক্ত করে, ডেটাসেট আকার অনুপাত দ্বারা নমুনা করা

ক্ষতি ফাংশন সমন্বয়:

ডেটা উৎসক্ষতি ফাংশনকারণ
CTR লেবেলMNR ক্ষতিশুধুমাত্র নির্ভরযোগ্য ইতিবাচক নমুনা, নেতিবাচক নমুনা IRNS দ্বারা উৎপন্ন
SR লেবেলবৈপরীত্য ক্ষতিস্পষ্ট ইতিবাচক এবং নেতিবাচক নমুনা আছে
LLM লেবেলবৈপরীত্য ক্ষতিস্পষ্ট ইতিবাচক এবং নেতিবাচক নমুনা আছে
ক্রস-এনকোডার নিষ্কাশনপিয়ার্সন সম্পর্ক ক্ষতির‍্যাঙ্কিং ক্রম সংযোগ করা

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

१. শিক্ষক-সহায়ক স্থাপত্যের প্রয়োজনীয়তা

  • LLM থেকে সরাসরি দ্বি-এনকোডারে নিষ্কাশন খারাপ প্রভাব ফেলে (F1=०.६६ বনাম ०.८८)
  • ক্রস-এনকোডার মধ্যবর্তী সেতু হিসাবে:
    • দ্বি-এনকোডারের চেয়ে শেখার ক্ষমতা শক্তিশালী (যৌথ এনকোডিং করতে পারে)
    • LLM এর চেয়ে বেশি দক্ষ (বড় আকারের নরম লেবেল উৎপন্ন করতে পারে)
    • জ্ঞানের ক্রমান্বয়ী স্থানান্তর বাস্তবায়ন করা

२. বহু-সিগন্যাল সংমিশ্রণের যুক্তিসঙ্গততা

LLM+CTR+KD মডেল কর্মক্ষমতা সর্বোত্তম:
- মধ্যম কীওয়ার্ড সংখ্যা: १२
- LLM পাস হার: ७१%
- অনুসন্ধান পাস হার: >९९%

ডিজাইন নীতি:

  • CTR প্রকৃত ইন্টারঅ্যাকশন সিগন্যাল প্রদান করে (নির্ভরযোগ্য ইতিবাচক নমুনা)
  • LLM নিরপেক্ষ বিচার প্রদান করে (অপ্রকাশিত নমুনা কভার করা)
  • SR অনুসন্ধান সিস্টেম গ্রহণযোগ্যতা নিশ্চিত করে
  • ক্রস-এনকোডার সূক্ষ্ম-দানা র‍্যাঙ্কিং সিগন্যাল প্রদান করে

३. পিয়ার্সন ক্ষতির উচ্চতর

পরীক্ষা তুলনা (টেবিল १):

KD ক্ষতিF1নির্ভুলতাস্মরণρ (পিয়ার্সন সম্পর্ক)
MSE०.८१०.७७०.८६०.७८
CoSENT०.८७०.८६०.८८०.८२
পিয়ার্সন०.८८०.८७०.८८०.८७
MSEmar०.८६०.८४०.८८०.८०
KL-Div०.८५०.८३०.८८०.६६

কারণ বিশ্লেষণ:

  • MSE পয়েন্ট-ওয়াইজ ক্ষতি, র‍্যাঙ্কিং সম্পর্ক ক্যাপচার করতে পারে না
  • CoSENT জোড়া র‍্যাঙ্কিং ক্ষতি, ক্যালিব্রেশন ক্ষমতা আছে
  • পিয়ার্সন ব্যাচ র‍্যাঙ্কিং ক্ষতি, সামগ্রিক রৈখিক সম্পর্ক অপ্টিমাইজ করে
  • ক্রস-এনকোডারের সাথে সর্বোচ্চ পিয়ার্সন সম্পর্ক সহগ (०.८७)

পরীক্ষা সেটআপ

ডেটাসেট

  • প্ল্যাটফর্ম স্কেল: २.३ বিলিয়ন পণ্য
  • প্রশিক্ষণ সেট:
    • CTR: १०.७M
    • SR: १८.७M
    • LLM: ५०M (প্রশিক্ষণ) + ३.५M (পরীক্ষা)
  • মূল্যায়ন সেট: १०,००० নমুনা (প্রতিটি মডেল)
  • A/B পরীক্ষা: আমেরিকা বাজার १२ দিন

মূল্যায়ন মেট্রিক্স

অফলাইন মেট্রিক্স:

  • F1, নির্ভুলতা, স্মরণ: শ্রেণীবিভাগ কর্মক্ষমতা
  • ρ (পিয়ার্সন সম্পর্ক): ক্রস-এনকোডারের সাথে সংযোগ ডিগ্রি
  • KP (কীওয়ার্ড সংখ্যা): প্রাসঙ্গিকতা ফিল্টারের পরে মধ্যম কীওয়ার্ড সংখ্যা
  • PR (পাস হার): বিভিন্ন র‍্যাঙ্কিং অবস্থানে LLM/SR পাস হার

অনলাইন মেট্রিক্স:

  • GMB (মোট পণ্য ক্রয়): বিক্রয় রাজস্ব
  • ROAS (বিজ্ঞাপন ব্যয়ের রিটার্ন): বিজ্ঞাপন বিনিয়োগ রিটার্ন হার
  • গ্রহণ হার: বিক্রেতা প্রকৃতপক্ষে ব্যবহার করা কীওয়ার্ড সংখ্যা

তুলনা পদ্ধতি

१. শুধুমাত্র CTR: শুধুমাত্র CTR প্রশিক্ষিত ভিত্তিরেখা २. LLM: শুধুমাত্র LLM লেবেল+বৈপরীত্য ক্ষতি ३. LLM+KD: LLM লেবেল+ক্রস-এনকোডার নিষ্কাশন ४. LLM+SR+KD: LLM+SR লেবেল+নিষ্কাশন ५. LLM+CTR+KD: সর্বোত্তম সমন্বয় ६. LLM+SR+CTR+KD: সম্পূর্ণ সিগন্যাল সমন্বয়

বাস্তবায়ন বিবরণ

  • ভিত্তি মডেল: microBERT (নির্বাচনের কারণ টেবিল ३ দেখুন)
  • প্রশিক্ষণ কাঠামো: PyTorch + Transformers
  • ব্যাচ নমুনা: ডেটাসেট আকার অনুপাত দ্বারা
  • উৎপাদন স্থাপনা:
    • ব্যাচ অনুমান: PySpark (१५०० executors)
    • NRT অনুমান: Triton + ONNX (V100 GPU)
    • দৈনিক বৃদ্ধি বিলম্ব: ३५ মিনিট (२००० লক্ষ পণ্য)
    • ANN পুনরুদ্ধার: অতিরিক্ত २.५ ঘন্টা

পরীক্ষা ফলাফল

প্রধান ফলাফল

টেবিল २: লেবেল বিলোপন পরীক্ষা

মডেলKPPRPass@5Pass@10Pass@15Pass@20
LLM+CTR+KD१२.०७१६८६०५५५२
LLM+SR+CTR+KD११.०७०६७५९५४५१
LLM+SR+KD१२.०५१४७४२४१३९
LLM+KD११.०४९३६३५३३३२
LLM११.०६१४५४१३८३५
CTR६०५१४२३७३४

মূল আবিষ্কার: १. LLM+CTR+KD সর্বোত্তম: দক্ষতা (KP=१२) এবং গুণমান (PR=७१%) মধ্যে সর্বোত্তম ভারসাম্য অর্জন করা २. শুধুমাত্র CTR দক্ষতা কম: মাত্র ७টি কীওয়ার্ড, কভারেজ সীমিত করা ३. নিষ্কাশন উল্লেখযোগ্য উন্নতি নিয়ে আসে: LLM → LLM+KD (PR: ६१% → ४९%, কিন্তু Pass@५ উন্নতি) ४. SR সিগন্যালের ভূমিকা: অনুসন্ধান পাস হার >९९% এ উন্নীত করা

বিলোপন পরীক্ষা

१. জ্ঞান নিষ্কাশন ক্ষতি তুলনা (টেবিল १)

  • পিয়ার্সন ক্ষতি সর্বোত্তম: F1=०.८८, ρ=०.८७
  • CoSENT দ্বিতীয় সেরা: F1=०.८७, ρ=०.८२
  • MSE ব্যর্থ: CUPID পেপারের আবিষ্কার যাচাই করা
  • সরাসরি নিষ্কাশন (LLM→BE) খারাপ প্রভাব: বৈপরীত্য F1=०.८३, Softmax F1=०.६६

२. ভিত্তি মডেল নির্বাচন (টেবিল ३)

ভিত্তি মডেলস্মরণনির্ভুলতাF1
eBERT०.९२०.८१०.८६
microBERT०.९२०.७८०.८५
ModernBERT०.९१०.७६०.८३

microBERT নির্বাচনের কারণ:

  • eBERT এর কাছাকাছি কর্মক্ষমতা (F1 শুধুমাত্র ०.०१ পার্থক্য)
  • অনুমান গতি ३०% দ্রুত
  • প্ল্যাটফর্ম ডেটায় প্রাক-প্রশিক্ষিত (ModernBERT প্রাক-প্রশিক্ষিত নয়)

३. বহু-কাজ কাঠামো ক্রমান্বয় নির্মাণ

CTR (F1=०.६६) 
→ CTR+LLM (F1=०.८३) 
→ LLM+CTR+KD (F1=०.८८)

প্রতিটি উপাদান লাভ নিয়ে আসে

A/B পরীক্ষা ফলাফল (অনলাইন যাচাইকরণ)

পরীক্ষা সেটআপ: আমেরিকা বাজার, १२ দিন, শুধুমাত্র CTR EBR মডেল প্রতিস্থাপন করা

ব্যবসায়িক মেট্রিক্স উন্নতি:

  • GMB +५१.२६% (p=०.०१) - বিক্রয় রাজস্ব উল্লেখযোগ্য বৃদ্ধি
  • ROAS +३८.६९% (p=०.०२) - বিনিয়োগ রিটার্ন হার উল্লেখযোগ্য উন্নতি
  • গ্রহণ হার +११.७५% (p=०.०३) - বিক্রেতা সুপারিশ ব্যবহার করতে আরও ইচ্ছুক

অর্থ: অফলাইন মেট্রিক্স উন্নতি প্রকৃত ব্যবসায়িক মূল্যে রূপান্তরিত হয় প্রমাণ করা

কেস বিশ্লেষণ

ইতিবাচক কেস (LLM এবং মডেল সামঞ্জস্যপূর্ণ):

  • পণ্য: "Genuine 15V 4A Power AC Adapter Laptop Charger For Surface Pro 3 4 5 6"
  • কীওয়ার্ড: "microsoft surface charger"
  • বিচার: প্রাসঙ্গিক ✓

নেতিবাচক কেস (미세-টিউন LLM ব্যর্থতা):

  • পণ্য: "iPhone 11 64GB 128G Unlocked..."
  • কীওয়ার্ড: "yellow iphone" (ছবি হলুদ দেখায়)
  • সাধারণ LLM: অপ্রাসঙ্গিক (শুধুমাত্র পাঠ্য ভিত্তিতে)
  • সূক্ষ্ম-টিউন LLM: প্রাসঙ্গিক (মানব টীকা মডালিটি পক্ষপাত দ্বারা প্রভাবিত)

পরীক্ষা আবিষ্কার

१. সাধারণ LLM সূক্ষ্ম-টিউন LLM এর চেয়ে উচ্চতর:

  • সাধারণ LLM: ६८% কীওয়ার্ড হ্রাস, বিক্রয় রাজস্ব +१०%
  • সূক্ষ্ম-টিউন LLM: ७५% কীওয়ার্ড ধরে রাখা, বিক্রয় রাজস্ব -२०%
  • কারণ: মানব টীকা মডালিটি পক্ষপাত বিদ্যমান

२. শিক্ষক-সহায়ক প্রয়োজনীয়তা:

  • ক্রস-এনকোডার ভাল ক্যালিব্রেশন
  • বড় আকারের ডেটা নরম লেবেল উৎপন্ন করতে পারে

३. বহু-সিগন্যাল পরিপূরক:

  • CTR: নির্ভরযোগ্য ইতিবাচক নমুনা
  • LLM: দীর্ঘ-লেজ কভারেজ
  • SR: অনুসন্ধান সিস্টেম সংযোগ
  • তিনটি অপরিহার্য

সম্পর্কিত কাজ

१. এমবেডিং-ভিত্তিক পুনরুদ্ধার (EBR)

  • দ্বি-এনকোডার বনাম ক্রস-এনকোডার:
    • দ্বি-এনকোডার: স্বাধীন এনকোডিং, ANN সমর্থন, কম বিলম্ব
    • ক্রস-এনকোডার: যৌথ এনকোডিং, ভাল প্রভাব, উচ্চ বিলম্ব
  • এই পেপারের অবদান: নিষ্কাশনের মাধ্যমে উভয় সুবিধা একত্রিত করা

२. ক্লিক পক্ষপাত সমস্যা

  • MNAR পক্ষপাত: Chen et al. (२०२३)
  • মধ্যস্থতাকারী পক্ষপাত: Dey et al. (२०२५b) - এই পেপারের লেখক পূর্ববর্তী কাজ
  • এই পেপারের সমাধান: LLM এবং SR সিগন্যাল দিয়ে ক্লিক ডেটা পরিপূরক করা

३. জ্ঞান নিষ্কাশন পদ্ধতি

  • TwinBERT (Lu et al., २०२०): ক্রস→দ্বি-টাওয়ার BERT
  • ERNIE-search (Lu et al., २०२२): শিক্ষক-সহায়ক স্থাপত্য
  • PROD (Lin et al., २०२३): ক্রমান্বয়ী নিষ্কাশন
  • D2LLM (Liao et al., २०२४): LLM নিষ্কাশনের জন্য পিয়ার্সন ক্ষতি
  • এই পেপারের অবদান: বহু-কাজ শেখা এবং শিক্ষক-সহায়ক স্থাপত্য একত্রিত করা

४. LLM বিচারক হিসাবে

  • GPT-4 মূল্যায়ন: Zheng et al. (२०२३) - MT-Bench
  • অনুসন্ধান দৃশ্য প্রয়োগ: Wang et al. (२०२४) - Pinterest
  • এই পেপারের অবদান:
    • বড় আকারের প্রয়োগ (५०M লেবেল)
    • সাধারণ LLM বনাম সূক্ষ্ম-টিউন LLM সিস্টেমেটিক মূল্যায়ন
    • মডালিটি পক্ষপাত সমস্যা আবিষ্কার

উপসংহার এবং আলোচনা

প্রধান উপসংহার

१. LLM সিগন্যাল কার্যকরভাবে ক্লিক পক্ষপাত হ্রাস করে: বিজ্ঞাপন কীওয়ার্ড সুপারিশ দৃশ্যে, LLM-উৎপন্ন লেবেল শুধুমাত্র CTR এর চেয়ে উল্লেখযোগ্যভাবে উচ্চতর २. শিক্ষক-সহায়ক স্থাপত্য সরাসরি নিষ্কাশনের চেয়ে উচ্চতর: ক্রস-এনকোডার মধ্যবর্তী সেতু হিসাবে গুরুত্বপূর্ণ ३. পিয়ার্সন ক্ষতি র‍্যাঙ্কিং নিষ্কাশনের জন্য সবচেয়ে উপযুক্ত: ব্যাচ র‍্যাঙ্কিং ক্ষতি পয়েন্ট-ওয়াইজ এবং জোড়া ক্ষতির চেয়ে উচ্চতর ४. বহু-সিগন্যাল সংমিশ্রণ সহযোগী প্রভাব তৈরি করে: CTR+LLM+KD সমন্বয় সর্বোত্তম ব্যবসায়িক প্রভাব অর্জন করে ५. সাধারণ LLM সূক্ষ্ম-টিউন LLM এর চেয়ে উচ্চতর: মানব টীকা ডেটায় মডালিটি পক্ষপাত বিদ্যমান

সীমাবদ্ধতা

१. ডোমেইন-নির্দিষ্টতা:

  • গবেষণা ই-কমার্স বিজ্ঞাপন দৃশ্যে সীমাবদ্ধ
  • পদ্ধতি স্থানান্তরযোগ্যতা যাচাইকরণ প্রয়োজন

२. মানব টীকা গুণমান সমস্যা:

  • টীকাকারী ছবি দেখতে পারে কিন্তু মডেল পারে না (মডালিটি পক্ষপাত)
  • লেবেল দানাদারিত্ব খুব সূক্ষ্ম (চমৎকার/ভাল/ন্যায্য/খারাপ)
  • নমুনা পরিমাণ २३ বিলিয়ন পণ্য কভার করতে অপর্যাপ্ত

३. নেতিবাচক নমুনা খনন কৌশল সহজ:

  • CTR ডেটা শুধুমাত্র IRNS (ইন-ব্যাচ র‍্যান্ডম নেগেটিভ স্যাম্পলিং) ব্যবহার করে
  • ANCE, N-Game ইত্যাদি উন্নত পদ্ধতি অন্বেষণ করা হয়নি
  • ভবিষ্যত গবেষণার জন্য অপেক্ষা করছে

४. LLM নির্বাচন সীমাবদ্ধ:

  • Mixtral 8X7B ব্যবহার করা (ওপেন-সোর্স, মধ্যম আকার)
  • বৃহত্তর মডেল (GPT-४) API সীমাবদ্ধতা দ্বারা সীমাবদ্ধ
  • LLM সূক্ষ্ম-টিউন করা হয়নি (মানব ডেটা গুণমান সমস্যার কারণে)

५. মূল্যায়ন সীমাবদ্ধতা:

  • অফলাইন মূল্যায়ন শুধুমাত্র LLM লেবেল পরীক্ষা সেটে
  • A/B পরীক্ষা শুধুমাত্র আমেরিকা বাজারে
  • দীর্ঘমেয়াদী প্রভাব মূল্যায়ন করা হয়নি

ভবিষ্যত দিকনির্দেশনা

१. আরও ভাল মানব বিচার ডেটা সংগ্রহ:

  • ইনপুট মডালিটি একীভূত করা (শুধুমাত্র পাঠ্য বা মাল্টি-মডেল)
  • লেবেল সরলীকরণ (দ্বি-শ্রেণী)
  • নমুনা আকার সম্প্রসারণ

२. উন্নত নেতিবাচক নমুনা খনন:

  • ANCE, N-Game ইত্যাদি পদ্ধতি অন্বেষণ করা
  • গণনা খরচ এবং প্রভাব ভারসাম্য রাখা

३. মাল্টি-মডেল সম্প্রসারণ:

  • মডেলে ছবি তথ্য অন্তর্ভুক্ত করা
  • মডালিটি পক্ষপাত সমস্যা সমাধান করা

४. সূক্ষ্ম-টিউন LLM অন্বেষণ:

  • উচ্চ-গুণমান ডেটায় সূক্ষ্ম-টিউন করা
  • সম্ভাব্য আরও উন্নতি

५. ক্রস-ডোমেইন স্থানান্তর:

  • অন্যান্য ই-কমার্স প্ল্যাটফর্মে পদ্ধতি যাচাই করা
  • অ-বিজ্ঞাপন দৃশ্যে সম্প্রসারণ করা

গভীর মূল্যায়ন

সুবিধা

१. পদ্ধতি উদ্ভাবনী ⭐⭐⭐⭐⭐

  • শিক্ষক-সহায়ক-শিক্ষার্থী তিন-স্তরীয় স্থাপত্য: LLM, ক্রস-এনকোডার এবং দ্বি-এনকোডার সৃজনশীলভাবে একত্রিত করা
  • বহু-কাজ মিশ্র প্রশিক্ষণ: তিনটি বিভিন্ন সিগন্যাল উৎস চতুরভাবে একীভূত করা
  • সিস্টেমেটিক ক্ষতি ফাংশন গবেষণা: ৮টি KD ক্ষতি তুলনা করা, স্পষ্ট নির্দেশনা প্রদান করা

२. পরীক্ষা সম্পূর্ণতা ⭐⭐⭐⭐⭐

  • বড় আকারের প্রকৃত ডেটা: ५०M LLM লেবেল, २३ বিলিয়ন পণ্য
  • ব্যাপক বিলোপন পরীক্ষা: লেবেল, ক্ষতি, ভিত্তি মডেল, স্থাপত্য
  • অনলাইন যাচাইকরণ: A/B পরীক্ষা ব্যবসায়িক মূল্য প্রমাণ করে
  • বিস্তারিত সংযোজন: LLM মূল্যায়ন, ক্ষতি ফাংশন গণিত প্রকাশ, সিস্টেম স্থাপত্য

३. ব্যবহারিক মূল্য ⭐⭐⭐⭐⭐

  • উল্লেখযোগ্য ব্যবসায়িক উন্নতি: GMB +५१%, ROAS +३९%
  • উৎপাদন স্থাপনা বিবরণ: সম্পূর্ণ সিস্টেম স্থাপত্য এবং বিলম্ব বিশ্লেষণ
  • শক্তিশালী পুনরুৎপাদনযোগ্যতা: ওপেন-সোর্স মডেল (Mixtral), স্পষ্ট পদ্ধতি বর্ণনা

४. অন্তর্দৃষ্টি গভীরতা ⭐⭐⭐⭐

  • মডালিটি পক্ষপাত আবিষ্কার: মানব টীকার লুকানো সমস্যা প্রকাশ করা
  • সাধারণ LLM সুবিধা: "সূক্ষ্ম-টিউন সর্বদা ভাল" প্রচলিত জ্ঞান চ্যালেঞ্জ করা
  • মধ্যস্থতাকারী পক্ষপাত: নতুন পক্ষপাত ধরন প্রস্তাব এবং সমাধান প্রদান করা

५. লেখার গুণমান ⭐⭐⭐⭐

  • স্পষ্ট কাঠামো, কঠোর যুক্তি
  • সমৃদ্ধ চিত্র (নিলাম প্রক্রিয়া চিত্র, স্থাপত্য চিত্র, উৎপাদন সিস্টেম চিত্র)
  • সম্পূর্ণ গাণিতিক সূত্র (সংযোজন ৮.३ বিস্তারিত প্রকাশ)

অপূর্ণতা

१. পদ্ধতি সীমাবদ্ধতা

  • গণনা খরচ পরিমাপ করা হয়নি: ५०M LLM লেবেল উৎপন্ন করার GPU সময়/খরচ রিপোর্ট করা হয়নি
  • হাইপার-পরামিতি সংবেদনশীলতা: শেখার হার, ব্যাচ আকার, তাপমাত্রা পরামিতি ইত্যাদির প্রভাব বিশ্লেষণ করা হয়নি
  • LLM নির্বাচন সীমাবদ্ধ: Mixtral 8X7B সর্বোত্তম নয়, কিন্তু ওপেন-সোর্স এবং খরচ দ্বারা সীমাবদ্ধ

२. পরীক্ষা সেটআপ ত্রুটি

  • একক পরীক্ষা সেট মূল্যায়ন: অফলাইন পরীক্ষা শুধুমাত্র LLM লেবেল পরীক্ষা সেটে, SR/CTR পরীক্ষা সেটে যাচাই করা হয়নি
  • A/B পরীক্ষা সংক্ষিপ্ত সময়কাল: १२ দিন দীর্ঘমেয়াদী প্রভাব (যেমন বিক্রেতা ক্লান্তি) পর্যবেক্ষণের জন্য অপর্যাপ্ত হতে পারে
  • ভৌগোলিক সীমাবদ্ধতা: শুধুমাত্র আমেরিকা বাজার, অন্যান্য দেশের প্রভাব অজানা

३. বিশ্লেষণ অপূর্ণতা

  • ব্যর্থতা কেস বিশ্লেষণ কম: শুধুমাত্র १টি মডালিটি পক্ষপাত উদাহরণ
  • র‍্যাঙ্কিং গুণমান মূল্যায়ন করা হয়নি: NDCG, MRR ইত্যাদি র‍্যাঙ্কিং মেট্রিক্স নেই
  • বৈচিত্র্য পরিমাপ করা হয়নি: অনন্যতা এবং বৈচিত্র্য উল্লেখ করা হয়েছে, কিন্তু নির্দিষ্ট মেট্রিক্স নেই

४. পুনরুৎপাদনযোগ্যতা সমস্যা

  • প্ল্যাটফর্ম অনামকরণ: eBay-নির্দিষ্ট eBERT/microBERT অ্যাক্সেস করা যায় না
  • ডেটা প্রকাশ্য নয়: বাণিজ্যিক ডেটা শেয়ার করা যায় না
  • সম্পূর্ণ কোড ওপেন-সোর্স নয়: শুধুমাত্র পদ্ধতি বর্ণনা

५. তাত্ত্বিক বিশ্লেষণ অনুপস্থিত

  • পিয়ার্সন কেন সর্বোত্তম: তাত্ত্বিক ব্যাখ্যা অনুপস্থিত, শুধুমাত্র পরীক্ষা যাচাইকরণ
  • শিক্ষক-সহায়ক লাভের উৎস: প্রতিটি স্তরের অবদান পরিমাপ করা হয়নি
  • বহু-কাজ শেখার তত্ত্ব: কাজ মধ্যে হস্তক্ষেপ/সহযোগিতা বিশ্লেষণ করা হয়নি

প্রভাব মূল্যায়ন

ক্ষেত্রে অবদান ⭐⭐⭐⭐⭐

१. বিজ্ঞাপন সিস্টেম পক্ষপাত: মধ্যস্থতাকারী পক্ষপাত সিস্টেমেটিকভাবে ব্যাখ্যা করা, সমাধান প্যারাডাইম প্রদান করা २. জ্ঞান নিষ্কাশন: শিক্ষক-সহায়ক স্থাপত্য পুনরুদ্ধার কাজে কার্যকারিতা যাচাই করা ३. LLM প্রয়োগ: বড় আকারের LLM লেবেল উৎপাদনের সফল কেস (५०M) ४. শিল্প অনুশীলন: সম্পূর্ণ উৎপাদন সিস্টেম ডিজাইন রেফারেন্স

একাডেমিক প্রভাব

  • উদ্ধৃতি সম্ভাবনা উচ্চ: বাস্তব সমস্যা সমাধান, পদ্ধতি স্থানান্তরযোগ্য
  • পরবর্তী গবেষণা দিকনির্দেশনা: মাল্টি-মডেল LLM, আরও ভাল মানব টীকা প্রোটোকল
  • বেঞ্চমার্ক ভূমিকা: পিয়ার্সন ক্ষতি নিষ্কাশন মান হতে পারে

শিল্প প্রভাব

  • সরাসরি ব্যবসায়িক মূল্য: GMB +५१% eBay এর জন্য উল্লেখযোগ্য
  • প্রতিলিপি করার শক্তি: অন্যান্য ই-কমার্স প্ল্যাটফর্ম শিখতে পারে (Amazon, Alibaba)
  • খরচ-সুবিধা উল্লেখযোগ্য: LLM লেবেল বড় আকারের মানব টীকা প্রতিস্থাপন করে

প্রযোজ্য দৃশ্য

উচ্চ প্রযোজ্যতা ✅

१. ই-কমার্স বিজ্ঞাপন সুপারিশ: কীওয়ার্ড, পণ্য সুপারিশ २. অনুসন্ধান প্রাসঙ্গিকতা: অনুসন্ধান-নথি মিলান ३. তথ্য পুনরুদ্ধার: বহু-পক্ষ বিচার সংযোগের প্রয়োজনীয় যেকোনো দৃশ্য ४. পক্ষপাত হ্রাস: ক্লিক/এক্সপোজার পক্ষপাত সহ সুপারিশ সিস্টেম

মধ্যম প্রযোজ্যতা ⚠️

१. অন্যান্য সুপারিশ দৃশ্য: সিগন্যাল উৎস সমন্বয় প্রয়োজন (যেমন ভিডিও সুপারিশ) २. ক্রস-ভাষা পুনরুদ্ধার: বহুভাষিক LLM এবং প্রাক-প্রশিক্ষিত মডেল প্রয়োজন ३. রিয়েল-টাইম সিস্টেম: NRT অনুমান বিলম্ব অপ্টিমাইজেশন প্রয়োজন

অপ্রযোজ্য ❌

१. ছোট আকারের ডেটা: পদ্ধতি বড় ডেটা প্রয়োজন (লক্ষ স্তর) २. নিরপেক্ষ দৃশ্য: ক্লিক ডেটা নির্ভরযোগ্য হলে পদ্ধতি লাভ সীমিত ३. বিশুদ্ধ অন্বেষণ কাজ: বৈচিত্র্য প্রয়োজন এমন দৃশ্য, প্রাসঙ্গিকতা নয়

পুনরুৎপাদন সুপারিশ

এই কাজ পুনরুৎপাদন করতে চাইলে: १. LLM প্রতিস্থাপন: Llama 3.1 70B বা Qwen 2.5 72B ব্যবহার করা २. ভিত্তি মডেল প্রতিস্থাপন: জনসাধারণের sentence-transformers মডেল ব্যবহার করা ३. সরলীকৃত সংস্করণ: প্রথমে LLM+CTR+Pearson Loss যাচাই করা (SR ডেটা প্রয়োজন নেই) ४. মূল্যায়ন প্রোটোকল: সংযোজন ৮.२ অফলাইন মূল্যায়ন প্রক্রিয়া অনুসরণ করা ५. শুরু স্কেল: লক্ষ-স্তরের ডেটা থেকে শুরু করা, ক্রমান্বয়ে সম্প্রসারণ করা

তথ্যসূত্র (নির্বাচিত)

মূল সম্পর্কিত কাজ

१. D2LLM (Liao et al., २०२४): প্রথমবার LLM→দ্বি-এনকোডার নিষ্কাশনের জন্য পিয়ার্সন ক্ষতি প্রস্তাব করা २. CUPID (Bhattacharya et al., २०२३): MSE ক্ষতি ক্রস→দ্বি-এনকোডার নিষ্কাশনের জন্য অনুপযুক্ত প্রমাণ করা ३. ERNIE-search (Lu et al., २०२२): শিক্ষক-সহায়ক স্থাপত্যের প্রাথমিক অন্বেষণ ४. মধ্যস্থতাকারী পক্ষপাত (Dey et al., २०२५b): এই পেপারের লেখক দ্বারা প্রস্তাবিত মধ্যস্থতাকারী পক্ষপাত তত্ত্ব

পক্ষপাত এবং সুপারিশ

५. Chen et al. (२०२३): সুপারিশ সিস্টেম পক্ষপাত সমীক্ষা ६. Joachims et al. (२०१७): পক্ষপাত প্রতিক্রিয়ার উপর ভিত্তি করে নিরপেক্ষ শেখা

LLM মূল্যায়ন

७. Zheng et al. (२०२३): MT-Bench এবং LLM-as-a-judge ८. Gu et al. (२०२५): বিচারক হিসাবে LLM সমীক্ষা


সামগ্রিক রেটিং: ⭐⭐⭐⭐⭐ (५/५)

এটি একটি উৎকৃষ্ট শিল্প প্রয়োগ পেপার, যা বাস্তব বড় আকারের দৃশ্যে LLM-সহায়ক প্রশিক্ষণের কার্যকারিতা যাচাই করে, তত্ত্ব থেকে অনুশীলন পর্যন্ত সম্পূর্ণ সমাধান প্রদান করে। কিছু সীমাবদ্ধতা থাকলেও (যেমন তাত্ত্বিক বিশ্লেষণ অপূর্ণ, একক বাজার পরীক্ষা), এর ব্যবহারিক মূল্য, পদ্ধতি উদ্ভাবনী এবং পরীক্ষা সম্পূর্ণতা শীর্ষ স্তরে পৌঁছেছে। বিশেষভাবে প্রশংসনীয় হল সাধারণ LLM বনাম সূক্ষ্ম-টিউন LLM এর গভীর বিশ্লেষণ, যা মানব টীকায় মডালিটি পক্ষপাত সমস্যা প্রকাশ করে, ক্ষেত্রের জন্য গুরুত্বপূর্ণ সতর্কতা প্রদান করে।