এই পেপারটি ই-কমার্স সার্চ কোয়েরিতে ব্র্যান্ড এন্টিটি লিংকিং সমস্যার সমাধান করে। এন্টিটি লিংকিং কাজটি দুটি উপায়ে সম্পন্ন হয়: ১) এন্টিটি উল্লেখ সনাক্তকরণ এবং এন্টিটি বিভ্রান্তি নিরসনের দুই-পর্যায়ের প্রক্রিয়া; ২) ইনপুট টেক্সট থেকে সরাসরি লক্ষ্য এন্টিটি প্রাপ্তির সম্পূর্ণ-থেকে-সম্পূর্ণ লিংকিং পদ্ধতি। এই কাজটি অনন্য চ্যালেঞ্জের সম্মুখীন হয়: কোয়েরি অত্যন্ত সংক্ষিপ্ত (গড়ে ২.৪ শব্দ), প্রাকৃতিক ভাষা কাঠামোর অভাব, বৃহৎ-স্কেল ব্র্যান্ড স্থান পরিচালনার প্রয়োজন। নিবন্ধটি নামকরণ এন্টিটি স্বীকৃতি এবং ম্যাচিং একত্রিত করার একটি দুই-পর্যায়ের পদ্ধতি এবং চরম বহু-শ্রেণীবিভাগ ব্যবহার করে একটি উপন্যাস সম্পূর্ণ-থেকে-সম্পূর্ণ সমাধান প্রস্তাব করে। অফলাইন বেঞ্চমার্ক পরীক্ষা এবং অনলাইন A/B পরীক্ষার মাধ্যমে সমাধানের কার্যকারিতা যাচাই করা হয়েছে।
ই-কমার্স সার্চে, ব্র্যান্ড সনাক্তকরণ পণ্যের ধরন পরবর্তী দ্বিতীয় সবচেয়ে গুরুত্বপূর্ণ বৈশিষ্ট্য। ব্র্যান্ড নাম সঠিকভাবে সনাক্ত করা (সরাসরি উল্লেখ হোক বা পরোক্ষ উল্লেখ) সার্চ কোয়েরি বোঝার একটি গুরুত্বপূর্ণ অংশ এবং ভাল কেনাকাটার অভিজ্ঞতা প্রদানের জন্য অপরিহার্য।
১. কোয়েরি বৈশিষ্ট্য সীমাবদ্ধতা: ই-কমার্স কোয়েরি অত্যন্ত সংক্ষিপ্ত (গড়ে ২.৪ শব্দ), প্রাকৃতিক ভাষা কাঠামোর অভাব, ওপেন-সোর্স NLP মডেলগুলি এই ধরনের কোয়েরি বিতরণ পরিচালনা করতে কঠিন ২. বিশাল ব্র্যান্ড স্থান: দশ লক্ষ অনন্য ব্র্যান্ড পরিচালনা করতে হবে এবং ক্রমাগত নতুন ব্র্যান্ড যোগ হচ্ছে ३. বৈচিত্র্য সমস্যা:
বিদ্যমান স্ট্রিং-ভিত্তিক ব্র্যান্ড সনাক্তকরণ পদ্ধতিগুলির সীমাবদ্ধতা রয়েছে, ব্র্যান্ড ধারণাগুলিকে একক নামকরণ স্থানে বৈশ্বিক ব্র্যান্ড এন্টিটিতে একীভূত করার প্রয়োজন, ভাষা জুড়ে, দোকান জুড়ে এবং পৃষ্ঠ ফর্ম জুড়ে একীভূত সনাক্তকরণ অর্জন করতে।
१. দুই-পর্যায়ের এন্টিটি লিংকিং মডেল নির্মাণ: প্রশিক্ষিত NER মডেল এবং পৃষ্ঠ ফর্ম ম্যাচিং একত্রিত করে ব্র্যান্ড এন্টিটি পূর্বাভাস কাঠামো २. ম্যাচিং কৌশল অন্বেষণ: শব্দভান্ডার এবং শব্দার্থিক ম্যাচিং কৌশল বিকাশ করা এবং বৃহৎ-স্কেল ব্র্যান্ড আউটপুট স্থানের এন্টিটি পূর্বাভাসের অপ্টিমাইজেশনের জন্য পণ্য ধরনের উপর ভিত্তি করে ফিল্টারিং পদক্ষেপ প্রস্তাব করা ३. সম্পূর্ণ-থেকে-সম্পূর্ণ চরম বহু-শ্রেণীবিভাগ মডেল প্রস্তাব: সরাসরি সার্চ কোয়েরি থেকে প্রাসঙ্গিক ব্র্যান্ড এন্টিটি পূর্বাভাস দেওয়া এবং দুই-পর্যায়ের মডেলের সাথে একীভূত করা ४. ব্যাপক যাচাইকরণ: বৃহৎ-স্কেল অফলাইন পরীক্ষা বেঞ্চমার্ক এবং অনলাইন A/B পরীক্ষার মাধ্যমে সমাধানের কার্যকারিতা যাচাই করা
একটি প্রদত্ত ব্র্যান্ড সার্চ কোয়েরি (যেমন "
মৌলিক দুই-পর্যায়ের পদ্ধতি (NER + সঠিক শব্দভান্ডার ম্যাচিং):
m = f_NER(q)
E_ID = g(m)
e = h(E_ID, q, PT_q)
উন্নত দুই-পর্যায়ের পদ্ধতি (NER + PECOS শব্দার্থিক ম্যাচিং):
(E_ID, S) = g_M2E(m)কোয়েরি থেকে সরাসরি ব্র্যান্ড এন্টিটি পূর্বাভাস দেওয়া, NER পর্যায়ের ত্রুটি প্রচার এড়ানো:
(E_ID, S) = g_Q2E(q)
e = h(E_ID, PT_q, S, q)
মূল বৈশিষ্ট্য:
দুই-পর্যায়ের সঠিক ম্যাচিং এবং সম্পূর্ণ-থেকে-সম্পূর্ণ পদ্ধতির সুবিধা একত্রিত করা:
१. ব্র্যান্ড লিংকিংয়ে PECOS প্রয়োগ: ই-কমার্স ব্র্যান্ড এন্টিটি লিংকিংয়ে চরম বহু-শ্রেণীবিভাগ কাঠামো প্রথমবার প্রয়োগ করা २. পণ্য ধরন সহায়ক বিভ্রান্তি নিরসন: কোয়েরি পণ্য ধরন তথ্য ব্র্যান্ড এন্টিটি বিভ্রান্তি নিরসনের জন্য ব্যবহার করা ३. বহুভাষিক সমর্থন: ১३টি ভাষায় ব্র্যান্ড স্বীকৃতি সমর্থন করা ४. একীভূত কৌশল: উচ্চ নির্ভুলতা এবং উচ্চ রিকল পদ্ধতি চতুরভাবে একত্রিত করা
| ডেটাসেট | স্কেল |
|---|---|
| ব্র্যান্ড এন্টিটি সংখ্যা | ६१,६९७ |
| Brand2entity | ६१६,९७४ |
| শক্তিশালী লেবেল ডেটা (SL) | ८०६,९७२ |
| দুর্বল লেবেল ডেটা (WL) | १,३०८,८१६ |
| পরীক্ষা ডেটা | २८,४३९ |
ডেটা গঠন: १. Brand2entity (B2E): ব্র্যান্ড নাম-এন্টিটি জোড়ার অভ্যন্তরীণ অভিধান २. শক্তিশালী লেবেল ডেটা (SL): মানব-লেবেল করা १३টি ভাষার সার্চ কোয়েরি ডেটা ३. দুর্বল লেবেল ডেটা (WL): ঐতিহাসিক কোয়েরি-পণ্য ইন্টারঅ্যাকশন থেকে প্রাপ্ত দুর্বল তত্ত্বাবধান ডেটা
Recall = |C| / |L_single|Precision = |C| / |P_single|Coverage = |P_single| / |T|যেখানে C হল সঠিক পূর্বাভাস সেট, L_single হল একক ব্র্যান্ড এন্টিটি লেবেল কোয়েরি সেট, P_single হল মডেল পূর্বাভাস একক ব্র্যান্ড এন্টিটি কোয়েরি সেট।
१. NER + সঠিক শব্দভান্ডার ম্যাচিং: বেসলাইন দুই-পর্যায়ের পদ্ধতি २. NER + M2E-PECOS: শব্দার্থিক ম্যাচিংয়ের দুই-পর্যায়ের পদ্ধতি ३. Bi-encoder: Qwen३ Embedding ०.६B ব্যবহার করে দ্বি-এনকোডার বেসলাইন ४. Q2E-PECOS: সম্পূর্ণ-থেকে-সম্পূর্ণ PECOS পদ্ধতি ५. একীভূত মডেল: হাইব্রিড পদ্ধতির বিভিন্ন সমন্বয়
| পদ্ধতি | প্রশিক্ষণ ডেটা | একীভূত | গ্রুপ-१ | গ্রুপ-२ |
|---|---|---|---|---|
| কভারেজ/রিকল/নির্ভুলতা/F१ | কভারেজ/রিকল/নির্ভুলতা/F१ | |||
| NER + সঠিক ম্যাচিং | ✓ ✓ | ५८.२८/६४.६६/९७.२२/७७.६७ | ७०.१६/८६.२१/९९.१५/९२.२३ | |
| Q2E-PECOS | ✓ ✓ ✓ | ७०.९८/७५.२६/९६.१३/८४.४२ | ८०.७७/९४.७१/९८.९२/९६.७७ | |
| Q2E-PECOS | ✓ ✓ ✓ | ✓ | ७५.३१/७७.३५/९४.९३/८५.२४ | ८५.०९/९४.६४/९८.५५/९६.५६ |
মূল অনুসন্ধান:
বিভিন্ন ভাষায় কর্মক্ষমতা উল্লেখযোগ্যভাবে পরিবর্তিত হয়:
८५K অ-ব্র্যান্ড কোয়েরিতে মিথ্যা ইতিবাচক হার:
যদিও সম্পূর্ণ-থেকে-সম্পূর্ণ পদ্ধতির মিথ্যা ইতিবাচক হার বেশি, সামগ্রিক কর্মক্ষমতা উন্নতি বিবেচনা করে এটি এখনও গ্রহণযোগ্য পরিসরে রয়েছে।
| মেট্রিক | গ্রুপ-१ স্টোর | গ্রুপ-२ স্টোর |
|---|---|---|
| ব্র্যান্ড এন্টিটি রিকল | +११.००% | +५.४४% |
| গ্রাহক সম্পৃক্ততা | +०.०२% | - |
| তাৎক্ষণিক অবদান লাভ | +०.०३% | - |
অনলাইন পরীক্ষা একীভূত সমাধানের প্রকৃত ব্যবসায়িক মূল্য নিশ্চিত করে।
१. সম্পূর্ণ-থেকে-সম্পূর্ণ পদ্ধতির সুবিধা: Q2E-PECOS ঐতিহ্যবাহী দুই-পর্যায়ের পদ্ধতির তুলনায় কভারেজ এবং রিকলে উল্লেখযোগ্যভাবে উন্নত २. একীভূত কৌশল কার্যকর: উচ্চ নির্ভুলতা শব্দভান্ডার ম্যাচিং এবং উচ্চ রিকল শব্দার্থিক ম্যাচিং একত্রিত করার একীভূত পদ্ধতি সর্বোত্তম পারফরম্যান্স দেখায় ३. ডেটা গুরুত্ব: দুর্বল লেবেল ডেটা সম্পূর্ণ-থেকে-সম্পূর্ণ মডেলের কর্মক্ষমতা উন্নতির জন্য গুরুত্বপূর্ণ ४. ব্যবহারিক মূল্য: অনলাইন A/B পরীক্ষা পদ্ধতির ব্যবসায়িক মূল্য নিশ্চিত করে
१. মিথ্যা ইতিবাচক হার: সম্পূর্ণ-থেকে-সম্পূর্ণ পদ্ধতি অ-ব্র্যান্ড কোয়েরিতে মিথ্যা ইতিবাচক হার বেশি २. ভাষা পার্থক্য: কম-সম্পদ ভাষার কর্মক্ষমতা এখনও উন্নতির জায়গা রয়েছে ३. গণনা জটিলতা: একীভূত পদ্ধতি একাধিক মডেল সমান্তরালভাবে চালাতে হবে ४. ডেটা নির্ভরতা: সম্পূর্ণ-থেকে-সম্পূর্ণ প্রশিক্ষণ সমর্থন করতে বিপুল দুর্বল লেবেল ডেটা প্রয়োজন
१. মডেল অপ্টিমাইজেশন: মিথ্যা ইতিবাচক হার আরও হ্রাস করা, কম-সম্পদ ভাষার কর্মক্ষমতা উন্নত করা २. দক্ষতা উন্নতি: গণনা জটিলতা অপ্টিমাইজ করা, অনুমান বিলম্ব হ্রাস করা ३. ক্রস-ডোমেইন স্থানান্তর: পদ্ধতি অন্যান্য ই-কমার্স বৈশিষ্ট্য নিষ্কাশন কাজে প্রসারিত করা ४. গতিশীল আপডেট: নতুন ব্র্যান্ডের রিয়েল-টাইম সংযোজন এবং আপডেট পরিচালনা করা
१. সমস্যার গুরুত্ব: ই-কমার্স সার্চে মূল সমস্যার সমাধান করে, উল্লেখযোগ্য ব্যবহারিক মূল্য রয়েছে २. পদ্ধতি উদ্ভাবন: ব্র্যান্ড এন্টিটি লিংকিংয়ে PECOS চরম বহু-শ্রেণীবিভাগ কাঠামো প্রথমবার প্রয়োগ করা ३. ব্যাপক পরীক্ষা: বহুভাষিক, একাধিক পদ্ধতি তুলনা, অনলাইন A/B পরীক্ষা যাচাইকরণ অন্তর্ভুক্ত ४. প্রকৌশল ব্যবহারিকতা: প্রকৃত স্থাপনায় দক্ষতা এবং নির্ভুলতা ভারসাম্য বিবেচনা করা ५. সমৃদ্ধ ডেটা: বৃহৎ-স্কেল প্রকৃত ই-কমার্স ডেটা ব্যবহার করা
१. তাত্ত্বিক বিশ্লেষণ অপর্যাপ্ত: সম্পূর্ণ-থেকে-সম্পূর্ণ পদ্ধতি কেন আরও কার্যকর তার তাত্ত্বিক ব্যাখ্যার অভাব २. সীমিত অ্যাবলেশন পরীক্ষা: প্রতিটি উপাদানের অবদানের বিশ্লেষণ যথেষ্ট গভীর নয় ३. মিথ্যা ইতিবাচক সমস্যা: সম্পূর্ণ-থেকে-সম্পূর্ণ পদ্ধতির মিথ্যা ইতিবাচক হার বেশি, আরও অপ্টিমাইজেশন প্রয়োজন ४. গণনা ওভারহেড: একীভূত পদ্ধতির গণনা জটিলতা বিশ্লেষণ যথেষ্ট বিস্তারিত নয়
१. একাডেমিক অবদান: ই-কমার্স NLP ক্ষেত্রে নতুন প্রযুক্তিগত সমাধান প্রদান করে २. ব্যবহারিক মূল্য: Amazon-এ প্রকৃত স্থাপনা, ব্যবসায়িক মূল্য প্রমাণিত ३. পুনরুৎপাদনযোগ্যতা: বিস্তারিত পরীক্ষা সেটআপ এবং ডেটা বর্ণনা প্রদান করা ४. অনুপ্রেরণামূলক তাৎপর্য: অন্যান্য ই-কমার্স বৈশিষ্ট্য নিষ্কাশন কাজের জন্য রেফারেন্স প্রদান করে
१. ই-কমার্স প্ল্যাটফর্ম: বিভিন্ন ই-কমার্স সার্চ ইঞ্জিনের ব্র্যান্ড স্বীকৃতি २. বহুভাষিক পরিবেশ: বহুভাষিক সমর্থন সহ বৈশ্বিক ই-কমার্স প্ল্যাটফর্ম ३. বৃহৎ-স্কেল প্রয়োগ: বিশাল কোয়েরি পরিচালনা করার জন্য রিয়েল-টাইম সিস্টেম প্রয়োজন ४. বৈশিষ্ট্য নিষ্কাশন: অন্যান্য পণ্য বৈশিষ্ট্যের এন্টিটি লিংকিং কাজে প্রসারিত করা যায়
পেপারটি একাধিক গুরুত্বপূর্ণ সম্পর্কিত কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:
সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ-মানের প্রয়োগ গবেষণা পেপার যা ই-কমার্স সার্চে গুরুত্বপূর্ণ ব্যবহারিক সমস্যার সমাধান করে। পদ্ধতির উদ্ভাবনী শক্তি শক্তিশালী, পরীক্ষা যাচাইকরণ ব্যাপক, বিশেষত অনলাইন A/B পরীক্ষা প্রকৃত মূল্য প্রমাণ করে। যদিও তাত্ত্বিক বিশ্লেষণ এবং কিছু প্রযুক্তিগত বিবরণে উন্নতির জায়গা রয়েছে, সামগ্রিকভাবে এটি ই-কমার্স NLP ক্ষেত্রে একটি গুরুত্বপূর্ণ অবদান।