2025-11-14T11:40:11.153329

One Sentence, Two Embeddings: Contrastive Learning of Explicit and Implicit Semantic Representations

Oda, Chuang, Shirai et al.
Sentence embedding methods have made remarkable progress, yet they still struggle to capture the implicit semantics within sentences. This can be attributed to the inherent limitations of conventional sentence embedding methods that assign only a single vector per sentence. To overcome this limitation, we propose DualCSE, a sentence embedding method that assigns two embeddings to each sentence: one representing the explicit semantics and the other representing the implicit semantics. These embeddings coexist in the shared space, enabling the selection of the desired semantics for specific purposes such as information retrieval and text classification. Experimental results demonstrate that DualCSE can effectively encode both explicit and implicit meanings and improve the performance of the downstream task.
academic

একটি বাক্য, দুটি এমবেডিং: স্পষ্ট এবং অন্তর্নিহিত শব্দার্থিক প্রতিনিধিত্বের বৈপরীত্যমূলক শিক্ষা

মৌলিক তথ্য

  • গবেষণাপত্র ID: 2510.09293
  • শিরোনাম: One Sentence, Two Embeddings: Contrastive Learning of Explicit and Implicit Semantic Representations
  • লেখক: Kohei Oda¹, Po-Min Chuang², Kiyoaki Shirai¹, Natthawut Kertkeidkachorn¹
  • প্রতিষ্ঠান: ¹জাপান উন্নত বিজ্ঞান ও প্রযুক্তি গবেষণা সংস্থা, ²টোশিবা কর্পোরেশন
  • শ্রেণীবিভাগ: cs.CL (গণনা এবং ভাষা)
  • প্রকাশনার সময়: ২০২৫ সালের ১০ অক্টোবর
  • গবেষণাপত্র লিঙ্ক: https://arxiv.org/abs/2510.09293v1

সারসংক্ষেপ

বাক্য এমবেডিং পদ্ধতি উল্লেখযোগ্য অগ্রগতি অর্জন করেছে, কিন্তু বাক্যের মধ্যে অন্তর্নিহিত শব্দার্থ ক্যাপচার করার ক্ষেত্রে এখনও কঠিনতা রয়েছে। এটি ঐতিহ্যবাহী বাক্য এমবেডিং পদ্ধতির অন্তর্নিহিত সীমাবদ্ধতার জন্য দায়ী যা প্রতিটি বাক্যে একটি একক ভেক্টর নির্ধারণ করে। এই সীমাবদ্ধতা অতিক্রম করার জন্য, এই গবেষণাপত্রটি DualCSE প্রস্তাব করে, একটি পদ্ধতি যা প্রতিটি বাক্যে দুটি এমবেডিং নির্ধারণ করে: একটি স্পষ্ট শব্দার্থ প্রতিনিধিত্ব করে, অন্যটি অন্তর্নিহিত শব্দার্থ প্রতিনিধিত্ব করে। এই এমবেডিংগুলি একটি ভাগ করা স্থানে সহাবস্থান করে, যা তথ্য পুনরুদ্ধার এবং পাঠ্য শ্রেণীবিভাগের মতো নির্দিষ্ট উদ্দেশ্যের জন্য প্রয়োজনীয় শব্দার্থ নির্বাচন করতে সক্ষম করে। পরীক্ষামূলক ফলাফলগুলি দেখায় যে DualCSE কার্যকরভাবে স্পষ্ট এবং অন্তর্নিহিত অর্থ এনকোড করতে পারে এবং ডাউনস্ট্রিম কাজের কর্মক্ষমতা উন্নত করে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

বিদ্যমান বাক্য এমবেডিং পদ্ধতিগুলি অন্তর্নিহিত শব্দার্থ পরিচালনায় উল্লেখযোগ্য ত্রুটি প্রদর্শন করে। Sun এবং অন্যান্যরা (২০২৫) নির্দেশ করেছেন যে এমনকি অত্যাধুনিক বাক্য এমবেডিং পদ্ধতিগুলিও MTEB শ্রেণীবিভাগ বেঞ্চমার্কে স্পষ্ট শব্দার্থ এবং অন্তর্নিহিত শব্দার্থের মধ্যে প্রায় ২০% কর্মক্ষমতা ব্যবধান প্রদর্শন করে।

সমস্যার গুরুত্ব

১. শব্দার্থিক বোঝাপড়ার সম্পূর্ণতা: প্রাকৃতিক ভাষায় শাব্দিক অর্থ (স্পষ্ট শব্দার্থ) এবং রূপক বা ব্যবহারিক অর্থ (অন্তর্নিহিত শব্দার্থ) উভয়ই রয়েছে २. ব্যবহারিক প্রয়োগের চাহিদা: তথ্য পুনরুদ্ধার, পাঠ্য শ্রেণীবিভাগ এবং অন্যান্য কাজগুলি শব্দার্থের বিভিন্ন স্তর বোঝার প্রয়োজন ३. মডেল সীমাবদ্ধতা: ঐতিহ্যবাহী পদ্ধতিগুলি শুধুমাত্র একটি একক ভেক্টর দিয়ে বাক্য প্রতিনিধিত্ব করে, একাধিক ব্যাখ্যার অস্তিত্ব উপেক্ষা করে

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

  • একক-ভেক্টর সীমাবদ্ধতা: প্রতিটি বাক্য শুধুমাত্র একটি এমবেডিং ভেক্টর নির্ধারণ করা হয়
  • শব্দার্থিক মিশ্রণ: স্পষ্ট এবং অন্তর্নিহিত শব্দার্থ আলাদা করতে অক্ষম
  • প্রতিনিধিত্ব ক্ষমতা অপর্যাপ্ত: বাক্যের বহুস্তরীয় অর্থ ক্যাপচার করা কঠিন

মূল অবদান

१. DualCSE কাঠামো প্রস্তাব: প্রতিটি বাক্যের জন্য দুটি এমবেডিং ভেক্টর তৈরি করে, যা যথাক্রমে স্পষ্ট এবং অন্তর্নিহিত শব্দার্থ প্রতিনিধিত্ব করে २. উপন্যাস বৈপরীত্যমূলক ক্ষতি ফাংশন ডিজাইন: বাক্য-মধ্যে এবং বাক্য-অভ্যন্তরীণ সম্পর্ক একযোগে অপ্টিমাইজ করে ३. দ্বৈত-শব্দার্থিক ভাগ করা স্থান নির্মাণ: স্পষ্ট এবং অন্তর্নিহিত এমবেডিংগুলিকে একই স্থানে তুলনা করতে সক্ষম করে ४. পদ্ধতির কার্যকারিতা যাচাই: RTE এবং EIS কাজে পদ্ধতির শ্রেষ্ঠত্ব প্রমাণ করে ५. অন্তর্নিহিত মূল্যায়ন ক্ষমতা প্রদান: বাক্যের অন্তর্নিহিত ডিগ্রি অনুমান করতে পারে

পদ্ধতির বিস্তারিত ব্যাখ্যা

কাজের সংজ্ঞা

বাক্য s দেওয়া হলে, DualCSE এটিকে দুটি এমবেডিং হিসাবে এনকোড করে:

  • r: স্পষ্ট শব্দার্থ প্রতিনিধিত্ব করে এমন এমবেডিং
  • u: অন্তর্নিহিত শব্দার্থ প্রতিনিধিত্ব করে এমন এমবেডিং

মডেল স্থাপত্য

এনকোডার ডিজাইন

গবেষণাপত্রটি দুটি এনকোডার স্থাপত্য প্রস্তাব করে:

१. ক্রস-এনকোডার:

  • একটি একক BERT/RoBERTa মডেল ব্যবহার করে
  • স্পষ্ট এমবেডিং r তৈরি করতে "CLS s SEP explicit" ইনপুট করে
  • অন্তর্নিহিত এমবেডিং u তৈরি করতে "CLS s SEP implicit" ইনপুট করে

२. দ্বি-এনকোডার:

  • দুটি স্বাধীন BERT/RoBERTa মডেল ব্যবহার করে
  • যথাক্রমে r এবং u তৈরি করতে আলাদাভাবে প্রশিক্ষিত

বৈপরীত্যমূলক ক্ষতি ফাংশন

INLI ডেটাসেটের উপর ভিত্তি করে ডিজাইন করা ক্ষতি ফাংশন:

v(h₁,h₂) = e^(sim(h₁,h₂)/τ)

lᵢ = -log(v(rᵢ,r⁺ᵢ₁)/∑ⱼ(v(rᵢ,r⁺ⱼ₁) + v(rᵢ,r⁻ⱼ) + v(rᵢ,uⱼ)))
     -log(v(uᵢ,r⁺ᵢ₂)/∑ⱼ(v(uᵢ,r⁺ⱼ₂) + v(uᵢ,r⁻ⱼ) + v(uᵢ,rⱼ)))
     -log(v(r⁺ᵢ₁,u⁺ᵢ₁)/∑ⱼv(r⁺ᵢ₁,u⁺ⱼ₁))
     -log(v(r⁺ᵢ₂,u⁺ᵢ₂)/∑ⱼv(r⁺ᵢ₂,u⁺ⱼ₂))
     -log(v(r⁻ᵢ,u⁻ᵢ)/∑ⱼv(r⁻ᵢ,u⁻ⱼ))

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

१. দ্বৈত শব্দার্থিক প্রতিনিধিত্ব: একক-ভেক্টর সীমাবদ্ধতা অতিক্রম করে, বাক্যকে দুটি ভিন্ন মাত্রার প্রতিনিধিত্ব প্রদান করে २. বাক্য-মধ্যে এবং বাক্য-অভ্যন্তরীণ সম্পর্ক মডেলিং:

  • বাক্য-মধ্যে: প্রাঙ্গণ এবং অন্তর্ভুক্তি অনুমান অনুরূপ, বিরোধিতা অনুমান অনুরূপ নয়
  • বাক্য-অভ্যন্তরীণ: অনুমানের স্পষ্ট এবং অন্তর্নিহিত শব্দার্থ কাছাকাছি, প্রাঙ্গণের স্পষ্ট এবং অন্তর্নিহিত শব্দার্থ দূরে ३. ভাগ করা স্থান ডিজাইন: বিভিন্ন ধরনের শব্দার্থকে একই স্থানে তুলনা করতে সক্ষম করে

পরীক্ষামূলক সেটআপ

ডেটাসেট

INLI ডেটাসেট

  • স্কেল: প্রশিক্ষণ সেট ৩२,০०० জোড়া, উন্নয়ন সেট ४,००० জোড়া, পরীক্ষা সেট ४,००० জোড়া
  • বৈশিষ্ট্য: প্রতিটি প্রাঙ্গণের জন্য চারটি অনুমান লেবেল প্রদান করে
    • implied-entailment: অন্তর্নিহিত অন্তর্ভুক্তি
    • explicit-entailment: স্পষ্ট অন্তর্ভুক্তি
    • neutral: নিরপেক্ষ
    • contradiction: বিরোধিতা

Wang এবং অন্যান্যদের ডেটাসেট

  • স্কেল: প্রশিক্ষণ সেট १०१,३२० জোড়া, উন্নয়ন/পরীক্ষা সেট প্রতিটি ५,६३० জোড়া
  • ব্যবহার: অন্তর্নিহিত মূল্যায়ন স্কোরিং কাজ

মূল্যায়ন মেট্রিক্স

  • RTE কাজ: নির্ভুলতা (Accuracy)
  • EIS কাজ: নির্ভুলতা (Accuracy)

তুলনামূলক পদ্ধতি

१. SimCSE (SNLI+MNLI): মান NLI ডেটাসেটে প্রশিক্ষিত २. SimCSE (INLI): INLI ডেটাসেটে প্রশিক্ষিত SimCSE ३. ImpScore: অন্তর্নিহিত মূল্যায়ন স্কোরিংয়ের জন্য বিশেষভাবে ডিজাইন করা পদ্ধতি ४. বড় ভাষা মডেল: GPT-4, Gemini-1.5-Pro ইত্যাদি রেফারেন্স হিসাবে

বাস্তবায়ন বিবরণ

  • ভিত্তি মডেল: BERT-base, RoBERTa-base
  • ব্যাচ আকার: ক্রস-এনকোডারের জন্য ६४, দ্বি-এনকোডারের জন্য ३२
  • শেখার হার: ক্রস-এনকোডারের জন্য ५e-५, দ্বি-এনকোডারের জন্য ३e-५
  • তাপমাত্রা প্যারামিটার τ: ०.०५

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

RTE কাজের ফলাফল

মডেলস্পষ্টঅন্তর্নিহিতনিরপেক্ষবিরোধিতাগড়
SimCSE (SNLI+MNLI)79.8049.0074.3067.6067.68
SimCSE (INLI)90.6069.1066.9091.0079.40
DualCSE-Cross90.2073.4068.4088.7080.18
DualCSE-Bi91.9069.9072.1087.6080.38
Gemini-1.5-Pro97.9080.3092.0095.4091.40

EIS কাজের ফলাফল

মডেলINLIWang এবং অন্যান্যদের ডেটাসেট
LENGTH99.9073.37
ImpScore (মূল)80.5595.20
ImpScore (INLI)99.9781.56
DualCSE-Cross99.9779.31
DualCSE-Bi10077.48

বিলোপন পরীক্ষা

বিলোপন পরীক্ষা ক্ষতি ফাংশনের প্রতিটি উপাদানের গুরুত্ব যাচাই করে:

ক্ষতি ফাংশন কনফিগারেশনRTEEIS
সম্পূর্ণ DualCSE80.1899.97
বিরোধিতা পদ ছাড়া64.5799.88
বাক্য-অভ্যন্তরীণ সম্পর্ক ছাড়া80.1092.25
বিরোধিতা পদ এবং বাক্য-অভ্যন্তরীণ সম্পর্ক ছাড়া64.6832.75

আবিষ্কার:

  • বিরোধিতা পদ RTE কাজের জন্য আরও গুরুত্বপূর্ণ
  • বাক্য-অভ্যন্তরীণ সম্পর্ক EIS কাজের জন্য আরও গুরুত্বপূর্ণ

কেস বিশ্লেষণ

পুনরুদ্ধার পরীক্ষার উদাহরণ

অনুসন্ধান বাক্য: "She conquered his heart."

স্পষ্ট শব্দার্থ পুনরুদ্ধার ফলাফল: १. "She defeated his heart in battle."(শাব্দিক যুদ্ধ অর্থ) २. "She overcame his cardiac defenses." ३. "She vanquished his emotional barriers."

অন্তর্নিহিত শব্দার্থ পুনরুদ্ধার ফলাফল: १. "She won his affection and love."(প্রেম অর্থ) २. "She captured his romantic interest." ३. "She gained his deep emotional attachment."

সম্পর্কিত কাজ

বাক্য এমবেডিং পদ্ধতি

  • BERT-ভিত্তিক পদ্ধতি: Sentence-BERT, SimCSE ইত্যাদি
  • বৈপরীত্যমূলক শিক্ষা: বাক্য এমবেডিংয়ে প্রয়োগ
  • বহু-শব্দার্থিক প্রতিনিধিত্ব: একাধিক অর্থ ক্যাপচার করার চেষ্টা করে এমন কয়েকটি কাজ

অন্তর্নিহিত শব্দার্থ বোঝা

  • ভাষাবিজ্ঞান গবেষণা: কথোপকথন অর্থ, পরোক্ষ বক্তৃতা কাজ
  • NLI সম্প্রসারণ: স্পষ্ট অনুমান থেকে অন্তর্নিহিত অনুমানে
  • অন্তর্নিহিত মূল্যায়ন: বাক্যের অন্তর্নিহিত ডিগ্রি পরিমাণ করা

এই গবেষণাপত্রের সুবিধা

१. প্রথম সিস্টেমেটিক: স্পষ্ট/অন্তর্নিহিত শব্দার্থের দ্বৈত প্রতিনিধিত্বের জন্য বিশেষভাবে २. শেষ-থেকে-শেষ প্রশিক্ষণ: একটি একীভূত কাঠামোতে দুটি শব্দার্থ একযোগে শিখুন ३. শক্তিশালী ব্যবহারিকতা: সরাসরি একাধিক ডাউনস্ট্রিম কাজে প্রয়োগ করা যায়

উপসংহার এবং আলোচনা

প্রধান উপসংহার

१. DualCSE কার্যকারিতা: RTE এবং EIS কাজ উভয়েই ভিত্তি পদ্ধতির চেয়ে উন্নত २. দ্বৈত প্রতিনিধিত্ব মূল্য: স্পষ্ট এবং অন্তর্নিহিত শব্দার্থের পৃথক প্রতিনিধিত্ব সত্যিই বোঝায় সহায়তা করে ३. ক্ষতি ফাংশন ডিজাইন যুক্তিসঙ্গত: বাক্য-মধ্যে এবং বাক্য-অভ্যন্তরীণ সম্পর্ক মডেলিং উভয়ই গুরুত্বপূর্ণ ४. স্থাপত্য নমনীয়তা: ক্রস-এনকোডার এবং দ্বি-এনকোডার উভয়ই কার্যকরভাবে কাজ করতে পারে

সীমাবদ্ধতা

१. ডেটাসেট নির্ভরতা: শুধুমাত্র INLI ডেটাসেটে প্রশিক্ষিত, ডোমেইন বৈচিত্র্য সীমিত २. মূল্যায়ন কাজ সীমিত: শুধুমাত্র দুটি কাজে যাচাই করা হয়েছে, ব্যাপক মূল্যায়ন অভাব ३. গণনা ওভারহেড: প্রতিটি বাক্যের জন্য দুটি এমবেডিং তৈরি করতে হয়, গণনা খরচ বৃদ্ধি করে ४. ক্রস-ডোমেইন সাধারণীকরণ: Wang এবং অন্যান্যদের ডেটাসেটে বিশেষায়িত পদ্ধতির মতো ভাল পারফরম্যান্স নয়

ভবিষ্যত দিকনির্দেশনা

१. ডেটাসেট সম্প্রসারণ: ঘৃণা বক্তৃতা সনাক্তকরণ, অনুভূতি বিশ্লেষণ ইত্যাদি ডেটা INLI ফর্ম্যাটে রূপান্তরিত করুন २. বড় মডেল একীকরণ: পদ্ধতি বড় ভাষা মডেলে প্রসারিত করুন ३. ব্যবহারিক প্রয়োগ: গ্রাহক পর্যালোচনা বিশ্লেষণ, অনুসন্ধান ইঞ্জিন ইত্যাদি দৃশ্যে যাচাই করুন ४. তাত্ত্বিক বিশ্লেষণ: স্পষ্ট/অন্তর্নিহিত শব্দার্থের গাণিতিক বৈশিষ্ট্য গভীরভাবে অধ্যয়ন করুন

গভীর মূল্যায়ন

সুবিধা

१. সমস্যা সংজ্ঞা স্পষ্ট: বিদ্যমান পদ্ধতির মূল সমস্যা সঠিকভাবে চিহ্নিত করে २. পদ্ধতি উদ্ভাবন শক্তিশালী: দ্বৈত শব্দার্থিক প্রতিনিধিত্ব একটি নতুন এবং যুক্তিসঙ্গত ধারণা ३. পরীক্ষামূলক ডিজাইন সম্পূর্ণ: প্রধান পরীক্ষা, বিলোপন পরীক্ষা এবং গুণগত বিশ্লেষণ অন্তর্ভুক্ত ४. প্রযুক্তিগত বাস্তবায়ন সম্ভব: দুটি ভিন্ন স্থাপত্য পছন্দ প্রদান করে ५. কোড ওপেন সোর্স: পুনরুৎপাদনযোগ্যতা বৃদ্ধি করে

অপূর্ণতা

१. তাত্ত্বিক ভিত্তি দুর্বল: স্পষ্ট/অন্তর্নিহিত শব্দার্থ বিভাজনের তাত্ত্বিক বিশ্লেষণ অভাব २. মূল্যায়ন পরিসীমা সীমিত: শুধুমাত্র দুটি কাজে যাচাই করা হয়েছে, প্রমাণ শক্তি অপর্যাপ্ত ३. ভিত্তি তুলনা অপর্যাপ্ত: অন্যান্য বহু-শব্দার্থিক প্রতিনিধিত্ব পদ্ধতির সাথে তুলনা অভাব ४. দক্ষতা বিশ্লেষণ অনুপস্থিত: দ্বৈত এমবেডিং নিয়ে আসা গণনা ওভারহেড বিশ্লেষণ করা হয়নি ५. ক্রস-ভাষা ক্ষমতা অজানা: শুধুমাত্র ইংরেজিতে যাচাই করা হয়েছে

প্রভাব

१. একাডেমিক মূল্য: বাক্য এমবেডিং গবেষণায় নতুন দৃষ্টিভঙ্গি প্রদান করে २. ব্যবহারিক মূল্য: অন্তর্নিহিত অর্থ বোঝার প্রয়োজন এমন NLP কাজে প্রয়োগ করা যায় ३. অনুপ্রেরণামূলক: বহু-শব্দার্থিক প্রতিনিধিত্ব সম্পর্কে আরও গবেষণা অনুপ্রাণিত করতে পারে ४. সীমাবদ্ধতা: প্রভাব পদ্ধতির সাধারণতা দ্বারা সীমাবদ্ধ হতে পারে

প্রযোজ্য দৃশ্য

१. তথ্য পুনরুদ্ধার: শাব্দিক এবং অন্তর্নিহিত অর্থ উভয়ই বিবেচনা করার প্রয়োজন এমন অনুসন্ধান २. পাঠ্য শ্রেণীবিভাগ: অনুভূতি বিশ্লেষণ, অভিপ্রায় স্বীকৃতি ইত্যাদি কাজ ३. কথোপকথন সিস্টেম: ব্যবহারকারীর কথার বাইরের অর্থ বোঝা ४. বিষয়বস্তু পর্যালোচনা: লুকানো অনুপযুক্ত বিষয়বস্তু সনাক্ত করা ५. ভাষা শিক্ষা: ভাষার বহুস্তরীয় অর্থ বোঝায় সহায়তা করা

রেফারেন্স

এই গবেষণাপত্রটি বাক্য এমবেডিং, প্রাকৃতিক ভাষা অনুমান, বৈপরীত্যমূলক শিক্ষা এবং অন্যান্য ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:

  • Gao et al. (2021): SimCSE পদ্ধতি
  • Havaldar et al. (2025): INLI ডেটাসেট
  • Wang et al. (2025): অন্তর্নিহিত মূল্যায়ন পদ্ধতি
  • Reimers and Gurevych (2019): Sentence-BERT

সামগ্রিক মূল্যায়ন: এটি একটি প্রযুক্তিগত উদ্ভাবন শক্তিশালী গবেষণাপত্র যা একটি আকর্ষণীয় এবং ব্যবহারিক দ্বৈত শব্দার্থিক প্রতিনিধিত্ব পদ্ধতি প্রস্তাব করে। যদিও তাত্ত্বিক গভীরতা এবং মূল্যায়ন প্রশস্ততায় উন্নতির জায়গা রয়েছে, তবে এটি বাক্য এমবেডিং গবেষণায় নতুন দিকনির্দেশনা খুলে দেয় এবং নির্দিষ্ট একাডেমিক মূল্য এবং প্রয়োগ সম্ভাবনা রয়েছে।