2025-11-14T11:40:11.153329

One Sentence, Two Embeddings: Contrastive Learning of Explicit and Implicit Semantic Representations

Oda, Chuang, Shirai et al.

Sentence embedding methods have made remarkable progress, yet they still struggle to capture the implicit semantics within sentences. This can be attributed to the inherent limitations of conventional sentence embedding methods that assign only a single vector per sentence. To overcome this limitation, we propose DualCSE, a sentence embedding method that assigns two embeddings to each sentence: one representing the explicit semantics and the other representing the implicit semantics. These embeddings coexist in the shared space, enabling the selection of the desired semantics for specific purposes such as information retrieval and text classification. Experimental results demonstrate that DualCSE can effectively encode both explicit and implicit meanings and improve the performance of the downstream task.

academic

एक वाक्य, दो एम्बेडिंग: स्पष्ट और अंतर्निहित शब्दार्थ प्रतिनिधित्व का विपरीत शिक्षण

बुनियादी जानकारी

पेपर ID: 2510.09293
शीर्षक: One Sentence, Two Embeddings: Contrastive Learning of Explicit and Implicit Semantic Representations
लेखक: कोहेई ओडा¹, पो-मिन चुआंग², किओयाकी शिराई¹, नत्थावुट केर्टकेइडकेकॉर्न¹
संस्थान: ¹जापान उन्नत विज्ञान और प्रौद्योगिकी संस्थान, ²तोशिबा निगम
वर्गीकरण: cs.CL (कम्प्यूटेशनल भाषाविज्ञान)
प्रकाशन तिथि: 10 अक्टूबर 2025
पेपर लिंक: https://arxiv.org/abs/2510.09293v1

सारांश

वाक्य एम्बेडिंग विधियों ने महत्वपूर्ण प्रगति की है, लेकिन वाक्यों के भीतर अंतर्निहित शब्दार्थ को पकड़ने में कठिनाई बनी हुई है। यह परंपरागत वाक्य एम्बेडिंग विधियों की अंतर्निहित सीमा के कारण है जो प्रत्येक वाक्य को केवल एक एकल वेक्टर प्रदान करती हैं। इस सीमा को दूर करने के लिए, यह पेपर DualCSE प्रस्तावित करता है, एक ऐसी विधि जो प्रत्येक वाक्य को दो एम्बेडिंग प्रदान करती है: एक स्पष्ट शब्दार्थ का प्रतिनिधित्व करता है, दूसरा अंतर्निहित शब्दार्थ का। ये एम्बेडिंग एक साझा स्थान में सह-अस्तित्व में हैं, जो सूचना पुनर्प्राप्ति और पाठ वर्गीकरण जैसे विशिष्ट उद्देश्यों के लिए आवश्यक शब्दार्थ का चयन करने में सक्षम हैं। प्रायोगिक परिणाम दर्शाते हैं कि DualCSE स्पष्ट और अंतर्निहित अर्थों को प्रभावी ढंग से एन्कोड कर सकता है और डाउनस्ट्रीम कार्यों के प्रदर्शन में सुधार कर सकता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

मौजूदा वाक्य एम्बेडिंग विधियों में अंतर्निहित शब्दार्थ को संभालने में महत्वपूर्ण कमियां हैं। सन एट अल. (2025) ने संकेत दिया है कि MTEB वर्गीकरण बेंचमार्क पर, यहां तक कि सबसे उन्नत वाक्य एम्बेडिंग विधियों में भी स्पष्ट और अंतर्निहित शब्दार्थ के बीच लगभग 20% का प्रदर्शन अंतर है।

समस्या की महत्ता

शब्दार्थ समझ की पूर्णता: प्राकृतिक भाषा में शाब्दिक अर्थ (स्पष्ट शब्दार्थ) और रूपक या व्यावहारिक अर्थ (अंतर्निहित शब्दार्थ) दोनों शामिल हैं
व्यावहारिक अनुप्रयोग की आवश्यकता: सूचना पुनर्प्राप्ति, पाठ वर्गीकरण जैसे कार्यों को शब्दार्थ के विभिन्न स्तरों को समझने की आवश्यकता है
मॉडल सीमाएं: परंपरागत विधियां वाक्य को केवल एक एकल वेक्टर से प्रदर्शित करती हैं, कई व्याख्याओं की उपस्थिति को नजरअंदाज करती हैं

मौजूदा विधियों की सीमाएं

एकल-वेक्टर प्रतिबंध: प्रत्येक वाक्य को केवल एक एम्बेडिंग वेक्टर प्रदान किया जाता है
शब्दार्थ मिश्रण: स्पष्ट और अंतर्निहित शब्दार्थ को अलग करने में असमर्थता
अपर्याप्त प्रतिनिधित्व क्षमता: वाक्य के बहु-स्तरीय अर्थों को पकड़ना कठिन है

मुख्य योगदान

DualCSE ढांचा प्रस्तावित करना: प्रत्येक वाक्य के लिए दो एम्बेडिंग वेक्टर उत्पन्न करना, जो क्रमशः स्पष्ट और अंतर्निहित शब्दार्थ का प्रतिनिधित्व करते हैं
नवीन विपरीत हानि फ़ंक्शन डिजाइन करना: वाक्य-अंतर और वाक्य-अंतर्गत संबंधों को एक साथ अनुकूलित करना
द्विशब्दार्थ साझा स्थान का निर्माण: स्पष्ट और अंतर्निहित एम्बेडिंग को एक ही स्थान में तुलना करने में सक्षम बनाना
विधि की प्रभावशीलता को सत्यापित करना: RTE और EIS कार्यों पर विधि की श्रेष्ठता को प्रमाणित करना
अंतर्निहितता मूल्यांकन क्षमता प्रदान करना: वाक्य की अंतर्निहितता की डिग्री का अनुमान लगाने में सक्षमता

विधि विवरण

कार्य परिभाषा

दिए गए वाक्य s को देखते हुए, DualCSE इसे दो एम्बेडिंग में एन्कोड करता है:

r: स्पष्ट शब्दार्थ का प्रतिनिधित्व करने वाली एम्बेडिंग
u: अंतर्निहित शब्दार्थ का प्रतिनिधित्व करने वाली एम्बेडिंग

मॉडल आर्किटेक्चर

एन्कोडर डिजाइन

पेपर दो एन्कोडर आर्किटेक्चर प्रस्तावित करता है:

क्रॉस-एन्कोडर:
- एकल BERT/RoBERTa मॉडल का उपयोग
- स्पष्ट एम्बेडिंग r उत्पन्न करने के लिए "CLS s SEP explicit" इनपुट
- अंतर्निहित एम्बेडिंग u उत्पन्न करने के लिए "CLS s SEP implicit" इनपुट
द्वि-एन्कोडर:
- दो स्वतंत्र BERT/RoBERTa मॉडल का उपयोग
- क्रमशः r और u उत्पन्न करने के लिए अलग से प्रशिक्षित

विपरीत हानि फ़ंक्शन

INLI डेटासेट के आधार पर डिजाइन की गई हानि फ़ंक्शन:

v(h₁,h₂) = e^(sim(h₁,h₂)/τ)

lᵢ = -log(v(rᵢ,r⁺ᵢ₁)/∑ⱼ(v(rᵢ,r⁺ⱼ₁) + v(rᵢ,r⁻ⱼ) + v(rᵢ,uⱼ)))
     -log(v(uᵢ,r⁺ᵢ₂)/∑ⱼ(v(uᵢ,r⁺ⱼ₂) + v(uᵢ,r⁻ⱼ) + v(uᵢ,rⱼ)))
     -log(v(r⁺ᵢ₁,u⁺ᵢ₁)/∑ⱼv(r⁺ᵢ₁,u⁺ⱼ₁))
     -log(v(r⁺ᵢ₂,u⁺ᵢ₂)/∑ⱼv(r⁺ᵢ₂,u⁺ⱼ₂))
     -log(v(r⁻ᵢ,u⁻ᵢ)/∑ⱼv(r⁻ᵢ,u⁻ⱼ))

तकनीकी नवाचार बिंदु

द्विशब्दार्थ प्रतिनिधित्व: एकल-वेक्टर सीमा को तोड़ना, वाक्य को दो विभिन्न आयामों में प्रतिनिधित्व प्रदान करना
वाक्य-अंतर और वाक्य-अंतर्गत संबंध मॉडलिंग:
- वाक्य-अंतर: परिसर अनुमान परिकल्पना के समान है, विरोधाभास परिकल्पना के समान नहीं है
- वाक्य-अंतर्गत: परिकल्पना का स्पष्ट और अंतर्निहित शब्दार्थ समान है, परिसर का स्पष्ट और अंतर्निहित शब्दार्थ दूर है
साझा स्थान डिजाइन: विभिन्न प्रकार के शब्दार्थ को एक ही स्थान में तुलना करने में सक्षम बनाना

प्रायोगिक सेटअप

डेटासेट

INLI डेटासेट

आकार: प्रशिक्षण सेट 32,000 जोड़े, विकास सेट 4,000 जोड़े, परीक्षण सेट 4,000 जोड़े
विशेषता: प्रत्येक परिसर के लिए चार प्रकार की परिकल्पना लेबल प्रदान करता है
- implied-entailment: अंतर्निहित अनुमान
- explicit-entailment: स्पष्ट अनुमान
- neutral: तटस्थ
- contradiction: विरोधाभास

वांग एट अल. डेटासेट

आकार: प्रशिक्षण सेट 101,320 जोड़े, विकास/परीक्षण सेट प्रत्येक 5,630 जोड़े
उद्देश्य: अंतर्निहितता स्कोरिंग कार्य

मूल्यांकन मेट्रिक्स

RTE कार्य: सटीकता (Accuracy)
EIS कार्य: सटीकता (Accuracy)

तुलनात्मक विधियां

SimCSE (SNLI+MNLI): मानक NLI डेटासेट पर प्रशिक्षित
SimCSE (INLI): INLI डेटासेट पर प्रशिक्षित SimCSE
ImpScore: अंतर्निहितता स्कोरिंग के लिए विशेष विधि
बड़े भाषा मॉडल: संदर्भ के रूप में GPT-4, Gemini-1.5-Pro आदि

कार्यान्वयन विवरण

आधार मॉडल: BERT-base, RoBERTa-base
बैच आकार: क्रॉस-एन्कोडर के लिए 64, द्वि-एन्कोडर के लिए 32
सीखने की दर: क्रॉस-एन्कोडर के लिए 5e-5, द्वि-एन्कोडर के लिए 3e-5
तापमान पैरामीटर τ: 0.05

प्रायोगिक परिणाम

मुख्य परिणाम

RTE कार्य परिणाम

मॉडल	स्पष्ट	अंतर्निहित	तटस्थ	विरोधाभास	औसत
SimCSE (SNLI+MNLI)	79.80	49.00	74.30	67.60	67.68
SimCSE (INLI)	90.60	69.10	66.90	91.00	79.40
DualCSE-Cross	90.20	73.40	68.40	88.70	80.18
DualCSE-Bi	91.90	69.90	72.10	87.60	80.38
Gemini-1.5-Pro	97.90	80.30	92.00	95.40	91.40

EIS कार्य परिणाम

मॉडल	INLI	वांग एट अल. डेटासेट
LENGTH	99.90	73.37
ImpScore (मूल)	80.55	95.20
ImpScore (INLI)	99.97	81.56
DualCSE-Cross	99.97	79.31
DualCSE-Bi	100	77.48

विलोपन प्रयोग

विलोपन प्रयोग हानि फ़ंक्शन के विभिन्न घटकों की महत्ता को सत्यापित करते हैं:

हानि फ़ंक्शन कॉन्फ़िगरेशन	RTE	EIS
पूर्ण DualCSE	80.18	99.97
विरोधाभास पद के बिना	64.57	99.88
वाक्य-अंतर्गत संबंध के बिना	80.10	92.25
विरोधाभास पद और वाक्य-अंतर्गत संबंध के बिना	64.68	32.75

निष्कर्ष:

विरोधाभास पद RTE कार्य के लिए अधिक महत्वपूर्ण है
वाक्य-अंतर्गत संबंध EIS कार्य के लिए अधिक महत्वपूर्ण है

केस विश्लेषण

पुनर्प्राप्ति प्रयोग उदाहरण

क्वेरी वाक्य: "She conquered his heart."

स्पष्ट शब्दार्थ पुनर्प्राप्ति परिणाम:

"She defeated his heart in battle."(शाब्दिक युद्ध अर्थ)
"She overcame his cardiac defenses."
"She vanquished his emotional barriers."

अंतर्निहित शब्दार्थ पुनर्प्राप्ति परिणाम:

"She won his affection and love."(प्रेम अर्थ)
"She captured his romantic interest."
"She gained his deep emotional attachment."

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

DualCSE प्रभावशीलता: RTE और EIS कार्यों दोनों पर आधार विधियों से बेहतर
द्विशब्दार्थ प्रतिनिधित्व मूल्य: स्पष्ट और अंतर्निहित शब्दार्थ का अलग प्रतिनिधित्व वास्तव में समझ में सहायता करता है
हानि फ़ंक्शन डिजाइन तर्कसंगत: वाक्य-अंतर और वाक्य-अंतर्गत संबंधों की मॉडलिंग दोनों महत्वपूर्ण हैं
आर्किटेक्चर लचीलापन: क्रॉस-एन्कोडर और द्वि-एन्कोडर दोनों प्रभावी ढंग से काम कर सकते हैं

सीमाएं

डेटासेट निर्भरता: केवल INLI डेटासेट पर प्रशिक्षित, डोमेन विविधता सीमित है
मूल्यांकन कार्य सीमित: केवल दो कार्यों पर सत्यापित, व्यापक मूल्यांकन की कमी
कम्प्यूटेशनल ओवरहेड: प्रत्येक वाक्य के लिए दो एम्बेडिंग उत्पन्न करने की आवश्यकता, कम्प्यूटेशनल लागत बढ़ाता है
क्रॉस-डोमेन सामान्यीकरण: वांग एट अल. डेटासेट पर विशेष विधि जितना अच्छा प्रदर्शन नहीं

भविष्य की दिशाएं

डेटासेट विस्तार: घृणा भाषण पहचान, भावना विश्लेषण आदि डेटा को INLI प्रारूप में परिवर्तित करना
बड़े मॉडल एकीकरण: विधि को बड़े भाषा मॉडल तक विस्तारित करना
व्यावहारिक अनुप्रयोग: ग्राहक समीक्षा विश्लेषण, खोज इंजन आदि परिदृश्यों में सत्यापन
सैद्धांतिक विश्लेषण: स्पष्ट/अंतर्निहित शब्दार्थ के गणितीय गुणों का गहन अध्ययन

गहन मूल्यांकन

शक्तियां

समस्या परिभाषा स्पष्ट: मौजूदा विधियों की मुख्य समस्या को सटीक रूप से पहचानता है
विधि नवाचार मजबूत: द्विशब्दार्थ प्रतिनिधित्व एक नवीन और तर्कसंगत विचार है
प्रायोगिक डिजाइन पर्याप्त: मुख्य प्रयोग, विलोपन प्रयोग और गुणात्मक विश्लेषण शामिल
तकनीकी कार्यान्वयन व्यावहारिक: दो विभिन्न आर्किटेक्चर विकल्प प्रदान करता है
कोड खुला स्रोत: पुनरुत्पादनीयता में सुधार

कमियां

सैद्धांतिक आधार कमजोर: स्पष्ट/अंतर्निहित शब्दार्थ विभाजन के सैद्धांतिक विश्लेषण की कमी
मूल्यांकन रेंज सीमित: केवल दो कार्यों पर सत्यापित, पर्याप्त प्रेरक नहीं
आधार तुलना अपर्याप्त: अन्य बहु-शब्दार्थ प्रतिनिधित्व विधियों के साथ तुलना की कमी
दक्षता विश्लेषण अनुपस्थित: द्विशब्दार्थ एम्बेडिंग द्वारा लाई गई कम्प्यूटेशनल लागत का विश्लेषण नहीं
क्रॉस-भाषा क्षमता अज्ञात: केवल अंग्रेजी पर सत्यापित

प्रभाव

शैक्षणिक मूल्य: वाक्य एम्बेडिंग अनुसंधान के लिए नया दृष्टिकोण प्रदान करता है
व्यावहारिक मूल्य: अंतर्निहित अर्थ समझने की आवश्यकता वाले NLP कार्यों में लागू किया जा सकता है
प्रेरणा: बहु-शब्दार्थ प्रतिनिधित्व पर अधिक अनुसंधान को प्रेरित कर सकता है
सीमाएं: विधि की सामान्यता से प्रभाव सीमित हो सकता है

लागू परिदृश्य

सूचना पुनर्प्राप्ति: शाब्दिक और अंतर्निहित अर्थ दोनों पर विचार करने की आवश्यकता वाली खोज
पाठ वर्गीकरण: भावना विश्लेषण, इरादा पहचान आदि कार्य
संवाद प्रणाली: उपयोगकर्ता के अंतर्निहित अर्थ को समझना
सामग्री समीक्षा: अस्पष्ट अनुचित सामग्री का पता लगाना
भाषा शिक्षा: भाषा के बहु-स्तरीय अर्थों को समझने में सहायता

संदर्भ

यह पेपर वाक्य एम्बेडिंग, प्राकृतिक भाषा अनुमान, विपरीत शिक्षण आदि कई क्षेत्रों के महत्वपूर्ण कार्यों का उद्धरण देता है, जिनमें शामिल हैं:

Gao et al. (2021): SimCSE विधि
Havaldar et al. (2025): INLI डेटासेट
Wang et al. (2025): अंतर्निहितता स्कोरिंग विधि
Reimers and Gurevych (2019): Sentence-BERT

समग्र मूल्यांकन: यह तकनीकी नवाचार में मजबूत एक पेपर है, जो एक दिलचस्प और व्यावहारिक द्विशब्दार्थ प्रतिनिधित्व विधि प्रस्तावित करता है। यद्यपि सैद्धांतिक गहराई और मूल्यांकन व्यापकता में सुधार की गुंजाइश है, लेकिन यह वाक्य एम्बेडिंग अनुसंधान के लिए नई दिशा खोलता है और निश्चित शैक्षणिक मूल्य और अनुप्रयोग क्षमता रखता है।