One Sentence, Two Embeddings: Contrastive Learning of Explicit and Implicit Semantic Representations
Oda, Chuang, Shirai et al.
Sentence embedding methods have made remarkable progress, yet they still struggle to capture the implicit semantics within sentences. This can be attributed to the inherent limitations of conventional sentence embedding methods that assign only a single vector per sentence. To overcome this limitation, we propose DualCSE, a sentence embedding method that assigns two embeddings to each sentence: one representing the explicit semantics and the other representing the implicit semantics. These embeddings coexist in the shared space, enabling the selection of the desired semantics for specific purposes such as information retrieval and text classification. Experimental results demonstrate that DualCSE can effectively encode both explicit and implicit meanings and improve the performance of the downstream task.
academic
एक वाक्य, दो एम्बेडिंग: स्पष्ट और अंतर्निहित शब्दार्थ प्रतिनिधित्व का विपरीत शिक्षण
वाक्य एम्बेडिंग विधियों ने महत्वपूर्ण प्रगति की है, लेकिन वाक्यों के भीतर अंतर्निहित शब्दार्थ को पकड़ने में कठिनाई बनी हुई है। यह परंपरागत वाक्य एम्बेडिंग विधियों की अंतर्निहित सीमा के कारण है जो प्रत्येक वाक्य को केवल एक एकल वेक्टर प्रदान करती हैं। इस सीमा को दूर करने के लिए, यह पेपर DualCSE प्रस्तावित करता है, एक ऐसी विधि जो प्रत्येक वाक्य को दो एम्बेडिंग प्रदान करती है: एक स्पष्ट शब्दार्थ का प्रतिनिधित्व करता है, दूसरा अंतर्निहित शब्दार्थ का। ये एम्बेडिंग एक साझा स्थान में सह-अस्तित्व में हैं, जो सूचना पुनर्प्राप्ति और पाठ वर्गीकरण जैसे विशिष्ट उद्देश्यों के लिए आवश्यक शब्दार्थ का चयन करने में सक्षम हैं। प्रायोगिक परिणाम दर्शाते हैं कि DualCSE स्पष्ट और अंतर्निहित अर्थों को प्रभावी ढंग से एन्कोड कर सकता है और डाउनस्ट्रीम कार्यों के प्रदर्शन में सुधार कर सकता है।
मौजूदा वाक्य एम्बेडिंग विधियों में अंतर्निहित शब्दार्थ को संभालने में महत्वपूर्ण कमियां हैं। सन एट अल. (2025) ने संकेत दिया है कि MTEB वर्गीकरण बेंचमार्क पर, यहां तक कि सबसे उन्नत वाक्य एम्बेडिंग विधियों में भी स्पष्ट और अंतर्निहित शब्दार्थ के बीच लगभग 20% का प्रदर्शन अंतर है।
DualCSE ढांचा प्रस्तावित करना: प्रत्येक वाक्य के लिए दो एम्बेडिंग वेक्टर उत्पन्न करना, जो क्रमशः स्पष्ट और अंतर्निहित शब्दार्थ का प्रतिनिधित्व करते हैं
नवीन विपरीत हानि फ़ंक्शन डिजाइन करना: वाक्य-अंतर और वाक्य-अंतर्गत संबंधों को एक साथ अनुकूलित करना
द्विशब्दार्थ साझा स्थान का निर्माण: स्पष्ट और अंतर्निहित एम्बेडिंग को एक ही स्थान में तुलना करने में सक्षम बनाना
विधि की प्रभावशीलता को सत्यापित करना: RTE और EIS कार्यों पर विधि की श्रेष्ठता को प्रमाणित करना
अंतर्निहितता मूल्यांकन क्षमता प्रदान करना: वाक्य की अंतर्निहितता की डिग्री का अनुमान लगाने में सक्षमता
यह पेपर वाक्य एम्बेडिंग, प्राकृतिक भाषा अनुमान, विपरीत शिक्षण आदि कई क्षेत्रों के महत्वपूर्ण कार्यों का उद्धरण देता है, जिनमें शामिल हैं:
Gao et al. (2021): SimCSE विधि
Havaldar et al. (2025): INLI डेटासेट
Wang et al. (2025): अंतर्निहितता स्कोरिंग विधि
Reimers and Gurevych (2019): Sentence-BERT
समग्र मूल्यांकन: यह तकनीकी नवाचार में मजबूत एक पेपर है, जो एक दिलचस्प और व्यावहारिक द्विशब्दार्थ प्रतिनिधित्व विधि प्रस्तावित करता है। यद्यपि सैद्धांतिक गहराई और मूल्यांकन व्यापकता में सुधार की गुंजाइश है, लेकिन यह वाक्य एम्बेडिंग अनुसंधान के लिए नई दिशा खोलता है और निश्चित शैक्षणिक मूल्य और अनुप्रयोग क्षमता रखता है।