One Sentence, Two Embeddings: Contrastive Learning of Explicit and Implicit Semantic Representations
Oda, Chuang, Shirai et al.
Sentence embedding methods have made remarkable progress, yet they still struggle to capture the implicit semantics within sentences. This can be attributed to the inherent limitations of conventional sentence embedding methods that assign only a single vector per sentence. To overcome this limitation, we propose DualCSE, a sentence embedding method that assigns two embeddings to each sentence: one representing the explicit semantics and the other representing the implicit semantics. These embeddings coexist in the shared space, enabling the selection of the desired semantics for specific purposes such as information retrieval and text classification. Experimental results demonstrate that DualCSE can effectively encode both explicit and implicit meanings and improve the performance of the downstream task.
حققت طرق تضمين الجمل تقدماً ملحوظاً، لكنها تواجه صعوبات في التقاط الدلالات الضمنية داخل الجملة. يعزى هذا إلى القيد المتأصل في طرق تضمين الجمل التقليدية التي تخصص متجهاً واحداً فقط لكل جملة. للتغلب على هذا القيد، تقترح هذه الورقة DualCSE، وهي طريقة تخصص تضمينين لكل جملة: أحدهما يمثل الدلالة الصريحة والآخر يمثل الدلالة الضمنية. يتعايش هذان التضمينان في فضاء مشترك، مما يتيح اختيار الدلالة المطلوبة لأغراض محددة مثل استرجاع المعلومات وتصنيف النصوص. تُظهر النتائج التجريبية أن DualCSE قادرة على ترميز الدلالات الصريحة والضمنية بفعالية وتحسين أداء المهام اللاحقة.
تعاني طرق تضمين الجمل الحالية من عيوب كبيرة في التعامل مع الدلالات الضمنية. أشار Sun وآخرون (2025) إلى أنه حتى أحدث طرق تضمين الجمل تُظهر فجوة في الأداء بنسبة تقارب 20% بين الدلالات الصريحة والضمنية على معيار تصنيف MTEB.
تستشهد هذه الورقة بأعمال مهمة من مجالات متعددة تشمل تضمين الجمل والاستدلال على الاستتباع الطبيعي والتعلم التباعدي، بما في ذلك:
Gao et al. (2021): طريقة SimCSE
Havaldar et al. (2025): مجموعة بيانات INLI
Wang et al. (2025): طريقة تقييم درجة الضمنية
Reimers and Gurevych (2019): Sentence-BERT
التقييم الشامل: هذه ورقة بابتكار تقني قوي، تقترح طريقة تمثيل دلالي ثنائي مثيرة للاهتمام وعملية. على الرغم من وجود مجال للتحسن في العمق النظري واتساع التقييم، فإنها تفتح اتجاهاً جديداً لأبحاث تضمين الجمل وتتمتع بقيمة أكاديمية وإمكانيات تطبيقية معينة.