One Sentence, Two Embeddings: Contrastive Learning of Explicit and Implicit Semantic Representations
Oda, Chuang, Shirai et al.
Sentence embedding methods have made remarkable progress, yet they still struggle to capture the implicit semantics within sentences. This can be attributed to the inherent limitations of conventional sentence embedding methods that assign only a single vector per sentence. To overcome this limitation, we propose DualCSE, a sentence embedding method that assigns two embeddings to each sentence: one representing the explicit semantics and the other representing the implicit semantics. These embeddings coexist in the shared space, enabling the selection of the desired semantics for specific purposes such as information retrieval and text classification. Experimental results demonstrate that DualCSE can effectively encode both explicit and implicit meanings and improve the performance of the downstream task.
academic
Une Phrase, Deux Plongements : Apprentissage Contrastif des Représentations Sémantiques Explicites et Implicites
Les méthodes de plongement de phrases ont réalisé des progrès significatifs, mais rencontrent toujours des difficultés à capturer la sémantique implicite au sein des phrases. Cela peut être attribué aux limitations inhérentes des méthodes traditionnelles de plongement de phrases, qui n'assignent qu'un seul vecteur à chaque phrase. Pour surmonter cette limitation, cet article propose DualCSE, une méthode qui assigne deux plongements à chaque phrase : l'un représentant la sémantique explicite, l'autre la sémantique implicite. Ces plongements coexistent dans un espace partagé, permettant de sélectionner la sémantique requise selon les besoins spécifiques, tels que la récupération d'informations et la classification de texte. Les résultats expérimentaux démontrent que DualCSE encode efficacement les significations explicites et implicites, améliorant ainsi les performances des tâches en aval.
Les méthodes existantes de plongement de phrases présentent des défauts significatifs dans le traitement de la sémantique implicite. Sun et al. (2025) soulignent que même les méthodes de plongement de phrases les plus avancées présentent un écart de performance d'environ 20 % entre la sémantique explicite et implicite sur l'indice de référence de classification MTEB.
Complétude de la compréhension sémantique : Le langage naturel contient à la fois le sens littéral (sémantique explicite) et les significations figurées ou pragmatiques (sémantique implicite)
Besoins d'application pratique : Les tâches telles que la récupération d'informations et la classification de texte nécessitent une compréhension de différents niveaux de sémantique
Limitations des modèles : Les méthodes traditionnelles ne représentent les phrases qu'avec un seul vecteur, ignorant l'existence d'interprétations multiples
Proposition du cadre DualCSE : Génération de deux vecteurs de plongement pour chaque phrase, représentant respectivement la sémantique explicite et implicite
Conception d'une nouvelle fonction de perte contrastive : Optimisation simultanée des relations inter-phrases et intra-phrases
Construction d'un espace partagé à double sémantique : Permettant la comparaison des plongements explicites et implicites dans un même espace
Validation de l'efficacité de la méthode : Démonstration de la supériorité de la méthode sur les tâches RTE et EIS
Fourniture de capacité d'évaluation de l'implicite : Estimation du degré d'implicite d'une phrase
Représentation sémantique double : Dépassement de la limitation du vecteur unique, fournissant deux représentations de dimensions différentes pour les phrases
Modélisation des relations inter-phrases et intra-phrases :
Inter-phrases : La prémisse est similaire à l'hypothèse d'implication et dissimilaire à l'hypothèse de contradiction
Intra-phrases : La sémantique explicite et implicite de l'hypothèse sont proches, tandis que celle de la prémisse est éloignée
Conception de l'espace partagé : Permettant la comparaison de différents types de sémantique dans un même espace
Cet article cite des travaux importants dans plusieurs domaines, notamment le plongement de phrases, l'inférence en langage naturel et l'apprentissage contrastif, incluant :
Gao et al. (2021) : Méthode SimCSE
Havaldar et al. (2025) : Ensemble de données INLI
Wang et al. (2025) : Méthode de notation d'implicite
Reimers and Gurevych (2019) : Sentence-BERT
Évaluation Générale : Cet article présente une innovation technique relativement forte, proposant une méthode de représentation sémantique double intéressante et pratique. Bien qu'il y ait encore de la place pour l'amélioration en termes de profondeur théorique et de largeur d'évaluation, il ouvre une nouvelle direction pour la recherche en plongement de phrases, possédant une certaine valeur académique et un potentiel d'application.