One Sentence, Two Embeddings: Contrastive Learning of Explicit and Implicit Semantic Representations
Oda, Chuang, Shirai et al.
Sentence embedding methods have made remarkable progress, yet they still struggle to capture the implicit semantics within sentences. This can be attributed to the inherent limitations of conventional sentence embedding methods that assign only a single vector per sentence. To overcome this limitation, we propose DualCSE, a sentence embedding method that assigns two embeddings to each sentence: one representing the explicit semantics and the other representing the implicit semantics. These embeddings coexist in the shared space, enabling the selection of the desired semantics for specific purposes such as information retrieval and text classification. Experimental results demonstrate that DualCSE can effectively encode both explicit and implicit meanings and improve the performance of the downstream task.
academic
Ein Satz, Zwei Embeddings: Kontrastives Lernen von expliziten und impliziten semantischen Repräsentationen
Satzeinbettungsmethoden haben erhebliche Fortschritte gemacht, haben aber Schwierigkeiten, implizite Semantik innerhalb von Sätzen zu erfassen. Dies ist auf die inhärente Einschränkung zurückzuführen, dass traditionelle Satzeinbettungsmethoden jedem Satz nur einen einzelnen Vektor zuweisen. Um diese Einschränkung zu überwinden, schlagen wir DualCSE vor – eine Methode, die jedem Satz zwei Embeddings zuweist: eines für explizite Semantik und eines für implizite Semantik. Diese Embeddings koexistieren in einem gemeinsamen Raum und ermöglichen die Auswahl der erforderlichen Semantik für spezifische Zwecke wie Informationsabruf und Textklassifikation. Experimentelle Ergebnisse zeigen, dass DualCSE explizite und implizite Bedeutungen effektiv kodieren kann und die Leistung nachgelagerter Aufgaben verbessert.
Bestehende Satzeinbettungsmethoden weisen erhebliche Mängel bei der Verarbeitung impliziter Semantik auf. Sun et al. (2025) weisen darauf hin, dass selbst modernste Satzeinbettungsmethoden auf der MTEB-Klassifikationsbenchmark eine Leistungslücke von etwa 20% zwischen expliziter und impliziter Semantik aufweisen.
Vollständigkeit des semantischen Verständnisses: Natürliche Sprache enthält sowohl wörtliche Bedeutung (explizite Semantik) als auch metaphorische oder pragmatische Bedeutung (implizite Semantik)
Praktische Anforderungen: Aufgaben wie Informationsabruf und Textklassifikation erfordern das Verständnis verschiedener semantischer Ebenen
Modellbeschränkungen: Traditionelle Methoden verwenden nur einen einzelnen Vektor zur Darstellung eines Satzes und ignorieren die Existenz mehrfacher Interpretationen
Duale semantische Repräsentation: Überwindung der Einzelvektor-Beschränkung durch Bereitstellung zweier unterschiedlicher Dimensionen der Darstellung für Sätze
Modellierung von Satz-zu-Satz- und Satz-internen Beziehungen:
Satz-zu-Satz: Prämisse ähnelt Entailment-Hypothese, unterscheidet sich von Widerspruchs-Hypothese
Satz-intern: Explizite und implizite Semantik der Hypothese sind ähnlich, explizite und implizite Semantik der Prämisse sind unterschiedlich
Design des gemeinsamen Raums: Ermöglichung des Vergleichs verschiedener Semantiktypen im selben Raum
Dieses Paper zitiert wichtige Arbeiten aus mehreren Bereichen wie Satzeinbettung, natürliche Sprachinferenz und kontrastives Lernen, einschließlich:
Gao et al. (2021): SimCSE-Methode
Havaldar et al. (2025): INLI-Datensatz
Wang et al. (2025): Implizitäts-Bewertungsmethode
Reimers and Gurevych (2019): Sentence-BERT
Gesamtbewertung: Dies ist ein Paper mit starker technischer Innovation, das eine interessante und praktische Methode zur dualen semantischen Repräsentation vorschlägt. Obwohl es noch Raum für Verbesserungen in theoretischer Tiefe und Bewertungsbreite gibt, eröffnet es neue Richtungen für die Satzeinbettungsforschung und hat gewissen akademischen Wert und Anwendungspotenzial.