2025-11-14T11:40:11.153329

One Sentence, Two Embeddings: Contrastive Learning of Explicit and Implicit Semantic Representations

Oda, Chuang, Shirai et al.
Sentence embedding methods have made remarkable progress, yet they still struggle to capture the implicit semantics within sentences. This can be attributed to the inherent limitations of conventional sentence embedding methods that assign only a single vector per sentence. To overcome this limitation, we propose DualCSE, a sentence embedding method that assigns two embeddings to each sentence: one representing the explicit semantics and the other representing the implicit semantics. These embeddings coexist in the shared space, enabling the selection of the desired semantics for specific purposes such as information retrieval and text classification. Experimental results demonstrate that DualCSE can effectively encode both explicit and implicit meanings and improve the performance of the downstream task.
academic

Ein Satz, Zwei Embeddings: Kontrastives Lernen von expliziten und impliziten semantischen Repräsentationen

Grundinformationen

  • Paper-ID: 2510.09293
  • Titel: One Sentence, Two Embeddings: Contrastive Learning of Explicit and Implicit Semantic Representations
  • Autoren: Kohei Oda¹, Po-Min Chuang², Kiyoaki Shirai¹, Natthawut Kertkeidkachorn¹
  • Institutionen: ¹Japan Advanced Institute of Science and Technology, ²Toshiba Corporation
  • Klassifikation: cs.CL (Computerlinguistik)
  • Veröffentlichungsdatum: 10. Oktober 2025
  • Paper-Link: https://arxiv.org/abs/2510.09293v1

Zusammenfassung

Satzeinbettungsmethoden haben erhebliche Fortschritte gemacht, haben aber Schwierigkeiten, implizite Semantik innerhalb von Sätzen zu erfassen. Dies ist auf die inhärente Einschränkung zurückzuführen, dass traditionelle Satzeinbettungsmethoden jedem Satz nur einen einzelnen Vektor zuweisen. Um diese Einschränkung zu überwinden, schlagen wir DualCSE vor – eine Methode, die jedem Satz zwei Embeddings zuweist: eines für explizite Semantik und eines für implizite Semantik. Diese Embeddings koexistieren in einem gemeinsamen Raum und ermöglichen die Auswahl der erforderlichen Semantik für spezifische Zwecke wie Informationsabruf und Textklassifikation. Experimentelle Ergebnisse zeigen, dass DualCSE explizite und implizite Bedeutungen effektiv kodieren kann und die Leistung nachgelagerter Aufgaben verbessert.

Forschungshintergrund und Motivation

Problemdefinition

Bestehende Satzeinbettungsmethoden weisen erhebliche Mängel bei der Verarbeitung impliziter Semantik auf. Sun et al. (2025) weisen darauf hin, dass selbst modernste Satzeinbettungsmethoden auf der MTEB-Klassifikationsbenchmark eine Leistungslücke von etwa 20% zwischen expliziter und impliziter Semantik aufweisen.

Bedeutung des Problems

  1. Vollständigkeit des semantischen Verständnisses: Natürliche Sprache enthält sowohl wörtliche Bedeutung (explizite Semantik) als auch metaphorische oder pragmatische Bedeutung (implizite Semantik)
  2. Praktische Anforderungen: Aufgaben wie Informationsabruf und Textklassifikation erfordern das Verständnis verschiedener semantischer Ebenen
  3. Modellbeschränkungen: Traditionelle Methoden verwenden nur einen einzelnen Vektor zur Darstellung eines Satzes und ignorieren die Existenz mehrfacher Interpretationen

Einschränkungen bestehender Methoden

  • Einzelvektor-Beschränkung: Jedem Satz wird nur ein Einbettungsvektor zugewiesen
  • Semantische Vermischung: Unfähigkeit, zwischen expliziter und impliziter Semantik zu unterscheiden
  • Unzureichende Darstellungsfähigkeit: Schwierigkeit, mehrschichtige Bedeutungen von Sätzen zu erfassen

Kernbeiträge

  1. Vorschlag des DualCSE-Frameworks: Generierung von zwei Einbettungsvektoren für jeden Satz, die jeweils explizite und implizite Semantik darstellen
  2. Entwurf einer neuartigen Kontrastivverlustfunktion: Gleichzeitige Optimierung von Satz-zu-Satz- und Satz-internen Beziehungen
  3. Konstruktion eines dualen semantischen gemeinsamen Raums: Ermöglichung des Vergleichs von expliziten und impliziten Embeddings im selben Raum
  4. Validierung der Methodeneffektivität: Nachweis der Überlegenheit der Methode bei RTE- und EIS-Aufgaben
  5. Bereitstellung von Implizitäts-Bewertungsfähigkeit: Fähigkeit zur Schätzung des Implizitätsgrades eines Satzes

Methodische Details

Aufgabendefinition

Gegeben ein Satz s kodiert DualCSE ihn als zwei Embeddings:

  • r: Embedding, das explizite Semantik darstellt
  • u: Embedding, das implizite Semantik darstellt

Modellarchitektur

Encoder-Design

Das Paper schlägt zwei Encoder-Architekturen vor:

  1. Cross-Encoder:
    • Verwendet ein einzelnes BERT/RoBERTa-Modell
    • Eingabe "CLS s SEP explicit" generiert explizites Embedding r
    • Eingabe "CLS s SEP implicit" generiert implizites Embedding u
  2. Bi-Encoder:
    • Verwendet zwei unabhängige BERT/RoBERTa-Modelle
    • Trainiert separat zur Generierung von r und u

Kontrastivverlustfunktion

Basierend auf dem INLI-Datensatz entworfene Verlustfunktion:

v(h₁,h₂) = e^(sim(h₁,h₂)/τ)

lᵢ = -log(v(rᵢ,r⁺ᵢ₁)/∑ⱼ(v(rᵢ,r⁺ⱼ₁) + v(rᵢ,r⁻ⱼ) + v(rᵢ,uⱼ)))
     -log(v(uᵢ,r⁺ᵢ₂)/∑ⱼ(v(uᵢ,r⁺ⱼ₂) + v(uᵢ,r⁻ⱼ) + v(uᵢ,rⱼ)))
     -log(v(r⁺ᵢ₁,u⁺ᵢ₁)/∑ⱼv(r⁺ᵢ₁,u⁺ⱼ₁))
     -log(v(r⁺ᵢ₂,u⁺ᵢ₂)/∑ⱼv(r⁺ᵢ₂,u⁺ⱼ₂))
     -log(v(r⁻ᵢ,u⁻ᵢ)/∑ⱼv(r⁻ᵢ,u⁻ⱼ))

Technische Innovationen

  1. Duale semantische Repräsentation: Überwindung der Einzelvektor-Beschränkung durch Bereitstellung zweier unterschiedlicher Dimensionen der Darstellung für Sätze
  2. Modellierung von Satz-zu-Satz- und Satz-internen Beziehungen:
    • Satz-zu-Satz: Prämisse ähnelt Entailment-Hypothese, unterscheidet sich von Widerspruchs-Hypothese
    • Satz-intern: Explizite und implizite Semantik der Hypothese sind ähnlich, explizite und implizite Semantik der Prämisse sind unterschiedlich
  3. Design des gemeinsamen Raums: Ermöglichung des Vergleichs verschiedener Semantiktypen im selben Raum

Experimentelle Einrichtung

Datensätze

INLI-Datensatz

  • Umfang: 32.000 Trainingspaare, 4.000 Entwicklungspaare, 4.000 Testpaare
  • Merkmale: Vier Hypothesenlabels für jede Prämisse
    • implied-entailment: Implizite Implikation
    • explicit-entailment: Explizite Implikation
    • neutral: Neutral
    • contradiction: Widerspruch

Wang et al. Datensatz

  • Umfang: 101.320 Trainingspaare, je 5.630 Entwicklungs-/Testpaare
  • Zweck: Implizitäts-Bewertungsaufgabe

Bewertungsmetriken

  • RTE-Aufgabe: Genauigkeit (Accuracy)
  • EIS-Aufgabe: Genauigkeit (Accuracy)

Vergleichsmethoden

  1. SimCSE (SNLI+MNLI): Trainiert auf Standard-NLI-Datensätzen
  2. SimCSE (INLI): SimCSE trainiert auf INLI-Datensatz
  3. ImpScore: Spezialisierte Methode für Implizitäts-Bewertung
  4. Große Sprachmodelle: GPT-4, Gemini-1.5-Pro usw. als Referenz

Implementierungsdetails

  • Basismodelle: BERT-base, RoBERTa-base
  • Batch-Größe: Cross-Encoder 64, Bi-Encoder 32
  • Lernrate: Cross-Encoder 5e-5, Bi-Encoder 3e-5
  • Temperaturparameter τ: 0,05

Experimentelle Ergebnisse

Hauptergebnisse

RTE-Aufgabenergebnisse

ModellExplizitImplizitNeutralWiderspruchDurchschnitt
SimCSE (SNLI+MNLI)79,8049,0074,3067,6067,68
SimCSE (INLI)90,6069,1066,9091,0079,40
DualCSE-Cross90,2073,4068,4088,7080,18
DualCSE-Bi91,9069,9072,1087,6080,38
Gemini-1.5-Pro97,9080,3092,0095,4091,40

EIS-Aufgabenergebnisse

ModellINLIWang et al. Datensatz
LENGTH99,9073,37
ImpScore (Original)80,5595,20
ImpScore (INLI)99,9781,56
DualCSE-Cross99,9779,31
DualCSE-Bi10077,48

Ablationsstudien

Ablationsstudien validieren die Wichtigkeit jeder Komponente der Verlustfunktion:

VerlustfunktionskonfigurationRTEEIS
Vollständiges DualCSE80,1899,97
Ohne Widerspruchsterm64,5799,88
Ohne Satz-interne Beziehungen80,1092,25
Ohne Widerspruchsterm und Satz-interne Beziehungen64,6832,75

Erkenntnisse:

  • Der Widerspruchsterm ist für die RTE-Aufgabe wichtiger
  • Satz-interne Beziehungen sind für die EIS-Aufgabe wichtiger

Fallstudienanalyse

Abruf-Experiment Beispiel

Abfrage-Satz: "She conquered his heart." (Sie eroberte sein Herz.)

Abruf-Ergebnisse expliziter Semantik:

  1. "She defeated his heart in battle." (Sie besiegte sein Herz im Kampf.)
  2. "She overcame his cardiac defenses." (Sie überwand seine Herzverteidigungen.)
  3. "She vanquished his emotional barriers." (Sie besiegte seine emotionalen Barrieren.)

Abruf-Ergebnisse impliziter Semantik:

  1. "She won his affection and love." (Sie gewann seine Zuneigung und Liebe.)
  2. "She captured his romantic interest." (Sie fesselte sein romantisches Interesse.)
  3. "She gained his deep emotional attachment." (Sie gewann seine tiefe emotionale Bindung.)

Verwandte Arbeiten

Satzeinbettungsmethoden

  • BERT-basierte Methoden: Sentence-BERT, SimCSE usw.
  • Kontrastives Lernen: Anwendung in Satzeinbettungen
  • Multi-semantische Repräsentation: Wenige Arbeiten versuchen, mehrfache Bedeutungen zu erfassen

Verständnis impliziter Semantik

  • Pragmatische Forschung: Konversationsimplikatur, indirekte Sprechakte
  • NLI-Erweiterungen: Von explizitem zu implizitem Schlussfolgern
  • Implizitäts-Bewertung: Quantifizierung des Implizitätsgrades von Sätzen

Vorteile dieses Papers

  1. Erste systematische Behandlung: Speziell auf duale Repräsentation expliziter/impliziter Semantik ausgerichtet
  2. End-to-End-Training: Einheitlicher Rahmen zum gleichzeitigen Lernen beider Semantiktypen
  3. Hohe Praktikabilität: Direkt auf verschiedene nachgelagerte Aufgaben anwendbar

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. DualCSE-Effektivität: Übertrifft Baseline-Methoden bei RTE- und EIS-Aufgaben
  2. Wert der dualen Repräsentation: Die getrennte Darstellung expliziter und impliziter Semantik trägt tatsächlich zum Verständnis bei
  3. Angemessenes Verlustfunktions-Design: Die Modellierung von Satz-zu-Satz- und Satz-internen Beziehungen ist beide wichtig
  4. Architektur-Flexibilität: Sowohl Cross-Encoder als auch Bi-Encoder funktionieren effektiv

Einschränkungen

  1. Datensatz-Abhängigkeit: Nur mit INLI-Datensatz trainiert, begrenzte Domänendiversität
  2. Begrenzte Bewertungsaufgaben: Validierung nur bei zwei Aufgaben, mangelnde umfassendere Bewertung
  3. Rechnerischer Overhead: Erfordert Generierung von zwei Embeddings pro Satz, erhöhter Rechenaufwand
  4. Domänenübergreifende Generalisierung: Leistung auf Wang et al. Datensatz nicht besser als spezialisierte Methoden

Zukünftige Richtungen

  1. Datensatz-Erweiterung: Umwandlung von Hassreden-Erkennung, Sentiment-Analyse usw. in INLI-Format
  2. Integration großer Modelle: Erweiterung der Methode auf große Sprachmodelle
  3. Praktische Anwendungen: Validierung in Szenarien wie Kundenbewertungsanalyse, Suchmaschinen
  4. Theoretische Analyse: Tiefere Untersuchung der mathematischen Eigenschaften expliziter/impliziter Semantik

Tiefgreifende Bewertung

Stärken

  1. Klare Problemdefinition: Genaue Identifikation des Kernproblems bestehender Methoden
  2. Starke Methodische Innovation: Duale semantische Repräsentation ist ein neuartiger und vernünftiger Ansatz
  3. Umfassendes Experimentdesign: Hauptexperimente, Ablationsstudien und qualitative Analysen
  4. Praktische technische Implementierung: Zwei verschiedene Architekturoptionen bereitgestellt
  5. Open-Source-Code: Erhöhte Reproduzierbarkeit

Mängel

  1. Schwache theoretische Grundlagen: Mangel an theoretischer Analyse der Unterscheidung expliziter/impliziter Semantik
  2. Begrenzte Bewertungsreichweite: Validierung nur bei zwei Aufgaben, unzureichende Überzeugungskraft
  3. Unzureichende Baseline-Vergleiche: Mangel an Vergleich mit anderen Multi-Semantik-Repräsentationsmethoden
  4. Fehlende Effizienzanalyse: Keine Analyse des durch duale Embeddings verursachten Rechenoverheads
  5. Unbekannte mehrsprachige Fähigkeiten: Nur auf Englisch validiert

Auswirkungen

  1. Akademischer Wert: Bietet neue Perspektive für Satzeinbettungsforschung
  2. Praktischer Wert: Anwendbar auf NLP-Aufgaben, die implizite Bedeutungen verstehen müssen
  3. Inspirationskraft: Könnte mehr Forschung zu Multi-Semantik-Repräsentationen anregen
  4. Einschränkung: Auswirkungen könnten durch die Allgemeingültigkeit der Methode begrenzt sein

Anwendungsszenarien

  1. Informationsabruf: Suche, die gleichzeitig wörtliche und implizite Bedeutungen berücksichtigt
  2. Textklassifikation: Sentiment-Analyse, Absichtserkennung usw.
  3. Dialogsysteme: Verständnis der Implikationen von Benutzeräußerungen
  4. Inhaltsmoderation: Erkennung subtiler unangemessener Inhalte
  5. Sprachunterricht: Unterstützung beim Verständnis mehrschichtiger Sprachbedeutungen

Literaturverzeichnis

Dieses Paper zitiert wichtige Arbeiten aus mehreren Bereichen wie Satzeinbettung, natürliche Sprachinferenz und kontrastives Lernen, einschließlich:

  • Gao et al. (2021): SimCSE-Methode
  • Havaldar et al. (2025): INLI-Datensatz
  • Wang et al. (2025): Implizitäts-Bewertungsmethode
  • Reimers and Gurevych (2019): Sentence-BERT

Gesamtbewertung: Dies ist ein Paper mit starker technischer Innovation, das eine interessante und praktische Methode zur dualen semantischen Repräsentation vorschlägt. Obwohl es noch Raum für Verbesserungen in theoretischer Tiefe und Bewertungsbreite gibt, eröffnet es neue Richtungen für die Satzeinbettungsforschung und hat gewissen akademischen Wert und Anwendungspotenzial.