2025-11-14T11:40:11.153329

One Sentence, Two Embeddings: Contrastive Learning of Explicit and Implicit Semantic Representations

Oda, Chuang, Shirai et al.
Sentence embedding methods have made remarkable progress, yet they still struggle to capture the implicit semantics within sentences. This can be attributed to the inherent limitations of conventional sentence embedding methods that assign only a single vector per sentence. To overcome this limitation, we propose DualCSE, a sentence embedding method that assigns two embeddings to each sentence: one representing the explicit semantics and the other representing the implicit semantics. These embeddings coexist in the shared space, enabling the selection of the desired semantics for specific purposes such as information retrieval and text classification. Experimental results demonstrate that DualCSE can effectively encode both explicit and implicit meanings and improve the performance of the downstream task.
academic

Une Phrase, Deux Plongements : Apprentissage Contrastif des Représentations Sémantiques Explicites et Implicites

Informations Fondamentales

  • ID de l'article : 2510.09293
  • Titre : One Sentence, Two Embeddings: Contrastive Learning of Explicit and Implicit Semantic Representations
  • Auteurs : Kohei Oda¹, Po-Min Chuang², Kiyoaki Shirai¹, Natthawut Kertkeidkachorn¹
  • Institutions : ¹Institut de Technologie Avancée du Japon, ²Toshiba Corporation
  • Classification : cs.CL (Calcul et Langage)
  • Date de Publication : 10 octobre 2025
  • Lien de l'article : https://arxiv.org/abs/2510.09293v1

Résumé

Les méthodes de plongement de phrases ont réalisé des progrès significatifs, mais rencontrent toujours des difficultés à capturer la sémantique implicite au sein des phrases. Cela peut être attribué aux limitations inhérentes des méthodes traditionnelles de plongement de phrases, qui n'assignent qu'un seul vecteur à chaque phrase. Pour surmonter cette limitation, cet article propose DualCSE, une méthode qui assigne deux plongements à chaque phrase : l'un représentant la sémantique explicite, l'autre la sémantique implicite. Ces plongements coexistent dans un espace partagé, permettant de sélectionner la sémantique requise selon les besoins spécifiques, tels que la récupération d'informations et la classification de texte. Les résultats expérimentaux démontrent que DualCSE encode efficacement les significations explicites et implicites, améliorant ainsi les performances des tâches en aval.

Contexte de Recherche et Motivation

Définition du Problème

Les méthodes existantes de plongement de phrases présentent des défauts significatifs dans le traitement de la sémantique implicite. Sun et al. (2025) soulignent que même les méthodes de plongement de phrases les plus avancées présentent un écart de performance d'environ 20 % entre la sémantique explicite et implicite sur l'indice de référence de classification MTEB.

Importance du Problème

  1. Complétude de la compréhension sémantique : Le langage naturel contient à la fois le sens littéral (sémantique explicite) et les significations figurées ou pragmatiques (sémantique implicite)
  2. Besoins d'application pratique : Les tâches telles que la récupération d'informations et la classification de texte nécessitent une compréhension de différents niveaux de sémantique
  3. Limitations des modèles : Les méthodes traditionnelles ne représentent les phrases qu'avec un seul vecteur, ignorant l'existence d'interprétations multiples

Limitations des Approches Existantes

  • Limitation du vecteur unique : Chaque phrase ne reçoit qu'un seul vecteur de plongement
  • Mélange sémantique : Incapacité à distinguer la sémantique explicite de la sémantique implicite
  • Capacité de représentation insuffisante : Difficulté à capturer les significations multicouches des phrases

Contributions Fondamentales

  1. Proposition du cadre DualCSE : Génération de deux vecteurs de plongement pour chaque phrase, représentant respectivement la sémantique explicite et implicite
  2. Conception d'une nouvelle fonction de perte contrastive : Optimisation simultanée des relations inter-phrases et intra-phrases
  3. Construction d'un espace partagé à double sémantique : Permettant la comparaison des plongements explicites et implicites dans un même espace
  4. Validation de l'efficacité de la méthode : Démonstration de la supériorité de la méthode sur les tâches RTE et EIS
  5. Fourniture de capacité d'évaluation de l'implicite : Estimation du degré d'implicite d'une phrase

Explication Détaillée de la Méthode

Définition de la Tâche

Étant donnée une phrase s, DualCSE l'encode en deux plongements :

  • r : Plongement représentant la sémantique explicite
  • u : Plongement représentant la sémantique implicite

Architecture du Modèle

Conception de l'Encodeur

L'article propose deux architectures d'encodeur :

  1. Cross-encoder :
    • Utilise un seul modèle BERT/RoBERTa
    • L'entrée "CLS s SEP explicit" génère le plongement explicite r
    • L'entrée "CLS s SEP implicit" génère le plongement implicite u
  2. Bi-encoder :
    • Utilise deux modèles BERT/RoBERTa indépendants
    • Entraîne séparément pour générer r et u

Fonction de Perte Contrastive

Fonction de perte conçue sur la base de l'ensemble de données INLI :

v(h₁,h₂) = e^(sim(h₁,h₂)/τ)

lᵢ = -log(v(rᵢ,r⁺ᵢ₁)/∑ⱼ(v(rᵢ,r⁺ⱼ₁) + v(rᵢ,r⁻ⱼ) + v(rᵢ,uⱼ)))
     -log(v(uᵢ,r⁺ᵢ₂)/∑ⱼ(v(uᵢ,r⁺ⱼ₂) + v(uᵢ,r⁻ⱼ) + v(uᵢ,rⱼ)))
     -log(v(r⁺ᵢ₁,u⁺ᵢ₁)/∑ⱼv(r⁺ᵢ₁,u⁺ⱼ₁))
     -log(v(r⁺ᵢ₂,u⁺ᵢ₂)/∑ⱼv(r⁺ᵢ₂,u⁺ⱼ₂))
     -log(v(r⁻ᵢ,u⁻ᵢ)/∑ⱼv(r⁻ᵢ,u⁻ⱼ))

Points d'Innovation Technique

  1. Représentation sémantique double : Dépassement de la limitation du vecteur unique, fournissant deux représentations de dimensions différentes pour les phrases
  2. Modélisation des relations inter-phrases et intra-phrases :
    • Inter-phrases : La prémisse est similaire à l'hypothèse d'implication et dissimilaire à l'hypothèse de contradiction
    • Intra-phrases : La sémantique explicite et implicite de l'hypothèse sont proches, tandis que celle de la prémisse est éloignée
  3. Conception de l'espace partagé : Permettant la comparaison de différents types de sémantique dans un même espace

Configuration Expérimentale

Ensembles de Données

Ensemble de Données INLI

  • Taille : 32 000 paires d'entraînement, 4 000 paires de développement, 4 000 paires de test
  • Caractéristiques : Fournit quatre étiquettes d'hypothèse pour chaque prémisse
    • implied-entailment : Implication implicite
    • explicit-entailment : Implication explicite
    • neutral : Neutre
    • contradiction : Contradiction

Ensemble de Données de Wang et al.

  • Taille : 101 320 paires d'entraînement, 5 630 paires de développement/test chacun
  • Utilisation : Tâche de notation d'implicite

Métriques d'Évaluation

  • Tâche RTE : Précision (Accuracy)
  • Tâche EIS : Précision (Accuracy)

Méthodes de Comparaison

  1. SimCSE (SNLI+MNLI) : Entraîné sur des ensembles de données NLI standard
  2. SimCSE (INLI) : SimCSE entraîné sur l'ensemble de données INLI
  3. ImpScore : Méthode spécialisée pour la notation d'implicite
  4. Grands modèles de langage : GPT-4, Gemini-1.5-Pro, etc. comme références

Détails d'Implémentation

  • Modèle de base : BERT-base, RoBERTa-base
  • Taille de lot : 64 pour cross-encoder, 32 pour bi-encoder
  • Taux d'apprentissage : 5e-5 pour cross-encoder, 3e-5 pour bi-encoder
  • Paramètre de température τ : 0.05

Résultats Expérimentaux

Résultats Principaux

Résultats de la Tâche RTE

ModèleExpliciteImpliciteNeutreContradictionMoyenne
SimCSE (SNLI+MNLI)79.8049.0074.3067.6067.68
SimCSE (INLI)90.6069.1066.9091.0079.40
DualCSE-Cross90.2073.4068.4088.7080.18
DualCSE-Bi91.9069.9072.1087.6080.38
Gemini-1.5-Pro97.9080.3092.0095.4091.40

Résultats de la Tâche EIS

ModèleINLIEnsemble de Données de Wang et al.
LENGTH99.9073.37
ImpScore (original)80.5595.20
ImpScore (INLI)99.9781.56
DualCSE-Cross99.9779.31
DualCSE-Bi10077.48

Études d'Ablation

Les études d'ablation valident l'importance de chaque composant de la fonction de perte :

Configuration de la Fonction de PerteRTEEIS
DualCSE Complet80.1899.97
Sans Terme de Contradiction64.5799.88
Sans Relations Intra-phrases80.1092.25
Sans Terme de Contradiction et Relations Intra-phrases64.6832.75

Découvertes :

  • Le terme de contradiction est plus important pour la tâche RTE
  • Les relations intra-phrases sont plus importantes pour la tâche EIS

Analyse de Cas

Exemple d'Expérience de Récupération

Phrase de Requête : "She conquered his heart."

Résultats de Récupération de Sémantique Explicite :

  1. "She defeated his heart in battle." (Signification littérale de bataille)
  2. "She overcame his cardiac defenses."
  3. "She vanquished his emotional barriers."

Résultats de Récupération de Sémantique Implicite :

  1. "She won his affection and love." (Signification d'amour)
  2. "She captured his romantic interest."
  3. "She gained his deep emotional attachment."

Travaux Connexes

Méthodes de Plongement de Phrases

  • Méthodes basées sur BERT : Sentence-BERT, SimCSE, etc.
  • Apprentissage contrastif : Applications dans le plongement de phrases
  • Représentations multi-sémantiques : Quelques travaux tentent de capturer les significations multiples

Compréhension de la Sémantique Implicite

  • Recherche pragmatique : Implicature conversationnelle, actes de parole indirects
  • Extensions NLI : De l'inférence explicite à l'inférence implicite
  • Évaluation de l'implicite : Quantification du degré d'implicite d'une phrase

Avantages de cet Article

  1. Systématicité pour la première fois : Représentation double spécialisée pour la sémantique explicite/implicite
  2. Entraînement de bout en bout : Cadre unifié apprenant simultanément les deux types de sémantique
  3. Forte praticité : Application directe à plusieurs tâches en aval

Conclusions et Discussion

Conclusions Principales

  1. Efficacité de DualCSE : Supériorité aux méthodes de base sur les tâches RTE et EIS
  2. Valeur de la représentation double : La représentation séparée de la sémantique explicite et implicite facilite effectivement la compréhension
  3. Conception rationnelle de la fonction de perte : La modélisation des relations inter-phrases et intra-phrases est importante
  4. Flexibilité architecturale : Cross-encoder et bi-encoder fonctionnent tous deux efficacement

Limitations

  1. Dépendance aux ensembles de données : Entraînement uniquement sur l'ensemble de données INLI, diversité de domaine limitée
  2. Tâches d'évaluation limitées : Validation sur seulement deux tâches, manque d'évaluation plus large
  3. Surcharge de calcul : Nécessité de générer deux plongements pour chaque phrase, augmentant les coûts de calcul
  4. Généralisation inter-domaines : Performance inférieure aux méthodes spécialisées sur l'ensemble de données de Wang et al.

Directions Futures

  1. Extension des ensembles de données : Conversion de données de détection de discours haineux, analyse de sentiment, etc. au format INLI
  2. Intégration de grands modèles : Extension de la méthode aux grands modèles de langage
  3. Applications pratiques : Validation dans des scénarios d'analyse d'avis clients, moteurs de recherche, etc.
  4. Analyse théorique : Étude approfondie des propriétés mathématiques de la sémantique explicite/implicite

Évaluation Approfondie

Points Forts

  1. Définition claire du problème : Identification précise du problème fondamental des méthodes existantes
  2. Innovation méthodologique forte : La représentation sémantique double est une approche nouvelle et raisonnable
  3. Conception expérimentale complète : Incluant expériences principales, études d'ablation et analyses qualitatives
  4. Implémentation technique viable : Offre deux choix architecturaux différents
  5. Code open-source : Améliore la reproductibilité

Insuffisances

  1. Fondation théorique faible : Manque d'analyse théorique de la distinction entre sémantique explicite et implicite
  2. Portée d'évaluation limitée : Validation sur seulement deux tâches, pouvoir de conviction insuffisant
  3. Comparaison de base insuffisante : Manque de comparaison avec d'autres méthodes de représentation multi-sémantique
  4. Analyse d'efficacité manquante : Pas d'analyse des surcharges de calcul dues aux plongements doubles
  5. Capacité multilingue inconnue : Validation uniquement en anglais

Impact

  1. Valeur académique : Fournit une nouvelle perspective pour la recherche en plongement de phrases
  2. Valeur pratique : Applicable aux tâches de TAL nécessitant la compréhension de significations implicites
  3. Caractère inspirant : Peut stimuler davantage de recherches sur les représentations multi-sémantiques
  4. Limitation : L'impact peut être limité par la généralité de la méthode

Scénarios d'Application

  1. Récupération d'informations : Recherche considérant simultanément les significations littérales et implicites
  2. Classification de texte : Analyse de sentiment, reconnaissance d'intention, etc.
  3. Systèmes de dialogue : Compréhension des intentions implicites de l'utilisateur
  4. Modération de contenu : Détection de contenu inapproprié implicite
  5. Enseignement des langues : Aide à la compréhension des significations multicouches du langage

Références Bibliographiques

Cet article cite des travaux importants dans plusieurs domaines, notamment le plongement de phrases, l'inférence en langage naturel et l'apprentissage contrastif, incluant :

  • Gao et al. (2021) : Méthode SimCSE
  • Havaldar et al. (2025) : Ensemble de données INLI
  • Wang et al. (2025) : Méthode de notation d'implicite
  • Reimers and Gurevych (2019) : Sentence-BERT

Évaluation Générale : Cet article présente une innovation technique relativement forte, proposant une méthode de représentation sémantique double intéressante et pratique. Bien qu'il y ait encore de la place pour l'amélioration en termes de profondeur théorique et de largeur d'évaluation, il ouvre une nouvelle direction pour la recherche en plongement de phrases, possédant une certaine valeur académique et un potentiel d'application.