2025-11-14T11:40:11.153329

One Sentence, Two Embeddings: Contrastive Learning of Explicit and Implicit Semantic Representations

Oda, Chuang, Shirai et al.

Sentence embedding methods have made remarkable progress, yet they still struggle to capture the implicit semantics within sentences. This can be attributed to the inherent limitations of conventional sentence embedding methods that assign only a single vector per sentence. To overcome this limitation, we propose DualCSE, a sentence embedding method that assigns two embeddings to each sentence: one representing the explicit semantics and the other representing the implicit semantics. These embeddings coexist in the shared space, enabling the selection of the desired semantics for specific purposes such as information retrieval and text classification. Experimental results demonstrate that DualCSE can effectively encode both explicit and implicit meanings and improve the performance of the downstream task.

academic

1つの文、2つの埋め込み：明示的および暗示的意味表現の対比学習

基本情報

論文ID: 2510.09293
タイトル: One Sentence, Two Embeddings: Contrastive Learning of Explicit and Implicit Semantic Representations
著者: Kohei Oda¹、Po-Min Chuang²、Kiyoaki Shirai¹、Natthawut Kertkeidkachorn¹
所属機関: ¹日本先端科学技術研究院、²東芝株式会社
分類: cs.CL（計算言語学）
発表日: 2025年10月10日
論文リンク: https://arxiv.org/abs/2510.09293v1

要約

文埋め込み手法は大きな進歩を遂げていますが、文内の暗示的意味を捉える際には依然として困難が存在します。これは従来の文埋め込み手法が各文に単一のベクトルのみを割り当てるという本質的な制限に起因しています。この制限を克服するため、本論文ではDualCSEを提案します。これは各文に2つの埋め込みを割り当てる手法であり、一方は明示的意味を、もう一方は暗示的意味を表します。これらの埋め込みは共有空間に共存し、情報検索やテキスト分類などの特定の用途に応じて必要な意味を選択することができます。実験結果は、DualCSEが明示的および暗示的含意を効果的に符号化し、下流タスクのパフォーマンスを向上させることを示しています。

研究背景と動機

問題定義

既存の文埋め込み手法は暗示的意味の処理において顕著な欠陥を有しています。Sun等（2025）は、最先端の文埋め込み手法であっても、MTEB分類ベンチマークにおいて明示的意味と暗示的意味の間に約20%のパフォーマンス格差が存在することを指摘しています。

問題の重要性

意味理解の完全性：自然言語には字義通りの意味（明示的意味）と比喩的または語用論的含意（暗示的意味）の両方が含まれています
実際の応用ニーズ：情報検索やテキスト分類などのタスクは異なるレベルの意味理解を必要とします
モデルの限界：従来の手法は単一のベクトルのみで文を表現するため、複数の解釈の存在を無視しています

既存手法の限界

単一ベクトル制限：各文に1つの埋め込みベクトルのみが割り当てられます
意味の混合：明示的意味と暗示的意味を区別できません
表現能力の不足：文の多層的含意を捉えることが困難です

核心的貢献

DualCSEフレームワークの提案：各文に対して明示的意味と暗示的意味をそれぞれ表す2つの埋め込みベクトルを生成します
新規な対比損失関数の設計：文間関係と文内関係を同時に最適化します
双重意味共有空間の構築：明示的埋め込みと暗示的埋め込みが同一空間で比較可能になります
手法の有効性の検証：RTE及びEISタスクにおいて優越性を実証します
暗示性評価能力の提供：文の暗示的程度を推定できます

方法の詳細

タスク定義

文sが与えられたとき、DualCSEはこれを2つの埋め込みに符号化します：

r：明示的意味を表す埋め込み
u：暗示的意味を表す埋め込み

モデルアーキテクチャ

エンコーダ設計

論文は2つのエンコーダアーキテクチャを提案しています：

クロスエンコーダ：
- 単一のBERT/RoBERTaモデルを使用
- 入力"CLS s SEP explicit"から明示的埋め込みrを生成
- 入力"CLS s SEP implicit"から暗示的埋め込みuを生成
バイエンコーダ：
- 2つの独立したBERT/RoBERTaモデルを使用
- rとuをそれぞれ独立して訓練生成

対比損失関数

INLIデータセットに基づいて設計された損失関数：

v(h₁,h₂) = e^(sim(h₁,h₂)/τ)

lᵢ = -log(v(rᵢ,r⁺ᵢ₁)/∑ⱼ(v(rᵢ,r⁺ⱼ₁) + v(rᵢ,r⁻ⱼ) + v(rᵢ,uⱼ)))
     -log(v(uᵢ,r⁺ᵢ₂)/∑ⱼ(v(uᵢ,r⁺ⱼ₂) + v(uᵢ,r⁻ⱼ) + v(uᵢ,rⱼ)))
     -log(v(r⁺ᵢ₁,u⁺ᵢ₁)/∑ⱼv(r⁺ᵢ₁,u⁺ⱼ₁))
     -log(v(r⁺ᵢ₂,u⁺ᵢ₂)/∑ⱼv(r⁺ᵢ₂,u⁺ⱼ₂))
     -log(v(r⁻ᵢ,u⁻ᵢ)/∑ⱼv(r⁻ᵢ,u⁻ⱼ))

技術的革新点

双重意味表現：単一ベクトルの制限を突破し、文に2つの異なる次元の表現を提供します
文間および文内関係のモデリング：
- 文間：前提と蕴含仮説は類似し、矛盾仮説とは異なります
- 文内：仮説の明示的意味と暗示的意味は近く、前提の明示的意味と暗示的意味は遠いです
共有空間設計：異なるタイプの意味が同一空間で比較可能になります

実験設定

データセット

INLIデータセット

規模：訓練セット32,000対、開発セット4,000対、テストセット4,000対
特徴：各前提に対して4種類の仮説ラベルを提供
- implied-entailment：暗示的蕴含
- explicit-entailment：明示的蕴含
- neutral：中立
- contradiction：矛盾

Wang等のデータセット

規模：訓練セット101,320対、開発/テストセット各5,630対
用途：暗示性スコアリングタスク

評価指標

RTEタスク：正確度（Accuracy）
EISタスク：正確度（Accuracy）

比較手法

SimCSE (SNLI+MNLI)：標準NLIデータセットで訓練
SimCSE (INLI)：INLIデータセットで訓練したSimCSE
ImpScore：暗示性スコアリング専用手法
大規模言語モデル：GPT-4、Gemini-1.5-Proなど参考用

実装詳細

基盤モデル：BERT-base、RoBERTa-base
バッチサイズ：クロスエンコーダは64、バイエンコーダは32
学習率：クロスエンコーダは5e-5、バイエンコーダは3e-5
温度パラメータτ：0.05

実験結果

主要結果

RTEタスク結果

モデル	明示的	暗示的	中立	矛盾	平均
SimCSE (SNLI+MNLI)	79.80	49.00	74.30	67.60	67.68
SimCSE (INLI)	90.60	69.10	66.90	91.00	79.40
DualCSE-Cross	90.20	73.40	68.40	88.70	80.18
DualCSE-Bi	91.90	69.90	72.10	87.60	80.38
Gemini-1.5-Pro	97.90	80.30	92.00	95.40	91.40