Sentence embedding methods have made remarkable progress, yet they still struggle to capture the implicit semantics within sentences. This can be attributed to the inherent limitations of conventional sentence embedding methods that assign only a single vector per sentence. To overcome this limitation, we propose DualCSE, a sentence embedding method that assigns two embeddings to each sentence: one representing the explicit semantics and the other representing the implicit semantics. These embeddings coexist in the shared space, enabling the selection of the desired semantics for specific purposes such as information retrieval and text classification. Experimental results demonstrate that DualCSE can effectively encode both explicit and implicit meanings and improve the performance of the downstream task.
論文ID : 2510.09293タイトル : One Sentence, Two Embeddings: Contrastive Learning of Explicit and Implicit Semantic Representations著者 : Kohei Oda¹、Po-Min Chuang²、Kiyoaki Shirai¹、Natthawut Kertkeidkachorn¹所属機関 : ¹日本先端科学技術研究院、²東芝株式会社分類 : cs.CL(計算言語学)発表日 : 2025年10月10日論文リンク : https://arxiv.org/abs/2510.09293v1 文埋め込み手法は大きな進歩を遂げていますが、文内の暗示的意味を捉える際には依然として困難が存在します。これは従来の文埋め込み手法が各文に単一のベクトルのみを割り当てるという本質的な制限に起因しています。この制限を克服するため、本論文ではDualCSEを提案します。これは各文に2つの埋め込みを割り当てる手法であり、一方は明示的意味を、もう一方は暗示的意味を表します。これらの埋め込みは共有空間に共存し、情報検索やテキスト分類などの特定の用途に応じて必要な意味を選択することができます。実験結果は、DualCSEが明示的および暗示的含意を効果的に符号化し、下流タスクのパフォーマンスを向上させることを示しています。
既存の文埋め込み手法は暗示的意味の処理において顕著な欠陥を有しています。Sun等(2025)は、最先端の文埋め込み手法であっても、MTEB分類ベンチマークにおいて明示的意味と暗示的意味の間に約20%のパフォーマンス格差が存在することを指摘しています。
意味理解の完全性 :自然言語には字義通りの意味(明示的意味)と比喩的または語用論的含意(暗示的意味)の両方が含まれています実際の応用ニーズ :情報検索やテキスト分類などのタスクは異なるレベルの意味理解を必要としますモデルの限界 :従来の手法は単一のベクトルのみで文を表現するため、複数の解釈の存在を無視しています単一ベクトル制限 :各文に1つの埋め込みベクトルのみが割り当てられます意味の混合 :明示的意味と暗示的意味を区別できません表現能力の不足 :文の多層的含意を捉えることが困難ですDualCSEフレームワークの提案 :各文に対して明示的意味と暗示的意味をそれぞれ表す2つの埋め込みベクトルを生成します新規な対比損失関数の設計 :文間関係と文内関係を同時に最適化します双重意味共有空間の構築 :明示的埋め込みと暗示的埋め込みが同一空間で比較可能になります手法の有効性の検証 :RTE及びEISタスクにおいて優越性を実証します暗示性評価能力の提供 :文の暗示的程度を推定できます文sが与えられたとき、DualCSEはこれを2つの埋め込みに符号化します:
r :明示的意味を表す埋め込みu :暗示的意味を表す埋め込み論文は2つのエンコーダアーキテクチャを提案しています:
クロスエンコーダ :単一のBERT/RoBERTaモデルを使用 入力"CLS s SEP explicit"から明示的埋め込みrを生成 入力"CLS s SEP implicit"から暗示的埋め込みuを生成 バイエンコーダ :2つの独立したBERT/RoBERTaモデルを使用 rとuをそれぞれ独立して訓練生成 INLIデータセットに基づいて設計された損失関数:
v(h₁,h₂) = e^(sim(h₁,h₂)/τ)
lᵢ = -log(v(rᵢ,r⁺ᵢ₁)/∑ⱼ(v(rᵢ,r⁺ⱼ₁) + v(rᵢ,r⁻ⱼ) + v(rᵢ,uⱼ)))
-log(v(uᵢ,r⁺ᵢ₂)/∑ⱼ(v(uᵢ,r⁺ⱼ₂) + v(uᵢ,r⁻ⱼ) + v(uᵢ,rⱼ)))
-log(v(r⁺ᵢ₁,u⁺ᵢ₁)/∑ⱼv(r⁺ᵢ₁,u⁺ⱼ₁))
-log(v(r⁺ᵢ₂,u⁺ᵢ₂)/∑ⱼv(r⁺ᵢ₂,u⁺ⱼ₂))
-log(v(r⁻ᵢ,u⁻ᵢ)/∑ⱼv(r⁻ᵢ,u⁻ⱼ))
双重意味表現 :単一ベクトルの制限を突破し、文に2つの異なる次元の表現を提供します文間および文内関係のモデリング :
文間:前提と蕴含仮説は類似し、矛盾仮説とは異なります 文内:仮説の明示的意味と暗示的意味は近く、前提の明示的意味と暗示的意味は遠いです 共有空間設計 :異なるタイプの意味が同一空間で比較可能になります規模 :訓練セット32,000対、開発セット4,000対、テストセット4,000対特徴 :各前提に対して4種類の仮説ラベルを提供
implied-entailment:暗示的蕴含 explicit-entailment:明示的蕴含 neutral:中立 contradiction:矛盾 規模 :訓練セット101,320対、開発/テストセット各5,630対用途 :暗示性スコアリングタスクRTEタスク :正確度(Accuracy)EISタスク :正確度(Accuracy)SimCSE (SNLI+MNLI) :標準NLIデータセットで訓練SimCSE (INLI) :INLIデータセットで訓練したSimCSEImpScore :暗示性スコアリング専用手法大規模言語モデル :GPT-4、Gemini-1.5-Proなど参考用基盤モデル :BERT-base、RoBERTa-baseバッチサイズ :クロスエンコーダは64、バイエンコーダは32学習率 :クロスエンコーダは5e-5、バイエンコーダは3e-5温度パラメータτ :0.05モデル 明示的 暗示的 中立 矛盾 平均 SimCSE (SNLI+MNLI) 79.80 49.00 74.30 67.60 67.68 SimCSE (INLI) 90.60 69.10 66.90 91.00 79.40 DualCSE-Cross 90.20 73.40 68.40 88.70 80.18 DualCSE-Bi 91.90 69.90 72.10 87.60 80.38 Gemini-1.5-Pro 97.90 80.30 92.00 95.40 91.40
モデル INLI Wang等のデータセット LENGTH 99.90 73.37 ImpScore (original) 80.55 95.20 ImpScore (INLI) 99.97 81.56 DualCSE-Cross 99.97 79.31 DualCSE-Bi 100 77.48
アブレーション実験は損失関数の各要素の重要性を検証しました:
損失関数構成 RTE EIS 完全なDualCSE 80.18 99.97 矛盾項なし 64.57 99.88 文内関係なし 80.10 92.25 矛盾項と文内関係なし 64.68 32.75
発見 :
矛盾項はRTEタスクでより重要です 文内関係はEISタスクでより重要です クエリ文 :"She conquered his heart."
明示的意味検索結果 :
"She defeated his heart in battle."(字義通りの戦闘含意) "She overcame his cardiac defenses." "She vanquished his emotional barriers." 暗示的意味検索結果 :
"She won his affection and love."(愛情含意) "She captured his romantic interest." "She gained his deep emotional attachment." BERTベース手法 :Sentence-BERT、SimCSEなど対比学習 :文埋め込みへの応用多意味表現 :複数の含意を捉える試みを行う少数の研究語用論研究 :会話含意、間接的言語行為NLI拡張 :明示的推論から暗示的推論へ暗示性評価 :文の暗示的程度の定量化初の体系的アプローチ :明示的/暗示的意味の双重表現に特化エンドツーエンド訓練 :統一フレームワークで両種類の意味を同時学習実用性が高い :複数の下流タスクに直接適用可能DualCSEの有効性 :RTE及びEISタスクで基線手法を上回ります双重表現の価値 :明示的意味と暗示的意味の分離表現は理解に有効です損失関数設計の合理性 :文間および文内関係のモデリングは両方とも重要ですアーキテクチャの柔軟性 :クロスエンコーダとバイエンコーダの両方が効果的に機能しますデータセット依存性 :INLIデータセットのみで訓練され、領域の多様性が限定的です評価タスクの限定 :2つのタスクのみで検証され、より広範な評価が不足しています計算オーバーヘッド :各文に対して2つの埋め込みを生成する必要があり、計算コストが増加しますクロスドメイン汎化 :Wang等のデータセットでの性能は専門手法に劣りますデータセット拡張 :ヘイトスピーチ検出、感情分析などのデータをINLI形式に変換大規模言語モデルへの統合 :大規模言語モデルへの手法拡張実際の応用 :顧客レビュー分析、検索エンジンなどのシナリオで検証理論的分析 :明示的/暗示的意味の数学的性質の深掘り研究問題定義の明確性 :既存手法の核心的問題を正確に特定しています手法の革新性が高い :双重意味表現は新規かつ合理的な考え方です実験設計が充分 :主実験、アブレーション実験、定性分析を含みます技術実装の実現可能性 :2つの異なるアーキテクチャ選択肢を提供しますコードのオープンソース化 :再現性を向上させます理論的基礎の弱さ :明示的/暗示的意味区別の理論的分析が不足しています評価範囲の限定 :2つのタスクのみでの検証で説得力が不十分です基線比較の不足 :他の多意味表現手法との比較が欠けています効率分析の欠落 :双重埋め込みがもたらす計算オーバーヘッドの分析がありません多言語能力の未確認 :英語のみでの検証です学術的価値 :文埋め込み研究に新たな視点をもたらします実用的価値 :暗示的含意の理解が必要なNLPタスクに応用可能です啓発性 :複数意味表現に関するさらなる研究を刺激する可能性があります限界 :手法の汎用性により影響力が制限される可能性があります情報検索 :字義通りと暗示的含意の両方を考慮する必要がある検索テキスト分類 :感情分析、意図認識などのタスク対話システム :ユーザーの言外の意を理解コンテンツモデレーション :不適切な暗示的コンテンツの検出言語教育 :言語の多層的含意の理解支援本論文は文埋め込み、自然言語推論、対比学習など複数の分野の重要な研究を引用しており、以下を含みます:
Gao et al. (2021):SimCSE手法 Havaldar et al. (2025):INLIデータセット Wang et al. (2025):暗示性スコアリング手法 Reimers and Gurevych (2019):Sentence-BERT 総合評価 :これは技術的革新性が比較的高い論文であり、興味深く実用的な双重意味表現手法を提案しています。理論的深さと評価の広さにおいてさらなる改善の余地がありますが、文埋め込み研究に新たな方向性を開拓しており、一定の学術的価値と応用可能性を有しています。