2025-11-14T11:40:11.153329

One Sentence, Two Embeddings: Contrastive Learning of Explicit and Implicit Semantic Representations

Oda, Chuang, Shirai et al.

Sentence embedding methods have made remarkable progress, yet they still struggle to capture the implicit semantics within sentences. This can be attributed to the inherent limitations of conventional sentence embedding methods that assign only a single vector per sentence. To overcome this limitation, we propose DualCSE, a sentence embedding method that assigns two embeddings to each sentence: one representing the explicit semantics and the other representing the implicit semantics. These embeddings coexist in the shared space, enabling the selection of the desired semantics for specific purposes such as information retrieval and text classification. Experimental results demonstrate that DualCSE can effectively encode both explicit and implicit meanings and improve the performance of the downstream task.

academic

한 문장, 두 개의 임베딩: 명시적 및 암시적 의미 표현의 대조 학습

기본 정보

논문 ID: 2510.09293
제목: One Sentence, Two Embeddings: Contrastive Learning of Explicit and Implicit Semantic Representations
저자: Kohei Oda¹, Po-Min Chuang², Kiyoaki Shirai¹, Natthawut Kertkeidkachorn¹
소속: ¹일본 첨단과학기술연구소, ²도시바 주식회사
분류: cs.CL (계산언어학)
발표일: 2025년 10월 10일
논문 링크: https://arxiv.org/abs/2510.09293v1

초록

문장 임베딩 방법은 상당한 진전을 이루었지만, 문장 내 암시적 의미를 포착하는 데 여전히 어려움이 있습니다. 이는 기존 문장 임베딩 방법이 각 문장에 단일 벡터만 할당하는 근본적인 한계에서 비롯됩니다. 이러한 한계를 극복하기 위해 본 논문은 DualCSE를 제안합니다. 이는 각 문장에 두 개의 임베딩을 할당하는 방법으로, 하나는 명시적 의미를 나타내고 다른 하나는 암시적 의미를 나타냅니다. 이러한 임베딩들은 공유 공간에 공존하여 정보 검색 및 텍스트 분류와 같은 특정 목적에 필요한 의미를 선택할 수 있습니다. 실험 결과는 DualCSE가 명시적 및 암시적 의미를 효과적으로 인코딩하고 하위 작업의 성능을 향상시킬 수 있음을 보여줍니다.

연구 배경 및 동기

문제 정의

기존 문장 임베딩 방법은 암시적 의미 처리에 있어 상당한 결함을 가지고 있습니다. Sun 등(2025)은 최첨단 문장 임베딩 방법도 MTEB 분류 벤치마크에서 명시적 의미와 암시적 의미 간에 약 20%의 성능 격차가 있음을 지적했습니다.

문제의 중요성

의미 이해의 완전성: 자연언어는 문자 그대로의 의미(명시적 의미)와 비유적 또는 화용론적 의미(암시적 의미)를 모두 포함합니다
실제 응용 요구사항: 정보 검색, 텍스트 분류 등의 작업은 다양한 수준의 의미 이해가 필요합니다
모델 한계: 기존 방법은 단일 벡터로만 문장을 표현하여 다중 해석의 존재를 무시합니다

기존 방법의 한계

단일 벡터 제약: 각 문장에 하나의 임베딩 벡터만 할당됨
의미 혼합: 명시적 의미와 암시적 의미를 구분할 수 없음
표현 능력 부족: 문장의 다층적 의미를 포착하기 어려움

핵심 기여

DualCSE 프레임워크 제안: 각 문장에 대해 명시적 의미와 암시적 의미를 각각 나타내는 두 개의 임베딩 벡터 생성
새로운 대조 손실 함수 설계: 문장 간 관계와 문장 내 관계를 동시에 최적화
이중 의미 공유 공간 구축: 명시적 및 암시적 임베딩이 동일한 공간에서 비교 가능하도록 함
방법 유효성 검증: RTE 및 EIS 작업에서 방법의 우수성 입증
암시성 평가 능력 제공: 문장의 암시 정도를 추정할 수 있음

방법 상세 설명

작업 정의

문장 s가 주어졌을 때, DualCSE는 이를 두 개의 임베딩으로 인코딩합니다:

r: 명시적 의미를 나타내는 임베딩
u: 암시적 의미를 나타내는 임베딩

모델 아키텍처

인코더 설계

논문은 두 가지 인코더 아키텍처를 제안합니다:

Cross-encoder:
- 단일 BERT/RoBERTa 모델 사용
- "CLS s SEP explicit" 입력으로 명시적 임베딩 r 생성
- "CLS s SEP implicit" 입력으로 암시적 임베딩 u 생성
Bi-encoder:
- 두 개의 독립적인 BERT/RoBERTa 모델 사용
- 각각 r과 u를 생성하도록 훈련

대조 손실 함수

INLI 데이터셋을 기반으로 설계된 손실 함수:

v(h₁,h₂) = e^(sim(h₁,h₂)/τ)

lᵢ = -log(v(rᵢ,r⁺ᵢ₁)/∑ⱼ(v(rᵢ,r⁺ⱼ₁) + v(rᵢ,r⁻ⱼ) + v(rᵢ,uⱼ)))
     -log(v(uᵢ,r⁺ᵢ₂)/∑ⱼ(v(uᵢ,r⁺ⱼ₂) + v(uᵢ,r⁻ⱼ) + v(uᵢ,rⱼ)))
     -log(v(r⁺ᵢ₁,u⁺ᵢ₁)/∑ⱼv(r⁺ᵢ₁,u⁺ⱼ₁))
     -log(v(r⁺ᵢ₂,u⁺ᵢ₂)/∑ⱼv(r⁺ᵢ₂,u⁺ⱼ₂))
     -log(v(r⁻ᵢ,u⁻ᵢ)/∑ⱼv(r⁻ᵢ,u⁻ⱼ))

기술 혁신 포인트

이중 의미 표현: 단일 벡터 제약을 극복하여 문장에 두 가지 다른 차원의 표현 제공
문장 간 및 문장 내 관계 모델링:
- 문장 간: 전제는 함축 가정과 유사하고 모순 가정과는 유사하지 않음
- 문장 내: 가정의 명시적 및 암시적 의미는 유사하고, 전제의 명시적 및 암시적 의미는 상이함
공유 공간 설계: 다양한 유형의 의미가 동일한 공간에서 비교 가능하도록 함

실험 설정

데이터셋

INLI 데이터셋

규모: 훈련 집합 32,000 쌍, 개발 집합 4,000 쌍, 테스트 집합 4,000 쌍
특징: 각 전제에 대해 네 가지 가정 레이블 제공
- implied-entailment: 암시적 함축
- explicit-entailment: 명시적 함축
- neutral: 중립
- contradiction: 모순

Wang 등의 데이터셋

규모: 훈련 집합 101,320 쌍, 개발/테스트 집합 각 5,630 쌍
용도: 암시성 점수 작업

평가 지표

RTE 작업: 정확도(Accuracy)
EIS 작업: 정확도(Accuracy)

비교 방법

SimCSE (SNLI+MNLI): 표준 NLI 데이터셋으로 훈련
SimCSE (INLI): INLI 데이터셋으로 훈련한 SimCSE
ImpScore: 암시성 점수 평가 전용 방법
대규모 언어 모델: GPT-4, Gemini-1.5-Pro 등 참고용

구현 세부사항

기본 모델: BERT-base, RoBERTa-base
배치 크기: Cross-encoder 64, Bi-encoder 32
학습률: Cross-encoder 5e-5, Bi-encoder 3e-5
온도 매개변수 τ: 0.05

실험 결과

주요 결과

RTE 작업 결과

모델	명시적	암시적	중립	모순	평균
SimCSE (SNLI+MNLI)	79.80	49.00	74.30	67.60	67.68
SimCSE (INLI)	90.60	69.10	66.90	91.00	79.40
DualCSE-Cross	90.20	73.40	68.40	88.70	80.18
DualCSE-Bi	91.90	69.90	72.10	87.60	80.38
Gemini-1.5-Pro	97.90	80.30	92.00	95.40	91.40