2025-11-14T11:40:11.153329

One Sentence, Two Embeddings: Contrastive Learning of Explicit and Implicit Semantic Representations

Oda, Chuang, Shirai et al.
Sentence embedding methods have made remarkable progress, yet they still struggle to capture the implicit semantics within sentences. This can be attributed to the inherent limitations of conventional sentence embedding methods that assign only a single vector per sentence. To overcome this limitation, we propose DualCSE, a sentence embedding method that assigns two embeddings to each sentence: one representing the explicit semantics and the other representing the implicit semantics. These embeddings coexist in the shared space, enabling the selection of the desired semantics for specific purposes such as information retrieval and text classification. Experimental results demonstrate that DualCSE can effectively encode both explicit and implicit meanings and improve the performance of the downstream task.
academic

한 문장, 두 개의 임베딩: 명시적 및 암시적 의미 표현의 대조 학습

기본 정보

  • 논문 ID: 2510.09293
  • 제목: One Sentence, Two Embeddings: Contrastive Learning of Explicit and Implicit Semantic Representations
  • 저자: Kohei Oda¹, Po-Min Chuang², Kiyoaki Shirai¹, Natthawut Kertkeidkachorn¹
  • 소속: ¹일본 첨단과학기술연구소, ²도시바 주식회사
  • 분류: cs.CL (계산언어학)
  • 발표일: 2025년 10월 10일
  • 논문 링크: https://arxiv.org/abs/2510.09293v1

초록

문장 임베딩 방법은 상당한 진전을 이루었지만, 문장 내 암시적 의미를 포착하는 데 여전히 어려움이 있습니다. 이는 기존 문장 임베딩 방법이 각 문장에 단일 벡터만 할당하는 근본적인 한계에서 비롯됩니다. 이러한 한계를 극복하기 위해 본 논문은 DualCSE를 제안합니다. 이는 각 문장에 두 개의 임베딩을 할당하는 방법으로, 하나는 명시적 의미를 나타내고 다른 하나는 암시적 의미를 나타냅니다. 이러한 임베딩들은 공유 공간에 공존하여 정보 검색 및 텍스트 분류와 같은 특정 목적에 필요한 의미를 선택할 수 있습니다. 실험 결과는 DualCSE가 명시적 및 암시적 의미를 효과적으로 인코딩하고 하위 작업의 성능을 향상시킬 수 있음을 보여줍니다.

연구 배경 및 동기

문제 정의

기존 문장 임베딩 방법은 암시적 의미 처리에 있어 상당한 결함을 가지고 있습니다. Sun 등(2025)은 최첨단 문장 임베딩 방법도 MTEB 분류 벤치마크에서 명시적 의미와 암시적 의미 간에 약 20%의 성능 격차가 있음을 지적했습니다.

문제의 중요성

  1. 의미 이해의 완전성: 자연언어는 문자 그대로의 의미(명시적 의미)와 비유적 또는 화용론적 의미(암시적 의미)를 모두 포함합니다
  2. 실제 응용 요구사항: 정보 검색, 텍스트 분류 등의 작업은 다양한 수준의 의미 이해가 필요합니다
  3. 모델 한계: 기존 방법은 단일 벡터로만 문장을 표현하여 다중 해석의 존재를 무시합니다

기존 방법의 한계

  • 단일 벡터 제약: 각 문장에 하나의 임베딩 벡터만 할당됨
  • 의미 혼합: 명시적 의미와 암시적 의미를 구분할 수 없음
  • 표현 능력 부족: 문장의 다층적 의미를 포착하기 어려움

핵심 기여

  1. DualCSE 프레임워크 제안: 각 문장에 대해 명시적 의미와 암시적 의미를 각각 나타내는 두 개의 임베딩 벡터 생성
  2. 새로운 대조 손실 함수 설계: 문장 간 관계와 문장 내 관계를 동시에 최적화
  3. 이중 의미 공유 공간 구축: 명시적 및 암시적 임베딩이 동일한 공간에서 비교 가능하도록 함
  4. 방법 유효성 검증: RTE 및 EIS 작업에서 방법의 우수성 입증
  5. 암시성 평가 능력 제공: 문장의 암시 정도를 추정할 수 있음

방법 상세 설명

작업 정의

문장 s가 주어졌을 때, DualCSE는 이를 두 개의 임베딩으로 인코딩합니다:

  • r: 명시적 의미를 나타내는 임베딩
  • u: 암시적 의미를 나타내는 임베딩

모델 아키텍처

인코더 설계

논문은 두 가지 인코더 아키텍처를 제안합니다:

  1. Cross-encoder:
    • 단일 BERT/RoBERTa 모델 사용
    • "CLS s SEP explicit" 입력으로 명시적 임베딩 r 생성
    • "CLS s SEP implicit" 입력으로 암시적 임베딩 u 생성
  2. Bi-encoder:
    • 두 개의 독립적인 BERT/RoBERTa 모델 사용
    • 각각 r과 u를 생성하도록 훈련

대조 손실 함수

INLI 데이터셋을 기반으로 설계된 손실 함수:

v(h₁,h₂) = e^(sim(h₁,h₂)/τ)

lᵢ = -log(v(rᵢ,r⁺ᵢ₁)/∑ⱼ(v(rᵢ,r⁺ⱼ₁) + v(rᵢ,r⁻ⱼ) + v(rᵢ,uⱼ)))
     -log(v(uᵢ,r⁺ᵢ₂)/∑ⱼ(v(uᵢ,r⁺ⱼ₂) + v(uᵢ,r⁻ⱼ) + v(uᵢ,rⱼ)))
     -log(v(r⁺ᵢ₁,u⁺ᵢ₁)/∑ⱼv(r⁺ᵢ₁,u⁺ⱼ₁))
     -log(v(r⁺ᵢ₂,u⁺ᵢ₂)/∑ⱼv(r⁺ᵢ₂,u⁺ⱼ₂))
     -log(v(r⁻ᵢ,u⁻ᵢ)/∑ⱼv(r⁻ᵢ,u⁻ⱼ))

기술 혁신 포인트

  1. 이중 의미 표현: 단일 벡터 제약을 극복하여 문장에 두 가지 다른 차원의 표현 제공
  2. 문장 간 및 문장 내 관계 모델링:
    • 문장 간: 전제는 함축 가정과 유사하고 모순 가정과는 유사하지 않음
    • 문장 내: 가정의 명시적 및 암시적 의미는 유사하고, 전제의 명시적 및 암시적 의미는 상이함
  3. 공유 공간 설계: 다양한 유형의 의미가 동일한 공간에서 비교 가능하도록 함

실험 설정

데이터셋

INLI 데이터셋

  • 규모: 훈련 집합 32,000 쌍, 개발 집합 4,000 쌍, 테스트 집합 4,000 쌍
  • 특징: 각 전제에 대해 네 가지 가정 레이블 제공
    • implied-entailment: 암시적 함축
    • explicit-entailment: 명시적 함축
    • neutral: 중립
    • contradiction: 모순

Wang 등의 데이터셋

  • 규모: 훈련 집합 101,320 쌍, 개발/테스트 집합 각 5,630 쌍
  • 용도: 암시성 점수 작업

평가 지표

  • RTE 작업: 정확도(Accuracy)
  • EIS 작업: 정확도(Accuracy)

비교 방법

  1. SimCSE (SNLI+MNLI): 표준 NLI 데이터셋으로 훈련
  2. SimCSE (INLI): INLI 데이터셋으로 훈련한 SimCSE
  3. ImpScore: 암시성 점수 평가 전용 방법
  4. 대규모 언어 모델: GPT-4, Gemini-1.5-Pro 등 참고용

구현 세부사항

  • 기본 모델: BERT-base, RoBERTa-base
  • 배치 크기: Cross-encoder 64, Bi-encoder 32
  • 학습률: Cross-encoder 5e-5, Bi-encoder 3e-5
  • 온도 매개변수 τ: 0.05

실험 결과

주요 결과

RTE 작업 결과

모델명시적암시적중립모순평균
SimCSE (SNLI+MNLI)79.8049.0074.3067.6067.68
SimCSE (INLI)90.6069.1066.9091.0079.40
DualCSE-Cross90.2073.4068.4088.7080.18
DualCSE-Bi91.9069.9072.1087.6080.38
Gemini-1.5-Pro97.9080.3092.0095.4091.40

EIS 작업 결과

모델INLIWang 등의 데이셋
LENGTH99.9073.37
ImpScore (원본)80.5595.20
ImpScore (INLI)99.9781.56
DualCSE-Cross99.9779.31
DualCSE-Bi10077.48

절제 실험

절제 실험은 손실 함수의 각 구성 요소의 중요성을 검증했습니다:

손실 함수 구성RTEEIS
완전한 DualCSE80.1899.97
모순 항 제거64.5799.88
문장 내 관계 제거80.1092.25
모순 항 및 문장 내 관계 제거64.6832.75

발견사항:

  • 모순 항은 RTE 작업에 더 중요함
  • 문장 내 관계는 EIS 작업에 더 중요함

사례 분석

검색 실험 예시

쿼리 문장: "She conquered his heart."

명시적 의미 검색 결과:

  1. "She defeated his heart in battle."(문자 그대로의 전투 의미)
  2. "She overcame his cardiac defenses."
  3. "She vanquished his emotional barriers."

암시적 의미 검색 결과:

  1. "She won his affection and love."(사랑의 의미)
  2. "She captured his romantic interest."
  3. "She gained his deep emotional attachment."

관련 연구

문장 임베딩 방법

  • BERT 기반 방법: Sentence-BERT, SimCSE 등
  • 대조 학습: 문장 임베딩에서의 응용
  • 다중 의미 표현: 다중 의미 포착을 시도하는 소수의 연구

암시적 의미 이해

  • 화용론 연구: 대화 함축, 간접 언어 행위
  • NLI 확장: 명시적 추론에서 암시적 추론으로
  • 암시성 평가: 문장의 암시 정도 정량화

본 논문의 장점

  1. 최초 체계성: 명시적/암시적 의미의 이중 표현에 특화
  2. 엔드투엔드 훈련: 두 가지 의미를 동시에 학습하는 통합 프레임워크
  3. 높은 실용성: 다양한 하위 작업에 직접 적용 가능

결론 및 논의

주요 결론

  1. DualCSE 유효성: RTE 및 EIS 작업에서 기준 방법을 능가
  2. 이중 표현의 가치: 명시적 및 암시적 의미의 분리된 표현이 이해에 도움이 됨
  3. 손실 함수 설계의 타당성: 문장 간 및 문장 내 관계 모델링이 모두 중요함
  4. 아키텍처 유연성: Cross-encoder와 Bi-encoder 모두 효과적으로 작동

한계

  1. 데이터셋 의존성: INLI 데이터셋으로만 훈련하여 영역 다양성 제한
  2. 평가 작업 제한: 두 가지 작업에서만 검증하여 광범위한 평가 부족
  3. 계산 오버헤드: 각 문장에 대해 두 개의 임베딩을 생성해야 하므로 계산 비용 증가
  4. 교차 영역 일반화: Wang 등의 데이터셋에서 전문 방법만큼 성능이 좋지 않음

향후 방향

  1. 데이터셋 확장: 혐오 표현 탐지, 감정 분석 등의 데이터를 INLI 형식으로 변환
  2. 대규모 언어 모델 통합: 방법을 대규모 언어 모델로 확장
  3. 실제 응용: 고객 리뷰 분석, 검색 엔진 등의 시나리오에서 검증
  4. 이론 분석: 명시적/암시적 의미 구분의 수학적 성질 심층 연구

심층 평가

장점

  1. 명확한 문제 정의: 기존 방법의 핵심 문제를 정확히 식별
  2. 강한 방법 혁신성: 이중 의미 표현은 새롭고 합리적인 아이디어
  3. 충분한 실험 설계: 주요 실험, 절제 실험, 정성적 분석 포함
  4. 실행 가능한 기술 구현: 두 가지 다른 아키텍처 선택지 제공
  5. 코드 오픈소스: 재현성 향상

부족한 점

  1. 약한 이론적 기초: 명시적/암시적 의미 구분에 대한 이론적 분석 부족
  2. 제한된 평가 범위: 두 가지 작업에서만 검증하여 설득력 부족
  3. 불충분한 기준선 비교: 다른 다중 의미 표현 방법과의 비교 부족
  4. 효율성 분석 누락: 이중 임베딩으로 인한 계산 오버헤드 미분석
  5. 교차 언어 능력 미지: 영어에서만 검증됨

영향력

  1. 학술적 가치: 문장 임베딩 연구에 새로운 관점 제공
  2. 실용적 가치: 암시적 의미 이해가 필요한 NLP 작업에 적용 가능
  3. 영감 제공: 다중 의미 표현에 관한 추가 연구 자극 가능
  4. 한계: 방법의 일반성으로 인한 영향력 제한 가능성

적용 시나리오

  1. 정보 검색: 문자 그대로의 의미와 암시적 의미를 동시에 고려해야 하는 검색
  2. 텍스트 분류: 감정 분석, 의도 인식 등의 작업
  3. 대화 시스템: 사용자의 언외지의 이해
  4. 콘텐츠 검수: 은폐된 부적절한 콘텐츠 탐지
  5. 언어 교육: 언어의 다층적 의미 이해 지원

참고문헌

본 논문은 문장 임베딩, 자연언어 추론, 대조 학습 등 여러 분야의 중요한 연구를 인용하고 있으며, 다음을 포함합니다:

  • Gao et al. (2021): SimCSE 방법
  • Havaldar et al. (2025): INLI 데이터셋
  • Wang et al. (2025): 암시성 점수 평가 방법
  • Reimers and Gurevych (2019): Sentence-BERT

종합 평가: 이는 기술 혁신성이 강한 논문으로, 흥미롭고 실용적인 이중 의미 표현 방법을 제안합니다. 이론적 깊이와 평가 범위에서 개선의 여지가 있지만, 문장 임베딩 연구에 새로운 방향을 제시하며 일정한 학술적 가치와 응용 잠재력을 가지고 있습니다.