Sentence embedding methods have made remarkable progress, yet they still struggle to capture the implicit semantics within sentences. This can be attributed to the inherent limitations of conventional sentence embedding methods that assign only a single vector per sentence. To overcome this limitation, we propose DualCSE, a sentence embedding method that assigns two embeddings to each sentence: one representing the explicit semantics and the other representing the implicit semantics. These embeddings coexist in the shared space, enabling the selection of the desired semantics for specific purposes such as information retrieval and text classification. Experimental results demonstrate that DualCSE can effectively encode both explicit and implicit meanings and improve the performance of the downstream task.
논문 ID : 2510.09293제목 : One Sentence, Two Embeddings: Contrastive Learning of Explicit and Implicit Semantic Representations저자 : Kohei Oda¹, Po-Min Chuang², Kiyoaki Shirai¹, Natthawut Kertkeidkachorn¹소속 : ¹일본 첨단과학기술연구소, ²도시바 주식회사분류 : cs.CL (계산언어학)발표일 : 2025년 10월 10일논문 링크 : https://arxiv.org/abs/2510.09293v1 문장 임베딩 방법은 상당한 진전을 이루었지만, 문장 내 암시적 의미를 포착하는 데 여전히 어려움이 있습니다. 이는 기존 문장 임베딩 방법이 각 문장에 단일 벡터만 할당하는 근본적인 한계에서 비롯됩니다. 이러한 한계를 극복하기 위해 본 논문은 DualCSE를 제안합니다. 이는 각 문장에 두 개의 임베딩을 할당하는 방법으로, 하나는 명시적 의미를 나타내고 다른 하나는 암시적 의미를 나타냅니다. 이러한 임베딩들은 공유 공간에 공존하여 정보 검색 및 텍스트 분류와 같은 특정 목적에 필요한 의미를 선택할 수 있습니다. 실험 결과는 DualCSE가 명시적 및 암시적 의미를 효과적으로 인코딩하고 하위 작업의 성능을 향상시킬 수 있음을 보여줍니다.
기존 문장 임베딩 방법은 암시적 의미 처리에 있어 상당한 결함을 가지고 있습니다. Sun 등(2025)은 최첨단 문장 임베딩 방법도 MTEB 분류 벤치마크에서 명시적 의미와 암시적 의미 간에 약 20%의 성능 격차가 있음을 지적했습니다.
의미 이해의 완전성 : 자연언어는 문자 그대로의 의미(명시적 의미)와 비유적 또는 화용론적 의미(암시적 의미)를 모두 포함합니다실제 응용 요구사항 : 정보 검색, 텍스트 분류 등의 작업은 다양한 수준의 의미 이해가 필요합니다모델 한계 : 기존 방법은 단일 벡터로만 문장을 표현하여 다중 해석의 존재를 무시합니다단일 벡터 제약 : 각 문장에 하나의 임베딩 벡터만 할당됨의미 혼합 : 명시적 의미와 암시적 의미를 구분할 수 없음표현 능력 부족 : 문장의 다층적 의미를 포착하기 어려움DualCSE 프레임워크 제안 : 각 문장에 대해 명시적 의미와 암시적 의미를 각각 나타내는 두 개의 임베딩 벡터 생성새로운 대조 손실 함수 설계 : 문장 간 관계와 문장 내 관계를 동시에 최적화이중 의미 공유 공간 구축 : 명시적 및 암시적 임베딩이 동일한 공간에서 비교 가능하도록 함방법 유효성 검증 : RTE 및 EIS 작업에서 방법의 우수성 입증암시성 평가 능력 제공 : 문장의 암시 정도를 추정할 수 있음문장 s가 주어졌을 때, DualCSE는 이를 두 개의 임베딩으로 인코딩합니다:
r : 명시적 의미를 나타내는 임베딩u : 암시적 의미를 나타내는 임베딩논문은 두 가지 인코더 아키텍처를 제안합니다:
Cross-encoder :단일 BERT/RoBERTa 모델 사용 "CLS s SEP explicit" 입력으로 명시적 임베딩 r 생성 "CLS s SEP implicit" 입력으로 암시적 임베딩 u 생성 Bi-encoder :두 개의 독립적인 BERT/RoBERTa 모델 사용 각각 r과 u를 생성하도록 훈련 INLI 데이터셋을 기반으로 설계된 손실 함수:
v(h₁,h₂) = e^(sim(h₁,h₂)/τ)
lᵢ = -log(v(rᵢ,r⁺ᵢ₁)/∑ⱼ(v(rᵢ,r⁺ⱼ₁) + v(rᵢ,r⁻ⱼ) + v(rᵢ,uⱼ)))
-log(v(uᵢ,r⁺ᵢ₂)/∑ⱼ(v(uᵢ,r⁺ⱼ₂) + v(uᵢ,r⁻ⱼ) + v(uᵢ,rⱼ)))
-log(v(r⁺ᵢ₁,u⁺ᵢ₁)/∑ⱼv(r⁺ᵢ₁,u⁺ⱼ₁))
-log(v(r⁺ᵢ₂,u⁺ᵢ₂)/∑ⱼv(r⁺ᵢ₂,u⁺ⱼ₂))
-log(v(r⁻ᵢ,u⁻ᵢ)/∑ⱼv(r⁻ᵢ,u⁻ⱼ))
이중 의미 표현 : 단일 벡터 제약을 극복하여 문장에 두 가지 다른 차원의 표현 제공문장 간 및 문장 내 관계 모델링 :
문장 간: 전제는 함축 가정과 유사하고 모순 가정과는 유사하지 않음 문장 내: 가정의 명시적 및 암시적 의미는 유사하고, 전제의 명시적 및 암시적 의미는 상이함 공유 공간 설계 : 다양한 유형의 의미가 동일한 공간에서 비교 가능하도록 함규모 : 훈련 집합 32,000 쌍, 개발 집합 4,000 쌍, 테스트 집합 4,000 쌍특징 : 각 전제에 대해 네 가지 가정 레이블 제공
implied-entailment: 암시적 함축 explicit-entailment: 명시적 함축 neutral: 중립 contradiction: 모순 규모 : 훈련 집합 101,320 쌍, 개발/테스트 집합 각 5,630 쌍용도 : 암시성 점수 작업RTE 작업 : 정확도(Accuracy)EIS 작업 : 정확도(Accuracy)SimCSE (SNLI+MNLI) : 표준 NLI 데이터셋으로 훈련SimCSE (INLI) : INLI 데이터셋으로 훈련한 SimCSEImpScore : 암시성 점수 평가 전용 방법대규모 언어 모델 : GPT-4, Gemini-1.5-Pro 등 참고용기본 모델 : BERT-base, RoBERTa-base배치 크기 : Cross-encoder 64, Bi-encoder 32학습률 : Cross-encoder 5e-5, Bi-encoder 3e-5온도 매개변수 τ : 0.05모델 명시적 암시적 중립 모순 평균 SimCSE (SNLI+MNLI) 79.80 49.00 74.30 67.60 67.68 SimCSE (INLI) 90.60 69.10 66.90 91.00 79.40 DualCSE-Cross 90.20 73.40 68.40 88.70 80.18 DualCSE-Bi 91.90 69.90 72.10 87.60 80.38 Gemini-1.5-Pro 97.90 80.30 92.00 95.40 91.40
모델 INLI Wang 등의 데이셋 LENGTH 99.90 73.37 ImpScore (원본) 80.55 95.20 ImpScore (INLI) 99.97 81.56 DualCSE-Cross 99.97 79.31 DualCSE-Bi 100 77.48
절제 실험은 손실 함수의 각 구성 요소의 중요성을 검증했습니다:
손실 함수 구성 RTE EIS 완전한 DualCSE 80.18 99.97 모순 항 제거 64.57 99.88 문장 내 관계 제거 80.10 92.25 모순 항 및 문장 내 관계 제거 64.68 32.75
발견사항 :
모순 항은 RTE 작업에 더 중요함 문장 내 관계는 EIS 작업에 더 중요함 쿼리 문장 : "She conquered his heart."
명시적 의미 검색 결과 :
"She defeated his heart in battle."(문자 그대로의 전투 의미) "She overcame his cardiac defenses." "She vanquished his emotional barriers." 암시적 의미 검색 결과 :
"She won his affection and love."(사랑의 의미) "She captured his romantic interest." "She gained his deep emotional attachment." BERT 기반 방법 : Sentence-BERT, SimCSE 등대조 학습 : 문장 임베딩에서의 응용다중 의미 표현 : 다중 의미 포착을 시도하는 소수의 연구화용론 연구 : 대화 함축, 간접 언어 행위NLI 확장 : 명시적 추론에서 암시적 추론으로암시성 평가 : 문장의 암시 정도 정량화최초 체계성 : 명시적/암시적 의미의 이중 표현에 특화엔드투엔드 훈련 : 두 가지 의미를 동시에 학습하는 통합 프레임워크높은 실용성 : 다양한 하위 작업에 직접 적용 가능DualCSE 유효성 : RTE 및 EIS 작업에서 기준 방법을 능가이중 표현의 가치 : 명시적 및 암시적 의미의 분리된 표현이 이해에 도움이 됨손실 함수 설계의 타당성 : 문장 간 및 문장 내 관계 모델링이 모두 중요함아키텍처 유연성 : Cross-encoder와 Bi-encoder 모두 효과적으로 작동데이터셋 의존성 : INLI 데이터셋으로만 훈련하여 영역 다양성 제한평가 작업 제한 : 두 가지 작업에서만 검증하여 광범위한 평가 부족계산 오버헤드 : 각 문장에 대해 두 개의 임베딩을 생성해야 하므로 계산 비용 증가교차 영역 일반화 : Wang 등의 데이터셋에서 전문 방법만큼 성능이 좋지 않음데이터셋 확장 : 혐오 표현 탐지, 감정 분석 등의 데이터를 INLI 형식으로 변환대규모 언어 모델 통합 : 방법을 대규모 언어 모델로 확장실제 응용 : 고객 리뷰 분석, 검색 엔진 등의 시나리오에서 검증이론 분석 : 명시적/암시적 의미 구분의 수학적 성질 심층 연구명확한 문제 정의 : 기존 방법의 핵심 문제를 정확히 식별강한 방법 혁신성 : 이중 의미 표현은 새롭고 합리적인 아이디어충분한 실험 설계 : 주요 실험, 절제 실험, 정성적 분석 포함실행 가능한 기술 구현 : 두 가지 다른 아키텍처 선택지 제공코드 오픈소스 : 재현성 향상약한 이론적 기초 : 명시적/암시적 의미 구분에 대한 이론적 분석 부족제한된 평가 범위 : 두 가지 작업에서만 검증하여 설득력 부족불충분한 기준선 비교 : 다른 다중 의미 표현 방법과의 비교 부족효율성 분석 누락 : 이중 임베딩으로 인한 계산 오버헤드 미분석교차 언어 능력 미지 : 영어에서만 검증됨학술적 가치 : 문장 임베딩 연구에 새로운 관점 제공실용적 가치 : 암시적 의미 이해가 필요한 NLP 작업에 적용 가능영감 제공 : 다중 의미 표현에 관한 추가 연구 자극 가능한계 : 방법의 일반성으로 인한 영향력 제한 가능성정보 검색 : 문자 그대로의 의미와 암시적 의미를 동시에 고려해야 하는 검색텍스트 분류 : 감정 분석, 의도 인식 등의 작업대화 시스템 : 사용자의 언외지의 이해콘텐츠 검수 : 은폐된 부적절한 콘텐츠 탐지언어 교육 : 언어의 다층적 의미 이해 지원본 논문은 문장 임베딩, 자연언어 추론, 대조 학습 등 여러 분야의 중요한 연구를 인용하고 있으며, 다음을 포함합니다:
Gao et al. (2021): SimCSE 방법 Havaldar et al. (2025): INLI 데이터셋 Wang et al. (2025): 암시성 점수 평가 방법 Reimers and Gurevych (2019): Sentence-BERT 종합 평가 : 이는 기술 혁신성이 강한 논문으로, 흥미롭고 실용적인 이중 의미 표현 방법을 제안합니다. 이론적 깊이와 평가 범위에서 개선의 여지가 있지만, 문장 임베딩 연구에 새로운 방향을 제시하며 일정한 학술적 가치와 응용 잠재력을 가지고 있습니다.