High-quality text embedding is pivotal in improving semantic textual similarity (STS) tasks, which are crucial components in Large Language Model (LLM) applications. However, a common challenge existing text embedding models face is the problem of vanishing gradients, primarily due to their reliance on the cosine function in the optimization objective, which has saturation zones. To address this issue, this paper proposes a novel angle-optimized text embedding model called AnglE. The core idea of AnglE is to introduce angle optimization in a complex space. This novel approach effectively mitigates the adverse effects of the saturation zone in the cosine function, which can impede gradient and hinder optimization processes. To set up a comprehensive STS evaluation, we experimented on existing short-text STS datasets and a newly collected long-text STS dataset from GitHub Issues. Furthermore, we examine domain-specific STS scenarios with limited labeled data and explore how AnglE works with LLM-annotated data. Extensive experiments were conducted on various tasks including short-text STS, long-text STS, and domain-specific STS tasks. The results show that AnglE outperforms the state-of-the-art (SOTA) STS models that ignore the cosine saturation zone. These findings demonstrate the ability of AnglE to generate high-quality text embeddings and the usefulness of angle optimization in STS.
고품질의 텍스트 임베딩은 의미론적 텍스트 유사성(STS) 작업 개선에 필수적이며, STS 작업은 대규모 언어 모델 응용의 핵심 구성 요소입니다. 그러나 기존 텍스트 임베딩 모델이 직면한 공통적인 과제는 기울기 소실 문제로, 이는 주로 최적화 목표에서 포화 영역을 가진 코사인 함수에 대한 의존성으로 인해 발생합니다. 이 문제를 해결하기 위해 본 논문은 새로운 각도 최적화 텍스트 임베딩 모델인 AnglE을 제안합니다. AnglE의 핵심 아이디어는 복소수 공간에서 각도 최적화를 도입하는 것입니다. 이 새로운 방법은 코사인 함수의 포화 영역의 부정적 영향을 효과적으로 완화하며, 이 포화 영역은 기울기를 방해하고 최적화 과정을 저해합니다. 포괄적인 STS 평가를 수립하기 위해 저자들은 기존의 단문 STS 데이터셋과 새로 수집한 GitHub Issues 장문 STS 데이터셋에서 실험을 수행했습니다. 또한 주석 데이터가 제한된 도메인 특화 STS 시나리오와 AnglE이 LLM 주석 데이터와 어떻게 함께 작동하는지를 탐구했습니다.
전체 평가: 이는 고품질의 연구 논문으로, 기존 방법의 핵심 문제를 정확히 식별하고 혁신적인 해결책을 제시합니다. 이론 분석 측면에서 개선의 여지가 있지만, 여러 실험 설정에서의 일관된 개선은 방법의 효과성을 증명합니다. 이 연구는 텍스트 임베딩 분야에 중요한 학술적 및 실용적 가치를 가집니다.