High-quality text embedding is pivotal in improving semantic textual similarity (STS) tasks, which are crucial components in Large Language Model (LLM) applications. However, a common challenge existing text embedding models face is the problem of vanishing gradients, primarily due to their reliance on the cosine function in the optimization objective, which has saturation zones. To address this issue, this paper proposes a novel angle-optimized text embedding model called AnglE. The core idea of AnglE is to introduce angle optimization in a complex space. This novel approach effectively mitigates the adverse effects of the saturation zone in the cosine function, which can impede gradient and hinder optimization processes. To set up a comprehensive STS evaluation, we experimented on existing short-text STS datasets and a newly collected long-text STS dataset from GitHub Issues. Furthermore, we examine domain-specific STS scenarios with limited labeled data and explore how AnglE works with LLM-annotated data. Extensive experiments were conducted on various tasks including short-text STS, long-text STS, and domain-specific STS tasks. The results show that AnglE outperforms the state-of-the-art (SOTA) STS models that ignore the cosine saturation zone. These findings demonstrate the ability of AnglE to generate high-quality text embeddings and the usefulness of angle optimization in STS.
Les plongements de texte de haute qualité sont essentiels pour améliorer les tâches de similarité textuelle sémantique (STS), qui constituent un composant fondamental des applications de modèles de langage volumineux. Cependant, les modèles de plongement de texte existants font face à un défi commun : le problème de la disparition du gradient, principalement dû à leur dépendance envers la fonction cosinus dans les objectifs d'optimisation, laquelle présente des régions de saturation. Pour résoudre ce problème, cet article propose un nouveau modèle de plongement de texte optimisé par angle appelé AnglE. L'idée centrale d'AnglE est d'introduire l'optimisation d'angle dans l'espace complexe. Cette nouvelle approche atténue efficacement les effets négatifs des régions de saturation de la fonction cosinus, qui entravent le gradient et entravent le processus d'optimisation. Pour établir une évaluation complète de STS, les auteurs ont mené des expériences sur les ensembles de données STS de texte court existants et un nouvel ensemble de données STS de texte long collecté à partir de GitHub Issues. De plus, des scénarios STS spécifiques à un domaine avec des données annotées limitées ont été explorés, ainsi que la manière dont AnglE peut être utilisé en conjonction avec les données annotées par LLM.
Les modèles de plongement de texte souffrent universellement du problème de disparition du gradient dans les tâches de similarité textuelle sémantique, principalement en raison des régions de saturation de la fonction cosinus largement utilisée dans les objectifs d'optimisation.
Besoins des applications LLM: Les plongements de texte de haute qualité constituent la base des applications de modèles de langage volumineux tels que ChatGPT et LLaMA, en particulier dans la recherche vectorielle et les systèmes de questions-réponses
Difficultés d'optimisation: Les régions de saturation de la fonction cosinus entraînent un gradient proche de zéro, ce qui rend difficile pour le réseau d'apprendre les différences subtiles entre les textes
Problèmes d'étiquetage des données: De nombreux ensembles de données STS (tels que MRPC, QQP) fournissent des étiquettes binaires (0 pour non similaire, 1 pour similaire) qui se situent naturellement dans les régions de saturation de la fonction cosinus
Méthodes non supervisées: Les modèles d'apprentissage contrastif tels que SimCSE dépendent de l'augmentation des données pour générer des échantillons positifs, ce qui rend difficile de garantir l'exactitude des échantillons négatifs intra-batch
Méthodes supervisées: La plupart des méthodes optimisent uniquement la similarité cosinus, ignorant les effets négatifs des régions de saturation de la fonction cosinus
Limitations d'évaluation: Les repères STS existants se concentrent principalement sur les textes courts, manquant d'ensembles de données d'évaluation pour les textes longs
Proposition du modèle AnglE: Première étude systématique des effets négatifs des régions de saturation de la fonction cosinus sur les tâches STS, avec proposition d'un modèle de plongement de texte optimisé par angle
Construction d'un ensemble de données de texte long: Collecte d'un ensemble de données STS de texte long contenant environ 21 000 échantillons à partir de GitHub Issues, comblant le vide dans l'évaluation STS de texte long
Amélioration significative des performances: Surpasse les modèles SOTA existants sur les tâches STS de texte court, texte long et spécifiques à un domaine
Apprentissage supervisé par LLM: Proposition d'une méthode d'apprentissage supervisé utilisant LLM comme annotateur de données, résolvant le problème de rareté des données annotées dans les domaines
Étant donné deux séquences de texte, apprendre leurs représentations vectorielles de sorte que les paires de texte sémantiquement similaires soient plus proches dans l'espace vectoriel, tandis que les paires sémantiquement dissimilaires soient plus éloignées.
Optimisation d'Angle dans l'Espace Complexe: Introduction pour la première fois de l'optimisation d'angle dans l'espace complexe pour les plongements de texte, résolvant efficacement le problème des régions de saturation cosinus
Entraînement Multi-Objectif Conjoint: Combinaison de trois objectifs : similarité cosinus, échantillons négatifs intra-batch et optimisation d'angle
Atténuation des Régions de Saturation: Même dans les régions de saturation où le changement de cosinus est minime (Δy≈0), les différences d'angle dans l'espace complexe restent évidentes et peuvent être utilisées pour l'optimisation
Utilisation du coefficient de corrélation de Spearman, calculé via la boîte à outils SentEval, en utilisant le paramètre "all" pour assurer une comparaison équitable.
L'optimisation d'angle est plus importante que les échantillons négatifs intra-batch (la suppression de l'optimisation d'angle entraîne une baisse plus importante)
Les performances utilisant uniquement l'optimisation d'angle sont proches de celles utilisant uniquement l'optimisation cosinus
La stratégie de pooling "cls" offre les meilleures performances
La plupart des méthodes existantes optimisent la similarité cosinus mais ignorent les effets négatifs des régions de saturation de la fonction cosinus. Cet article est le premier travail abordant systématiquement ce problème.
Problème des Régions de Saturation: Les régions de saturation de la fonction cosinus entravent effectivement l'optimisation des modèles de plongement de texte
Efficacité de l'Optimisation d'Angle: L'optimisation d'angle dans l'espace complexe atténue efficacement le problème des régions de saturation
Amélioration Complète des Performances: AnglE atteint des performances SOTA sur les tâches STS de texte court, texte long et spécifiques à un domaine
Synergie avec LLM: La combinaison d'AnglE avec les données annotées par LLM offre de nouvelles perspectives pour l'adaptation de domaine
Calcul de Similarité Sémantique: Directement applicable aux diverses tâches de similarité textuelle sémantique
Récupération d'Informations: Utilisable pour la récupération de documents et la recommandation de documents similaires
Systèmes de Questions-Réponses: Applicable aux systèmes de questions-réponses basés sur la récupération
Clustering de Texte: Utilisable pour le clustering de documents et la découverte de sujets
Applications LLM: Convient comme composant d'incorporation dans les applications de modèles de langage volumineux
Évaluation Globale: Cet article est un travail de recherche de haute qualité qui identifie avec précision les problèmes clés des méthodes existantes et propose une solution innovante. Bien qu'il y ait de la place pour l'amélioration dans l'analyse théorique, les améliorations cohérentes dans plusieurs configurations expérimentales prouvent l'efficacité de la méthode. Ce travail possède une valeur académique et pratique importante pour le domaine des plongements de texte.