High-quality text embedding is pivotal in improving semantic textual similarity (STS) tasks, which are crucial components in Large Language Model (LLM) applications. However, a common challenge existing text embedding models face is the problem of vanishing gradients, primarily due to their reliance on the cosine function in the optimization objective, which has saturation zones. To address this issue, this paper proposes a novel angle-optimized text embedding model called AnglE. The core idea of AnglE is to introduce angle optimization in a complex space. This novel approach effectively mitigates the adverse effects of the saturation zone in the cosine function, which can impede gradient and hinder optimization processes. To set up a comprehensive STS evaluation, we experimented on existing short-text STS datasets and a newly collected long-text STS dataset from GitHub Issues. Furthermore, we examine domain-specific STS scenarios with limited labeled data and explore how AnglE works with LLM-annotated data. Extensive experiments were conducted on various tasks including short-text STS, long-text STS, and domain-specific STS tasks. The results show that AnglE outperforms the state-of-the-art (SOTA) STS models that ignore the cosine saturation zone. These findings demonstrate the ability of AnglE to generate high-quality text embeddings and the usefulness of angle optimization in STS.
Hochwertige Texteinbettungen sind entscheidend für die Verbesserung von Aufgaben zur semantischen Textähnlichkeit (STS), die eine Kernkomponente von Anwendungen großer Sprachmodelle darstellen. Ein häufiges Problem bei bestehenden Texteinbettungsmodellen ist jedoch das Vanishing-Gradient-Problem, das hauptsächlich dadurch verursacht wird, dass sie sich bei Optimierungszielen auf die Kosinusfunktion verlassen, die Sättigungsbereiche aufweist. Um dieses Problem zu lösen, wird in diesem Papier ein neuartiges winkeloptimiertes Texteinbettungsmodell namens AnglE vorgestellt. Die Kernidee von AnglE besteht darin, die Winkeloptimierung im komplexen Raum einzuführen. Dieser neue Ansatz lindert wirksam die negativen Auswirkungen der Sättigungsbereiche der Kosinusfunktion, die Gradienten blockieren und den Optimierungsprozess behindern. Um eine umfassende STS-Bewertung zu etablieren, führen die Autoren Experimente sowohl auf bestehenden Kurztexte-STS-Datensätzen als auch auf einem neu gesammelten GitHub-Issues-Langtext-STS-Datensatz durch. Darüber hinaus werden domänenspezifische STS-Szenarien mit begrenzten annotierten Daten untersucht sowie die Verwendung von AnglE mit von LLM annotierten Daten.
Texteinbettungsmodelle weisen bei Aufgaben zur semantischen Textähnlichkeit allgemein ein Vanishing-Gradient-Problem auf, das hauptsächlich aus den Sättigungsbereichen der in Optimierungszielen weit verbreiteten Kosinusfunktion herrührt.
LLM-Anwendungsanforderungen: Hochwertige Texteinbettungen bilden die Grundlage für Anwendungen großer Sprachmodelle wie ChatGPT und LLaMA, insbesondere in der Vektorsuche und in Frage-Antwort-Systemen
Optimierungsschwierigkeiten: Die Sättigungsbereiche der Kosinusfunktion führen dazu, dass Gradienten nahe Null sind, was es dem Netzwerk schwer macht, subtile Unterschiede zwischen Texten zu lernen
Datenkennzeichnungsprobleme: Viele STS-Datensätze (wie MRPC, QQP) bieten binäre Kennzeichnungen (0 für unähnlich, 1 für ähnlich), die natürlicherweise in den Sättigungsbereichen der Kosinusfunktion liegen
Unüberwachte Methoden: Kontrastive Lernmodelle wie SimCSE verlassen sich auf Datenerweiterung zur Generierung positiver Stichproben und können die Korrektheit von Negativstichproben innerhalb von Batches nicht garantieren
Überwachte Methoden: Die meisten Methoden optimieren nur die Kosinusähnlichkeit und ignorieren die negativen Auswirkungen der Sättigungsbereiche der Kosinusfunktion
Bewertungseinschränkungen: Bestehende STS-Benchmarks konzentrieren sich hauptsächlich auf Kurztexte und es fehlen Bewertungsdatensätze für Langtexte
Vorstellung des AnglE-Modells: Erste systematische Untersuchung der negativen Auswirkungen der Sättigungsbereiche der Kosinusfunktion auf STS-Aufgaben und Vorschlag eines winkeloptimiertes Texteinbettungsmodells
Konstruktion eines Langtext-Datensatzes: Sammlung eines Langtext-STS-Datensatzes mit etwa 21.000 Stichproben aus GitHub Issues, was die Lücke bei der Bewertung von Langtext-STS schließt
Signifikante Leistungsverbesserung: Übertreffung bestehender SOTA-Modelle bei Kurztexte-, Langtext- und domänenspezifischen STS-Aufgaben
LLM-überwachtes Lernen: Vorschlag einer überwachten Lernmethode unter Verwendung von LLM als Datenannotatoren zur Lösung des Problems der Knappheit von Domänenannotationsdaten
Gegeben zwei Textsequenzen, erlernen Sie ihre Vektordarstellungen so, dass semantisch ähnliche Textpaare im Vektorraum näher beieinander liegen und semantisch unähnliche Textpaare weiter auseinander liegen.
Winkeloptimierung im komplexen Raum: Erstmalige Einführung der Winkeloptimierung im komplexen Raum in Texteinbettungen, die das Sättigungsbereichsproblem der Kosinusfunktion wirksam löst
Kombiniertes Multi-Ziel-Training: Kombination von Kosinusähnlichkeit, Negativstichproben innerhalb von Batches und Winkeloptimierung
Linderung des Sättigungsbereichs: Selbst in Sättigungsbereichen, in denen sich der Kosinuswert kaum ändert (Δy≈0), sind Winkeldifferenzen im komplexen Raum immer noch deutlich und können zur Optimierung verwendet werden
Verwendung des Spearman-Korrelationskoeffizienten, berechnet durch das SentEval-Toolkit mit der "all"-Einstellung zur Gewährleistung eines fairen Vergleichs.
Die meisten bestehenden Methoden optimieren die Kosinusähnlichkeit, ignorieren aber die negativen Auswirkungen der Sättigungsbereiche der Kosinusfunktion. Dieses Papier ist die erste systematische Behandlung dieses Problems.
Semantische Ähnlichkeitsberechnung: Direkt anwendbar auf verschiedene Aufgaben zur semantischen Textähnlichkeit
Informationsabruf: Kann für Dokumentabruf und ähnliche Dokumentempfehlungen verwendet werden
Frage-Antwort-Systeme: Geeignet für abrufbasierte Frage-Antwort-Systeme
Textclustering: Kann für Dokumentclustering und Themenerkennung verwendet werden
LLM-Anwendungen: Geeignet als Einbettungskomponente in LLM-Anwendungen
Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das Schlüsselprobleme bestehender Methoden genau identifiziert und innovative Lösungen vorschlägt. Obwohl es noch Raum für Verbesserungen in der theoretischen Analyse gibt, beweisen die konsistenten Verbesserungen über mehrere experimentelle Einstellungen hinweg die Wirksamkeit der Methode. Diese Arbeit hat wichtigen akademischen und praktischen Wert für das Feld der Texteinbettungen.