High-quality text embedding is pivotal in improving semantic textual similarity (STS) tasks, which are crucial components in Large Language Model (LLM) applications. However, a common challenge existing text embedding models face is the problem of vanishing gradients, primarily due to their reliance on the cosine function in the optimization objective, which has saturation zones. To address this issue, this paper proposes a novel angle-optimized text embedding model called AnglE. The core idea of AnglE is to introduce angle optimization in a complex space. This novel approach effectively mitigates the adverse effects of the saturation zone in the cosine function, which can impede gradient and hinder optimization processes. To set up a comprehensive STS evaluation, we experimented on existing short-text STS datasets and a newly collected long-text STS dataset from GitHub Issues. Furthermore, we examine domain-specific STS scenarios with limited labeled data and explore how AnglE works with LLM-annotated data. Extensive experiments were conducted on various tasks including short-text STS, long-text STS, and domain-specific STS tasks. The results show that AnglE outperforms the state-of-the-art (SOTA) STS models that ignore the cosine saturation zone. These findings demonstrate the ability of AnglE to generate high-quality text embeddings and the usefulness of angle optimization in STS.
Gli incorporamenti di testo di alta qualità sono cruciali per migliorare i compiti di somiglianza testuale semantica (STS), che rappresentano un componente fondamentale delle applicazioni di modelli linguistici di grandi dimensioni. Tuttavia, i modelli di incorporamento di testo esistenti affrontano una sfida comune: il problema della scomparsa del gradiente, principalmente dovuto alla loro dipendenza dalla funzione coseno negli obiettivi di ottimizzazione, che presenta regioni di saturazione. Per affrontare questo problema, il presente articolo propone un innovativo modello di incorporamento di testo ottimizzato per angoli denominato AnglE. L'idea centrale di AnglE consiste nell'introdurre l'ottimizzazione degli angoli nello spazio complesso. Questo nuovo approccio mitiga efficacemente gli effetti negativi delle regioni di saturazione della funzione coseno, che ostacolano i gradienti e impediscono il processo di ottimizzazione. Per stabilire una valutazione completa di STS, gli autori hanno condotto esperimenti su dataset STS di testo breve esistenti e su un nuovo dataset STS di testo lungo raccolto da GitHub Issues. Inoltre, sono stati esplorati scenari STS specifici del dominio con dati annotati limitati e come AnglE può essere utilizzato in combinazione con dati annotati da LLM.
I modelli di incorporamento di testo soffrono universalmente del problema della scomparsa del gradiente nei compiti di somiglianza testuale semantica, principalmente dovuto alle regioni di saturazione della funzione coseno ampiamente utilizzata negli obiettivi di ottimizzazione.
Esigenze delle Applicazioni LLM: Gli incorporamenti di testo di alta qualità costituiscono la base per le applicazioni di modelli linguistici di grandi dimensioni come ChatGPT e LLaMA, in particolare nella ricerca vettoriale e nei sistemi di domande e risposte
Difficoltà di Ottimizzazione: Le regioni di saturazione della funzione coseno causano gradienti prossimi a zero, rendendo difficile per la rete imparare le sfumature tra i testi
Problemi di Etichettatura dei Dati: Molti dataset STS (come MRPC e QQP) forniscono etichette binarie (0 per non simile, 1 per simile) che naturalmente ricadono nelle regioni di saturazione della funzione coseno
Metodi Non Supervisionati: Modelli di apprendimento contrastivo come SimCSE dipendono dall'aumento dei dati per generare campioni positivi, rendendo difficile garantire la correttezza dei campioni negativi all'interno del batch
Metodi Supervisionati: La maggior parte dei metodi ottimizza solo la somiglianza coseno, ignorando gli effetti negativi delle regioni di saturazione della funzione coseno
Limitazioni di Valutazione: I benchmark STS esistenti si concentrano principalmente su testi brevi, mancando di dataset di valutazione per testi lunghi
Propone il Modello AnglE: Primo studio sistematico degli effetti negativi delle regioni di saturazione della funzione coseno sui compiti STS, con proposta di un modello di incorporamento di testo ottimizzato per angoli
Costruisce Dataset di Testo Lungo: Raccolta da GitHub Issues di un dataset STS di testo lungo contenente circa 21K campioni, colmando il vuoto nella valutazione STS di testo lungo
Miglioramento Significativo delle Prestazioni: Supera i modelli SOTA esistenti su compiti STS di testo breve, testo lungo e specifici del dominio
Apprendimento Supervisionato con LLM: Propone un metodo di apprendimento supervisionato utilizzando LLM come annotatore di dati, risolvendo il problema della scarsità di dati annotati nel dominio
Dato un paio di sequenze di testo, imparare le loro rappresentazioni vettoriali in modo che i testi semanticamente simili siano più vicini nello spazio vettoriale e i testi semanticamente dissimili siano più lontani.
Ottimizzazione degli Angoli nello Spazio Complesso: Prima introduzione dell'ottimizzazione degli angoli nello spazio complesso negli incorporamenti di testo, risolvendo efficacemente il problema della saturazione della funzione coseno
Addestramento Multi-Obiettivo Congiunto: Combinazione di tre obiettivi: somiglianza coseno, campioni negativi all'interno del batch e ottimizzazione degli angoli
Mitigazione della Regione di Saturazione: Anche nelle regioni di saturazione dove la variazione del coseno è minima (Δy≈0), la differenza angolare nello spazio complesso rimane evidente e può essere utilizzata per l'ottimizzazione
L'ottimizzazione degli angoli è più importante dei campioni negativi all'interno del batch (la rimozione dell'ottimizzazione degli angoli causa un calo maggiore)
Le prestazioni utilizzando solo l'ottimizzazione degli angoli sono simili a quelle utilizzando solo l'ottimizzazione coseno
La strategia di pooling "cls" mostra le migliori prestazioni
La maggior parte dei metodi esistenti ottimizza la somiglianza coseno ma ignora gli effetti negativi delle regioni di saturazione della funzione coseno; questo articolo è il primo a affrontare sistematicamente questo problema.
Problema della Regione di Saturazione: Le regioni di saturazione della funzione coseno ostacolano effettivamente l'ottimizzazione dei modelli di incorporamento di testo
Efficacia dell'Ottimizzazione degli Angoli: L'ottimizzazione degli angoli nello spazio complesso mitiga efficacemente il problema della saturazione
Miglioramento Completo delle Prestazioni: AnglE raggiunge prestazioni SOTA su compiti STS di testo breve, testo lungo e specifici del dominio
Sinergia con LLM: La combinazione di AnglE con dati annotati da LLM fornisce nuovi approcci per l'adattamento al dominio
Identificazione Accurata del Problema: Identifica accuratamente il problema della regione di saturazione della funzione coseno, precedentemente trascurato ma importante
Soluzione Innovativa: L'approccio dell'ottimizzazione degli angoli nello spazio complesso è innovativo ed efficace
Calcolo della Somiglianza Semantica: Direttamente applicabile a vari compiti di somiglianza testuale semantica
Recupero di Informazioni: Utilizzabile per il recupero di documenti e la raccomandazione di documenti simili
Sistemi di Domande e Risposte: Adatto ai sistemi di domande e risposte basati su recupero
Clustering di Testo: Utilizzabile per il clustering di documenti e la scoperta di argomenti
Applicazioni LLM: Adatto come componente di incorporamento nelle applicazioni di modelli linguistici di grandi dimensioni
Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che identifica accuratamente i problemi chiave dei metodi esistenti e propone una soluzione innovativa. Sebbene vi sia spazio per il miglioramento nell'analisi teorica, il miglioramento coerente in più impostazioni sperimentali dimostra l'efficacia del metodo. Questo lavoro ha un importante valore accademico e pratico per il campo degli incorporamenti di testo.