2025-11-18T13:10:21.183335

AnglE-optimized Text Embeddings

Li, Li

High-quality text embedding is pivotal in improving semantic textual similarity (STS) tasks, which are crucial components in Large Language Model (LLM) applications. However, a common challenge existing text embedding models face is the problem of vanishing gradients, primarily due to their reliance on the cosine function in the optimization objective, which has saturation zones. To address this issue, this paper proposes a novel angle-optimized text embedding model called AnglE. The core idea of AnglE is to introduce angle optimization in a complex space. This novel approach effectively mitigates the adverse effects of the saturation zone in the cosine function, which can impede gradient and hinder optimization processes. To set up a comprehensive STS evaluation, we experimented on existing short-text STS datasets and a newly collected long-text STS dataset from GitHub Issues. Furthermore, we examine domain-specific STS scenarios with limited labeled data and explore how AnglE works with LLM-annotated data. Extensive experiments were conducted on various tasks including short-text STS, long-text STS, and domain-specific STS tasks. The results show that AnglE outperforms the state-of-the-art (SOTA) STS models that ignore the cosine saturation zone. These findings demonstrate the ability of AnglE to generate high-quality text embeddings and the usefulness of angle optimization in STS.

academic

Incorporamenti di Testo Ottimizzati con AnglE

Informazioni Fondamentali

ID Articolo: 2309.12871
Titolo: AnglE-optimized Text Embeddings
Autori: Xianming Li, Jing Li (Dipartimento di Informatica, Politecnico di Hong Kong)
Classificazione: cs.CL cs.AI cs.LG
Data di Pubblicazione/Conferenza: ACL 2024 (Titolo della versione conferenza: AoE: Angle-optimized Embeddings for Semantic Textual Similarity)
Link Articolo: https://arxiv.org/abs/2309.12871

Riassunto

Gli incorporamenti di testo di alta qualità sono cruciali per migliorare i compiti di somiglianza testuale semantica (STS), che rappresentano un componente fondamentale delle applicazioni di modelli linguistici di grandi dimensioni. Tuttavia, i modelli di incorporamento di testo esistenti affrontano una sfida comune: il problema della scomparsa del gradiente, principalmente dovuto alla loro dipendenza dalla funzione coseno negli obiettivi di ottimizzazione, che presenta regioni di saturazione. Per affrontare questo problema, il presente articolo propone un innovativo modello di incorporamento di testo ottimizzato per angoli denominato AnglE. L'idea centrale di AnglE consiste nell'introdurre l'ottimizzazione degli angoli nello spazio complesso. Questo nuovo approccio mitiga efficacemente gli effetti negativi delle regioni di saturazione della funzione coseno, che ostacolano i gradienti e impediscono il processo di ottimizzazione. Per stabilire una valutazione completa di STS, gli autori hanno condotto esperimenti su dataset STS di testo breve esistenti e su un nuovo dataset STS di testo lungo raccolto da GitHub Issues. Inoltre, sono stati esplorati scenari STS specifici del dominio con dati annotati limitati e come AnglE può essere utilizzato in combinazione con dati annotati da LLM.

Contesto di Ricerca e Motivazione

Definizione del Problema

I modelli di incorporamento di testo soffrono universalmente del problema della scomparsa del gradiente nei compiti di somiglianza testuale semantica, principalmente dovuto alle regioni di saturazione della funzione coseno ampiamente utilizzata negli obiettivi di ottimizzazione.

Importanza del Problema

Esigenze delle Applicazioni LLM: Gli incorporamenti di testo di alta qualità costituiscono la base per le applicazioni di modelli linguistici di grandi dimensioni come ChatGPT e LLaMA, in particolare nella ricerca vettoriale e nei sistemi di domande e risposte
Difficoltà di Ottimizzazione: Le regioni di saturazione della funzione coseno causano gradienti prossimi a zero, rendendo difficile per la rete imparare le sfumature tra i testi
Problemi di Etichettatura dei Dati: Molti dataset STS (come MRPC e QQP) forniscono etichette binarie (0 per non simile, 1 per simile) che naturalmente ricadono nelle regioni di saturazione della funzione coseno

Limitazioni dei Metodi Esistenti

Metodi Non Supervisionati: Modelli di apprendimento contrastivo come SimCSE dipendono dall'aumento dei dati per generare campioni positivi, rendendo difficile garantire la correttezza dei campioni negativi all'interno del batch
Metodi Supervisionati: La maggior parte dei metodi ottimizza solo la somiglianza coseno, ignorando gli effetti negativi delle regioni di saturazione della funzione coseno
Limitazioni di Valutazione: I benchmark STS esistenti si concentrano principalmente su testi brevi, mancando di dataset di valutazione per testi lunghi

Contributi Principali

Propone il Modello AnglE: Primo studio sistematico degli effetti negativi delle regioni di saturazione della funzione coseno sui compiti STS, con proposta di un modello di incorporamento di testo ottimizzato per angoli
Costruisce Dataset di Testo Lungo: Raccolta da GitHub Issues di un dataset STS di testo lungo contenente circa 21K campioni, colmando il vuoto nella valutazione STS di testo lungo
Miglioramento Significativo delle Prestazioni: Supera i modelli SOTA esistenti su compiti STS di testo breve, testo lungo e specifici del dominio
Apprendimento Supervisionato con LLM: Propone un metodo di apprendimento supervisionato utilizzando LLM come annotatore di dati, risolvendo il problema della scarsità di dati annotati nel dominio

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un paio di sequenze di testo, imparare le loro rappresentazioni vettoriali in modo che i testi semanticamente simili siano più vicini nello spazio vettoriale e i testi semanticamente dissimili siano più lontani.

Architettura del Modello

1. Strato di Input

Applicare padding alle sequenze di input per garantire una lunghezza coerente di l
Mappare ogni parola in uno spazio continuo d-dimensionale per ottenere l'incorporamento di parole $e_i \in \mathbb{R}^d$
Concatenare gli incorporamenti di parole per formare l'input del modello: $E = [e_1, e_2, ..., e_l] \in \mathbb{R}^{l \times d}$
Ottenere rappresentazioni contestuali X attraverso un codificatore (BERT, RoBERTa, LLaMA, ecc.)

2. Funzione Obiettivo Coseno

Ottimizzazione end-to-end della somiglianza coseno:

L_cos = log(1 + Σ_{s(X_i,X_j)>s(X_m,X_n)} e^{(cos(X_m,X_n)-cos(X_i,X_j))/τ})

3. Funzione Obiettivo di Campioni Negativi all'Interno del Batch

Utilizzo di campioni positivi supervisionati, identificazione di frasi duplicate all'interno del batch e impostazione come campioni positivi:

L_ibn = -Σ_b Σ_{i=1}^m log(e^{cos(X_{bi},X_{bi}^+)/τ} / Σ_{j=1}^N e^{cos(X_{bi},X_{bj}^+)/τ})

4. Funzione Obiettivo degli Angoli (Innovazione Principale)

Ottimizzazione della differenza angolare nello spazio complesso per mitigare il problema della saturazione della funzione coseno:

Rappresentazione Complessa:

$z = a + bi \in \mathbb{C}$ (dove $a = X_i^{re}, b = X_i^{im}$ )
$w = c + di \in \mathbb{C}$ (dove $c = X_j^{re}, d = X_j^{im}$ )

Divisione Complessa:

z/w = (ac + bd) + (bc - ad)i / (c² + d²)

Differenza Angolare Normalizzata:

Δθ_{zw} = abs([z/w × 1/γ]) = abs([(ac + bd) + (bc - ad)i] / √[(c² + d²)(a² + b²)])

Obiettivo di Ottimizzazione degli Angoli:

L_angle = log(1 + Σ_{s(X_i,X_j)>s(X_m,X_n)} e^{(Δθ_{ij}-Δθ_{mn})/τ})

5. Funzione Obiettivo Congiunta

L = w₁ × L_cos + w₂ × L_ibn + w₃ × L_angle

Punti di Innovazione Tecnica

Ottimizzazione degli Angoli nello Spazio Complesso: Prima introduzione dell'ottimizzazione degli angoli nello spazio complesso negli incorporamenti di testo, risolvendo efficacemente il problema della saturazione della funzione coseno
Addestramento Multi-Obiettivo Congiunto: Combinazione di tre obiettivi: somiglianza coseno, campioni negativi all'interno del batch e ottimizzazione degli angoli
Mitigazione della Regione di Saturazione: Anche nelle regioni di saturazione dove la variazione del coseno è minima (Δy≈0), la differenza angolare nello spazio complesso rimane evidente e può essere utilizzata per l'ottimizzazione

Configurazione Sperimentale

Dataset

Benchmark STS Esistenti

Dataset di Testo Breve: MRPC, QQP, QNLI, STS 2012-2016, SICK-R, STS-B
Modalità di Valutazione: Impostazioni di apprendimento per trasferimento e non per trasferimento

Dataset di Somiglianza GitHub Issues (Nuovo Contributo)

Fonte: GitHub Issues da 55 progetti open-source popolari
Scala: 18.565 coppie nel set di addestramento, 1.547 nel set di validazione, 1.548 nel set di test
Caratteristiche: Oltre il 60% sono testi lunghi (lunghezza token > 512)
Etichette: Issues duplicate come campioni positivi, issues non duplicate come campioni negativi

Metriche di Valutazione

Utilizzo del coefficiente di correlazione di Spearman, calcolato tramite il toolkit SentEval, con impostazione "all" per garantire un confronto equo.

Metodi di Confronto

Modelli Non Supervisionati

GloVe, BERT-flow, BERT-whitening, LLaMA2
Modelli di apprendimento contrastivo: IS-BERT, CT-BERT, SimCSE, ConSERT, DiffCSE

Modelli Supervisionati

InferSent, USE, SBERT, CoSENT
Versioni supervisionate di SimCSE e ConSERT

Dettagli di Implementazione

Modello backbone: BERT-base (110M parametri)
Parametro di temperatura: τ=0.05 per obiettivi coseno e campioni negativi all'interno del batch, τ=1.0 per obiettivo angolare
Impostazione dei pesi: Combinazione ottimale determinata tramite ricerca in griglia

Risultati Sperimentali

Risultati Principali

Compiti STS per Trasferimento

Addestramento su dataset NLI (MNLI+SNLI), trasferimento a 7 benchmark STS:

AnglE-BERT: Punteggio medio 82,37%, miglioramento di 0,80% rispetto al precedente SOTA SimCSE-BERT (81,57%)
AnglE-LLaMA2-7B: Punteggio medio 85,96%, miglioramento di 0,72% rispetto a SimCSE-LLaMA2-7B (85,24%)

Compiti STS Non per Trasferimento

Addestramento sul set di addestramento di ciascun dataset, valutazione sul set di test:

AnglE-BERT: Punteggio medio 73,55%, miglioramento di 5,52% rispetto a SBERT (68,03%)
Supera i modelli baseline su tutti e 5 i dataset
Vantaggio su Testo Lungo: AnglE-RAN supera AnglE-BERT sul dataset GitHub Issues

Esperimenti di Ablazione

Variante del Modello	Punteggio STS-B
AnglE-BERT-all	86,26
- w/o ibn	86,00
- w/o angle	85,30
solo coseno	85,28
solo angolo	85,15

Scoperte Chiave:

L'ottimizzazione degli angoli è più importante dei campioni negativi all'interno del batch (la rimozione dell'ottimizzazione degli angoli causa un calo maggiore)
Le prestazioni utilizzando solo l'ottimizzazione degli angoli sono simili a quelle utilizzando solo l'ottimizzazione coseno
La strategia di pooling "cls" mostra le migliori prestazioni

Esperimenti di Apprendimento Supervisionato con LLM

Utilizzo di LLM (ChatGPT, LLaMA, ChatGLM) per annotare dati pseudo-supervisionati:

AnglE + ChatGPT: 81,52%
AnglE + Ensemble: 82,01%
Entrambi superano il baseline di apprendimento contrastivo non supervisionato (SimCSE: 76,85%)

Analisi di Casi

Compito di Recupero di Testo

Accuratezza ristretta sul dataset flickr30k:

AnglE: 12,9%
SimCSE (supervisionato): 10,4%
SBERT: 5,2%

Analisi della Distribuzione degli Incorporamenti

Attraverso l'analisi del grafico di densità della somiglianza coseno del set di test STS-B:

La distribuzione di AnglE è più vicina alla distribuzione delle etichette reali
Prestazioni migliori nelle regioni di saturazione della funzione coseno (intervalli 0-1 e 4-5)
Dimostra che AnglE mitiga efficacemente gli effetti negativi della regione di saturazione

Lavori Correlati

Metodi Non Supervisionati

Ricerca Iniziale: Incorporamenti word2vec + n-gram
Miglioramenti BERT: BERT-flow (metodo di flusso), BERT-whitening (operazione di sbiancamento)
Apprendimento Contrastivo: SimCSE, ConSERT, DiffCSE e altri che utilizzano obiettivi contrastivi per migliorare gli incorporamenti di testo

Metodi Supervisionati

Utilizzo di NLI: InferSent utilizza compiti di inferenza del linguaggio naturale
Innovazione Architettonica: SBERT combina BERT e architettura siamese
Ingegneria dei Prompt: Ricerche recenti utilizzano l'ingegneria dei prompt per migliorare gli incorporamenti di testo

Posizionamento di Questo Articolo

La maggior parte dei metodi esistenti ottimizza la somiglianza coseno ma ignora gli effetti negativi delle regioni di saturazione della funzione coseno; questo articolo è il primo a affrontare sistematicamente questo problema.

Conclusioni e Discussione

Conclusioni Principali

Problema della Regione di Saturazione: Le regioni di saturazione della funzione coseno ostacolano effettivamente l'ottimizzazione dei modelli di incorporamento di testo
Efficacia dell'Ottimizzazione degli Angoli: L'ottimizzazione degli angoli nello spazio complesso mitiga efficacemente il problema della saturazione
Miglioramento Completo delle Prestazioni: AnglE raggiunge prestazioni SOTA su compiti STS di testo breve, testo lungo e specifici del dominio
Sinergia con LLM: La combinazione di AnglE con dati annotati da LLM fornisce nuovi approcci per l'adattamento al dominio

Limitazioni

Complessità Computazionale: I calcoli nello spazio complesso aumentano il carico computazionale del modello
Sensibilità ai Iperparametri: I pesi dei tre obiettivi di funzione richiedono un'attenta sintonizzazione
Analisi Teorica Insufficiente: Manca un'analisi teorica della convergenza dell'ottimizzazione degli angoli
Portata di Valutazione: La valutazione si concentra principalmente su dataset in lingua inglese; le prestazioni multilingue rimangono sconosciute

Direzioni Future

Esplorare le prestazioni di AnglE in scenari di applicazione pratica
Fornire analisi teoriche e intuizioni più approfondite
Estendere a impostazioni multilingue e cross-lingue
Ottimizzare l'efficienza computazionale

Valutazione Approfondita

Punti di Forza

Identificazione Accurata del Problema: Identifica accuratamente il problema della regione di saturazione della funzione coseno, precedentemente trascurato ma importante
Soluzione Innovativa: L'approccio dell'ottimizzazione degli angoli nello spazio complesso è innovativo ed efficace
Esperimenti Completi: Copre molteplici scenari inclusi testo breve, testo lungo, apprendimento per trasferimento
Contributo del Dataset: Il dataset GitHub Issues colma il vuoto nella valutazione STS di testo lungo
Valore Pratico: Il metodo di apprendimento supervisionato con LLM ha un forte valore di applicazione pratica

Insufficienze

Fondamenti Teorici Deboli: Manca un'analisi teorica approfondita del perché l'ottimizzazione degli angoli risolva il problema della saturazione
Carico Computazionale: Le operazioni complesse aumentano i costi di addestramento e inferenza
Complessità dei Iperparametri: L'equilibrio dei pesi delle tre funzioni di perdita richiede un'ampia sintonizzazione
Confronto Insufficiente: Il confronto con alcuni metodi di incorporamento di testo più recenti non è sufficientemente completo
Generalizzazione da Verificare: La capacità di generalizzazione su più domini e lingue richiede ulteriore verifica

Impatto

Contributo Accademico: Fornisce una nuova prospettiva e metodo per l'ottimizzazione degli incorporamenti di testo
Valore Pratico: Dimostra chiari vantaggi nei compiti STS pratici
Significato Ispiratore: Può ispirare ulteriori ricerche sulla progettazione di funzioni obiettivo di ottimizzazione
Riproducibilità: Il codice è open-source, facilitando la riproduzione e la ricerca ulteriore

Scenari Applicabili

Calcolo della Somiglianza Semantica: Direttamente applicabile a vari compiti di somiglianza testuale semantica
Recupero di Informazioni: Utilizzabile per il recupero di documenti e la raccomandazione di documenti simili
Sistemi di Domande e Risposte: Adatto ai sistemi di domande e risposte basati su recupero
Clustering di Testo: Utilizzabile per il clustering di documenti e la scoperta di argomenti
Applicazioni LLM: Adatto come componente di incorporamento nelle applicazioni di modelli linguistici di grandi dimensioni

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che identifica accuratamente i problemi chiave dei metodi esistenti e propone una soluzione innovativa. Sebbene vi sia spazio per il miglioramento nell'analisi teorica, il miglioramento coerente in più impostazioni sperimentali dimostra l'efficacia del metodo. Questo lavoro ha un importante valore accademico e pratico per il campo degli incorporamenti di testo.