2025-11-12T19:43:10.253640

Harmonizing Diverse Models: A Layer-wise Merging Strategy for Consistent Generation

Peng, Kumar, Wu et al.

Retrieval-Augmented Generation (RAG) systems leverage Large Language Models (LLMs) to generate accurate and reliable responses that are grounded in retrieved context. However, LLMs often generate inconsistent outputs for semantically equivalent inputs, a problem compounded by the scarcity of consistency-focused training data and the limitations of current fine-tuning techniques in enhancing output consistency. We propose a new approach combining systematic synthetic data generation, triplet loss for better embeddings, and a novel layer-wise model merging approach. Using consistency-aware weights derived from intermediate layer activations, our method effectively integrates knowledge from specialized models. Experimental results how that our merged model significantly enhances output consistency, achieving a ~47.5\% improvement in response similarity over the baseline, thus offering a practical solution for increasing the reliability of an industrial RAG system.

academic

Armonizzazione di Modelli Diversi: Una Strategia di Fusione Layer-wise per la Generazione Coerente

Informazioni Fondamentali

ID Articolo: 2510.14915
Titolo: Harmonizing Diverse Models: A Layer-wise Merging Strategy for Consistent Generation
Autori: Xujun Peng, Anoop Kumar, Jingyu Wu, Parker Glenn, Daben Liu (Capital One AI Foundations)
Classificazione: cs.CL (Linguistica Computazionale)
Data di Pubblicazione: 16 ottobre 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2510.14915

Riassunto

I sistemi di generazione aumentata da recupero (RAG) utilizzano modelli linguistici di grandi dimensioni (LLM) per generare risposte accurate e affidabili basate su contesti recuperati. Tuttavia, gli LLM spesso producono output incoerenti di fronte a input semanticamente equivalenti, un problema aggravato dalla scarsità di dati di addestramento orientati alla coerenza e dalle limitazioni delle tecniche di fine-tuning attuali nel migliorare la coerenza dell'output. Questo articolo propone un approccio che combina la generazione sistematica di dati sintetici, la perdita tripla e una nuova fusione di modelli layer-wise. Utilizzando pesi consapevoli della coerenza derivati dalle attivazioni dei layer intermedi, il metodo integra efficacemente la conoscenza da modelli specializzati. I risultati sperimentali dimostrano che il modello fuso migliora significativamente la coerenza dell'output, raggiungendo un miglioramento del 47,5% nella similarità delle risposte rispetto alla baseline.

Contesto di Ricerca e Motivazione

Definizione del Problema

La ricerca affronta il problema centrale della coerenza dell'output nei sistemi RAG. Si manifesta specificamente come:

Query semanticamente equivalenti producono risposte diverse: Come mostrato nella Figura 1, la semplice presenza o assenza di un punto interrogativo può portare il sistema RAG a fornire risposte completamente diverse
Sfide pratiche nel deployment industriale: Negli ambienti di produzione, le varianti diversificate delle query degli utenti rappresentano una minaccia per l'affidabilità del sistema

Importanza del Problema

Requisiti di affidabilità: In settori ad alto rischio come finanza, medicina e diritto, le risposte incoerenti compromettono gravemente la fiducia degli utenti
Impatto pratico: L'articolo osserva empiricamente che il generatore è più sensibile alle variazioni di query rispetto al recuperatore
Stabilità del sistema: L'incoerenza dell'output influisce direttamente sull'adozione dei sistemi RAG negli ambienti industriali

Limitazioni degli Approcci Esistenti

Scarsità di dati di addestramento: Mancanza di dati di addestramento specificamente orientati alla coerenza
Limitazioni delle tecniche di fine-tuning: I metodi tradizionali di fine-tuning hanno effetti limitati nel migliorare la coerenza dell'output
Assenza di benchmark di valutazione: Mancanza di benchmark e dataset specializzati per la valutazione della coerenza

Contributi Principali

Classificazione delle varianti di query: Identificazione e classificazione sistematica dei tipi di varianti di query che causano incoerenza nelle risposte dei sistemi RAG industriali
Sistema di metriche di coerenza: Istituzione di metriche di valutazione della coerenza che includono corrispondenza esatta (EM), similarità delle risposte (RS) e similarità BERT (BS)
Metodo di fusione di modelli layer-wise: Proposta di una strategia innovativa di fusione di modelli layer-wise basata su pesi consapevoli della coerenza
Soluzione integrata: Integrazione della generazione di dati sintetici, addestramento con perdita tripla e fusione di modelli in una metodologia completa

Spiegazione Dettagliata del Metodo

Definizione del Compito

Data una query originale Q e la sua variante semanticamente equivalente Q', l'obiettivo è fare in modo che il generatore del sistema RAG produca risposte coerenti S e S' per entrambe, massimizzando la similarità semantica tra S e S' mantenendo al contempo l'accuratezza della risposta.

Architettura del Modello

1. Strategia di Generazione di Dati Sintetici

Basata sull'analisi delle query di produzione, sono state identificate tre classi principali di varianti:

Varianti "How to/do":

Riformulazione di problemi metodologici
Generazione sistematica utilizzando regole di espressioni regolari

Varianti singolare/plurale e articoli:

Variazioni nel numero dei nomi (ad es. "apple" vs "apples")
Variazioni nell'uso degli articoli (ad es. "a", "an", "the")
Scambio casuale di forme singolari/plurali e modifica degli articoli

Varianti semantiche:

Variazioni che mantengono il significato centrale ma utilizzano vocabolario diverso
Generazione di parafrasi utilizzando Llama-3.1-70B-Instruct

2. Addestramento con Perdita Tripla

Introduzione della perdita tripla per migliorare la capacità di rappresentazione semantica del modello:

L(A,P,N) = max(0, d(f(A), f(P)) - d(f(A), f(N)) + α)

Dove:

A è la query di ancoraggio
P è il campione positivo (semanticamente simile)
N è il campione negativo (semanticamente dissimile)
α è il parametro di margine

La funzione di perdita finale combina la perdita di entropia incrociata e la perdita tripla:

L = L_CE + α · L_Triplet

3. Algoritmo di Fusione di Modelli Layer-wise

Idea centrale: Assegnazione dinamica dei pesi di fusione in base al contributo di ogni layer alla coerenza.

Flusso di calcolo dei pesi:

Estrazione delle attivazioni: Estrazione delle attivazioni α_k^(l) di ogni modello k per ogni layer l dal set di sviluppo S_dev
Calcolo della matrice di similarità: Calcolo della matrice di similarità Σ_k^(l) delle attivazioni
Costruzione della matrice di riferimento: Utilizzo di un codificatore di frasi per costruire la matrice di similarità di riferimento Σ_r
Calcolo della distanza: d_k^(l) = |Σ_k^(l) - Σ_r|
Normalizzazione dei pesi: Ottenimento dei pesi finali w_k^(l) attraverso normalizzazione non lineare inversa

Formula di fusione:

θ_merged^(l) = θ_P^(l) + Σ_k w_k^(l) · Δθ_k^(l)

Punti di Innovazione Tecnica

Progettazione dei pesi orientata alla coerenza: Prima proposta di un metodo di calcolo dei pesi di fusione di modelli basato sulla similarità delle attivazioni layer-wise
Strategia di dati sintetici diversificata: Metodo di generazione di varianti di query progettato per le caratteristiche dei scenari industriali
Integrazione della perdita tripla: Introduzione della perdita tripla dall'apprendimento metrico nel fine-tuning di LLM per migliorare la qualità della rappresentazione semantica

Configurazione Sperimentale

Dataset

Dati di base: 2.738 query rappresentative e relativi contesti recuperati, annotati da esperti di dominio
Divisione dei dati: 1.421 campioni di addestramento, 1.317 campioni di test
Dati sintetici:
- 150 query varianti "how to/do"
- 1.421 query parafrasi
- 952 query varianti singolare/plurale e articoli
Set di test di coerenza: 1.579 varianti (176 "how to/do", 912 parafrasi, 491 variazioni singolare/plurale/articoli)

Metriche di Valutazione

Metriche di accuratezza:

ROUGE-L: Misura di sovrapposizione del testo
BLEU (fino a 4-gram): Misura di allineamento lessicale

Metriche di coerenza:

Corrispondenza Esatta (EM): Corrispondenza esatta di stringhe
Similarità delle Risposte (RS): Giudizio di equivalenza semantica basato su soglia ROUGE
Similarità BERT (BS): Similarità semantica basata su BERT

Metodi di Confronto

Modello baseline (Llama-3.1-8B-Instruct, Gemma-3-12B-Instruct)
Fine-tuning supervisionato standard (SFT)
SFT + perdita tripla
Modelli specializzati per singolo tipo di variante
Modello di addestramento congiunto su tutti i dati

Dettagli di Implementazione

Modelli di base: Llama-3.1-8B-Instruct e Gemma-3-12B-Instruct
Epoche di addestramento: 2
Costruzione tripla: Campionamento dai vicini top-10 e bottom-10 nello spazio delle caratteristiche semantiche

Risultati Sperimentali

Risultati Principali

Risultati del modello Llama-3.1-8B-Instruct:

Metodo	ROUGE	BLEU	EM	RS	BS
Baseline	0.5123	0.2928	0.1051	0.2799	0.9246
Modello Fuso	0.5379	0.3380	0.2521	0.4129	0.9292

Scoperte chiave:

Miglioramento significativo della coerenza: EM aumenta del 139,87%, RS aumenta del 47,52%
Mantenimento dell'accuratezza: ROUGE e BLEU mantengono livelli competitivi
Equilibrio ottimale: Il modello fuso raggiunge prestazioni ottimali su tutti gli indicatori di coerenza

Risultati del modello Gemma-3-12B-Instruct:

Tendenze di miglioramento simili, che convalidano l'universalità del metodo
I modelli più grandi mostrano un leggero vantaggio in accuratezza, ma i modelli di miglioramento della coerenza rimangono coerenti

Esperimenti di Ablazione

Analisi del contributo dei componenti:

Effetto della perdita tripla: Rispetto all'SFT standard, EM aumenta del 73,4%, RS aumenta del 26,1%
Vantaggi dei modelli specializzati: I modelli addestrati su singole varianti superano la baseline sia in accuratezza che in coerenza
Effetto della strategia di fusione: Il modello fuso supera tutti i modelli singoli negli indicatori di coerenza

Scoperte Sperimentali

Generatore vs Recuperatore: Convalida dell'ipotesi che il generatore sia più sensibile alle variazioni di query rispetto al recuperatore
Specializzazione vs Generalizzazione: I modelli specializzati superano i modelli di addestramento congiunto in accuratezza, ma l'addestramento congiunto è superiore in coerenza
Impatto della dimensione del modello: Modelli più grandi non garantiscono automaticamente una migliore coerenza

Lavori Correlati

Definizione e Valutazione della Coerenza

Fondamenti teorici: Basati sulla definizione di equivalenza semantica di Patwardhan et al.
Metodi di valutazione: Riferimento al framework di misurazione della coerenza semantica di Raj et al.
Valutazione automatizzata: Riferimento agli strumenti di valutazione della coerenza di Zhao et al.

Miglioramento della Coerenza degli LLM

Ingegneria dei prompt: Metodo di auto-coerenza di Wang et al.
Dati sintetici: Metodo di prompt multi-step e dati sintetici di Raj et al.
Metodi di ensemble: Metodo di ensemble basato su logit di Wu et al.

Tecniche di Fusione di Modelli

Metodi di base: Algoritmo di fusione DARE-TIES
Media ponderata: Limitazioni delle tecniche tradizionali di fusione di modelli
Operazioni nello spazio dei parametri: Operazioni sulle differenze di parametri piuttosto che su pesi assoluti

Conclusioni e Discussione

Conclusioni Principali

Caratterizzazione del problema: Identificazione e quantificazione riuscita del problema di coerenza nei sistemi RAG industriali
Efficacia del metodo: Il metodo di fusione layer-wise proposto migliora significativamente la coerenza dell'output (miglioramento del 47,5%)
Valore pratico: Fornisce una soluzione praticabile per migliorare l'affidabilità dei sistemi RAG industriali

Limitazioni

Limitazioni dell'ambito dei dati: Gli esperimenti si basano principalmente su dati industriali, mancano test su benchmark pubblici
Ipotesi del recuperatore: Assume la stabilità dei risultati del recuperatore, non affronta l'incoerenza del recupero
Ambito dei modelli: Convalidato solo su due LLM, la configurazione degli iperparametri richiede ulteriore esplorazione

Direzioni Future

Costruzione di benchmark pubblici: Piano di costruire e rilasciare pubblicamente un benchmark di valutazione della coerenza
Coerenza del recupero: Estensione al problema dell'incoerenza del recuperatore
Fusione adattiva: Esplorazione di metodi per regolare dinamicamente la strategia di fusione
Convalida cross-domain: Convalida del metodo su più dataset pubblici

Valutazione Approfondita

Punti di Forza

Forte specificità del problema: Affronta direttamente i punti critici dei sistemi RAG industriali
Innovazione del metodo: La progettazione dei pesi di coerenza layer-wise è innovativa
Completezza sperimentale: Valutazione sistematica che copre più modelli e metriche
Alto valore pratico: Il miglioramento della coerenza del 47,5% ha significato pratico considerevole

Carenze

Analisi teorica insufficiente: Manca una spiegazione teorica profonda del perché la fusione layer-wise migliori la coerenza
Analisi del costo computazionale assente: Non analizza la complessità computazionale del calcolo dei pesi layer-wise e del processo di fusione
Verifica della capacità di generalizzazione limitata: La convalida avviene principalmente in scenari industriali specifici, la capacità di generalizzazione cross-domain rimane da provare
Limitazioni dei dati di benchmark: Manca la convalida su dataset pubblici standard

Impatto

Contributo accademico: Fornisce un nuovo percorso tecnico per la ricerca sulla coerenza degli LLM
Valore industriale: Affronta direttamente i problemi critici nel deployment dei sistemi RAG
Riproducibilità del metodo: La descrizione dell'algoritmo è relativamente chiara e riproducibile
Ispirazione per ricerche successive: Apre nuove direzioni per la fusione di modelli e l'ottimizzazione della coerenza

Scenari Applicabili

Scenari che richiedono alta affidabilità: Domini come finanza, medicina e diritto dove la coerenza è critica
Deployment di RAG industriali: Sistemi di domande e risposte su larga scala in ambienti di produzione
Scenari di integrazione multi-modello: Applicazioni che richiedono l'integrazione della conoscenza da modelli specializzati
Applicazioni sensibili all'esperienza utente: Sistemi interattivi con requisiti rigorosi di coerenza delle risposte

Bibliografia

L'articolo cita numerosi lavori correlati importanti, tra cui:

Lewis et al. (2020): Lavoro fondamentale sul framework RAG
Yu et al. (2024), Yadav et al. (2023): Metodo di fusione di modelli DARE-TIES
Schroff et al. (2015): Lavoro originale sulla perdita tripla
Patwardhan et al. (2024): Definizione e analisi della coerenza degli LLM

Valutazione complessiva: Questo è un articolo di ricerca applicata di alta qualità che affronta problemi industriali reali, con contributi significativi sia nell'innovazione metodologica che nel valore pratico. Sebbene vi sia spazio per miglioramenti nella profondità teorica e nella convalida della generalizzazione, il problema affrontato ha un'importanza pratica significativa e il metodo proposto ha buona operabilità ed efficacia.