Harmonizing Diverse Models: A Layer-wise Merging Strategy for Consistent Generation
Peng, Kumar, Wu et al.
Retrieval-Augmented Generation (RAG) systems leverage Large Language Models (LLMs) to generate accurate and reliable responses that are grounded in retrieved context. However, LLMs often generate inconsistent outputs for semantically equivalent inputs, a problem compounded by the scarcity of consistency-focused training data and the limitations of current fine-tuning techniques in enhancing output consistency. We propose a new approach combining systematic synthetic data generation, triplet loss for better embeddings, and a novel layer-wise model merging approach. Using consistency-aware weights derived from intermediate layer activations, our method effectively integrates knowledge from specialized models. Experimental results how that our merged model significantly enhances output consistency, achieving a ~47.5\% improvement in response similarity over the baseline, thus offering a practical solution for increasing the reliability of an industrial RAG system.
academic
Armonizzazione di Modelli Diversi: Una Strategia di Fusione Layer-wise per la Generazione Coerente
I sistemi di generazione aumentata da recupero (RAG) utilizzano modelli linguistici di grandi dimensioni (LLM) per generare risposte accurate e affidabili basate su contesti recuperati. Tuttavia, gli LLM spesso producono output incoerenti di fronte a input semanticamente equivalenti, un problema aggravato dalla scarsità di dati di addestramento orientati alla coerenza e dalle limitazioni delle tecniche di fine-tuning attuali nel migliorare la coerenza dell'output. Questo articolo propone un approccio che combina la generazione sistematica di dati sintetici, la perdita tripla e una nuova fusione di modelli layer-wise. Utilizzando pesi consapevoli della coerenza derivati dalle attivazioni dei layer intermedi, il metodo integra efficacemente la conoscenza da modelli specializzati. I risultati sperimentali dimostrano che il modello fuso migliora significativamente la coerenza dell'output, raggiungendo un miglioramento del 47,5% nella similarità delle risposte rispetto alla baseline.
La ricerca affronta il problema centrale della coerenza dell'output nei sistemi RAG. Si manifesta specificamente come:
Query semanticamente equivalenti producono risposte diverse: Come mostrato nella Figura 1, la semplice presenza o assenza di un punto interrogativo può portare il sistema RAG a fornire risposte completamente diverse
Sfide pratiche nel deployment industriale: Negli ambienti di produzione, le varianti diversificate delle query degli utenti rappresentano una minaccia per l'affidabilità del sistema
Requisiti di affidabilità: In settori ad alto rischio come finanza, medicina e diritto, le risposte incoerenti compromettono gravemente la fiducia degli utenti
Impatto pratico: L'articolo osserva empiricamente che il generatore è più sensibile alle variazioni di query rispetto al recuperatore
Stabilità del sistema: L'incoerenza dell'output influisce direttamente sull'adozione dei sistemi RAG negli ambienti industriali
Classificazione delle varianti di query: Identificazione e classificazione sistematica dei tipi di varianti di query che causano incoerenza nelle risposte dei sistemi RAG industriali
Sistema di metriche di coerenza: Istituzione di metriche di valutazione della coerenza che includono corrispondenza esatta (EM), similarità delle risposte (RS) e similarità BERT (BS)
Metodo di fusione di modelli layer-wise: Proposta di una strategia innovativa di fusione di modelli layer-wise basata su pesi consapevoli della coerenza
Soluzione integrata: Integrazione della generazione di dati sintetici, addestramento con perdita tripla e fusione di modelli in una metodologia completa
Data una query originale Q e la sua variante semanticamente equivalente Q', l'obiettivo è fare in modo che il generatore del sistema RAG produca risposte coerenti S e S' per entrambe, massimizzando la similarità semantica tra S e S' mantenendo al contempo l'accuratezza della risposta.
Progettazione dei pesi orientata alla coerenza: Prima proposta di un metodo di calcolo dei pesi di fusione di modelli basato sulla similarità delle attivazioni layer-wise
Strategia di dati sintetici diversificata: Metodo di generazione di varianti di query progettato per le caratteristiche dei scenari industriali
Integrazione della perdita tripla: Introduzione della perdita tripla dall'apprendimento metrico nel fine-tuning di LLM per migliorare la qualità della rappresentazione semantica
Generatore vs Recuperatore: Convalida dell'ipotesi che il generatore sia più sensibile alle variazioni di query rispetto al recuperatore
Specializzazione vs Generalizzazione: I modelli specializzati superano i modelli di addestramento congiunto in accuratezza, ma l'addestramento congiunto è superiore in coerenza
Impatto della dimensione del modello: Modelli più grandi non garantiscono automaticamente una migliore coerenza
Analisi teorica insufficiente: Manca una spiegazione teorica profonda del perché la fusione layer-wise migliori la coerenza
Analisi del costo computazionale assente: Non analizza la complessità computazionale del calcolo dei pesi layer-wise e del processo di fusione
Verifica della capacità di generalizzazione limitata: La convalida avviene principalmente in scenari industriali specifici, la capacità di generalizzazione cross-domain rimane da provare
Limitazioni dei dati di benchmark: Manca la convalida su dataset pubblici standard
L'articolo cita numerosi lavori correlati importanti, tra cui:
Lewis et al. (2020): Lavoro fondamentale sul framework RAG
Yu et al. (2024), Yadav et al. (2023): Metodo di fusione di modelli DARE-TIES
Schroff et al. (2015): Lavoro originale sulla perdita tripla
Patwardhan et al. (2024): Definizione e analisi della coerenza degli LLM
Valutazione complessiva: Questo è un articolo di ricerca applicata di alta qualità che affronta problemi industriali reali, con contributi significativi sia nell'innovazione metodologica che nel valore pratico. Sebbene vi sia spazio per miglioramenti nella profondità teorica e nella convalida della generalizzazione, il problema affrontato ha un'importanza pratica significativa e il metodo proposto ha buona operabilità ed efficacia.