Harmonizing Diverse Models: A Layer-wise Merging Strategy for Consistent Generation
Peng, Kumar, Wu et al.
Retrieval-Augmented Generation (RAG) systems leverage Large Language Models (LLMs) to generate accurate and reliable responses that are grounded in retrieved context. However, LLMs often generate inconsistent outputs for semantically equivalent inputs, a problem compounded by the scarcity of consistency-focused training data and the limitations of current fine-tuning techniques in enhancing output consistency. We propose a new approach combining systematic synthetic data generation, triplet loss for better embeddings, and a novel layer-wise model merging approach. Using consistency-aware weights derived from intermediate layer activations, our method effectively integrates knowledge from specialized models. Experimental results how that our merged model significantly enhances output consistency, achieving a ~47.5\% improvement in response similarity over the baseline, thus offering a practical solution for increasing the reliability of an industrial RAG system.
academic
Harmonisierung vielfältiger Modelle: Eine schichtweise Fusionsstrategie für konsistente Generierung
Retrieval-Augmented-Generation-(RAG-)Systeme nutzen große Sprachmodelle (LLMs), um genaue und zuverlässige Antworten basierend auf abgerufenem Kontext zu generieren. Allerdings produzieren LLMs häufig inkonsistente Ausgaben bei semantisch äquivalenten Eingaben. Dieses Problem wird durch den Mangel an konsistenzorientierten Trainingsdaten und die Grenzen aktueller Feinabstimmungstechniken verschärft. Dieses Paper präsentiert einen Ansatz, der systematische Generierung synthetischer Daten, Triplet-Loss und neuartige schichtweise Modellverschmelzung kombiniert. Durch die Verwendung von Konsistenz-bewussten Gewichten, die aus Aktivierungen mittlerer Schichten abgeleitet werden, integriert die Methode effektiv Wissen spezialisierter Modelle. Experimentelle Ergebnisse zeigen, dass das verschmolzene Modell die Ausgabekonsistenz erheblich verbessert und eine 47,5%ige Verbesserung der Antwortähnlichkeit gegenüber der Baseline erreicht.
Die Kernproblematik dieser Forschung ist die Ausgabekonsistenz von Generierungsmodellen in RAG-Systemen. Dies manifestiert sich konkret als:
Semantisch äquivalente Anfragen erzeugen unterschiedliche Antworten: Wie in Abbildung 1 gezeigt, kann bereits die Anwesenheit oder Abwesenheit eines Fragezeichens zu völlig unterschiedlichen Antworten des RAG-Systems führen
Praktische Herausforderungen in der industriellen Bereitstellung: In Produktionsumgebungen stellen vielfältige Varianten von Benutzeranfragen eine Bedrohung für die Systemzuverlässigkeit dar
Zuverlässigkeitsanforderungen: In hochriskanten Bereichen wie Finanzen und Medizin können inkonsistente Antworten das Vertrauen der Benutzer erheblich beeinträchtigen
Praktische Auswirkungen: Das Paper zeigt durch empirische Beobachtungen, dass der Generator empfindlicher auf Anfragevariationen reagiert als der Retriever
Systemstabilität: Ausgabeinkonsistenz beeinträchtigt direkt die Akzeptanz von RAG-Systemen in industriellen Umgebungen
Mangel an Trainingsdaten: Fehlende spezialisierte Trainingsdaten für Konsistenz
Einschränkungen von Feinabstimmungstechniken: Traditionelle Feinabstimmungsmethoden zeigen begrenzte Effektivität bei der Verbesserung der Ausgabekonsistenz
Fehlende Evaluierungsbenchmarks: Mangel an spezialisierten Konsistenz-Evaluierungsbenchmarks und Datensätzen
Klassifizierung von Anfragevarianten: Systematische Identifizierung und Klassifizierung von Anfragevarianten, die zu Antwortinkonsistenzen in industriellen RAG-Systemen führen
Konsistenz-Messsystem: Etablierung eines Konsistenz-Evaluierungssystems mit Metriken wie exakte Übereinstimmung (EM), Antwortähnlichkeit (RS) und BERT-Ähnlichkeit (BS)
Schichtweise Modellverschmelzungsmethode: Vorschlag einer neuartigen schichtweisen Modellverschmelzungsstrategie basierend auf Konsistenz-bewussten Gewichten
Umfassende Lösung: Integration von synthetischer Datengenerierung, Triplet-Loss-Training und Modellverschmelzung in eine vollständige Methodik
Gegeben eine ursprüngliche Anfrage Q und ihre semantisch äquivalente Variante Q', besteht das Ziel darin, dass der Generator des RAG-Systems konsistente Antworten S und S' für beide erzeugt, d.h. die semantische Ähnlichkeit zwischen S und S' maximiert wird, während die Antwortgenauigkeit erhalten bleibt.
Konsistenz-orientierte Gewichtsgestaltung: Erstmalige Vorschlag einer Modellverschmelzungs-Gewichtsberechnungsmethode basierend auf schichtweiser Aktivierungsähnlichkeit
Vielfältige Strategien zur Generierung synthetischer Daten: Anfragevarianten-Generierungsmethoden, die auf industrielle Szenarien zugeschnitten sind
Triplet-Loss-Integration: Einführung von Triplet-Loss aus Metric Learning in LLM-Feinabstimmung zur Verbesserung der Qualität semantischer Darstellungen
Generator vs. Retriever: Validierung der Hypothese, dass der Generator empfindlicher auf Anfragevariationen reagiert als der Retriever
Spezialisierung vs. Verallgemeinerung: Spezialisierte Modelle übertreffen gemeinsam trainierte Modelle bei Genauigkeit, aber gemeinsam trainierte Modelle sind bei Konsistenz überlegen
Einfluss der Modellgröße: Größere Modelle garantieren nicht automatisch bessere Konsistenz
Fehlende Rechenaufwand-Analyse: Keine Analyse der Rechenkomplexität von Schichtgewichtsberechnung und Verschmelzungsprozess
Begrenzte Generalisierungsvalidierung: Hauptsächlich in spezifischen industriellen Szenarien validiert, Generalisierungsfähigkeit über Domänen hinweg zu beweisen
Benchmark-Datenbeschränkungen: Fehlende Validierung auf standardisierten öffentlichen Datensätzen
Das Paper zitiert mehrere wichtige verwandte Arbeiten, darunter:
Lewis et al. (2020): Grundlegende Arbeiten zum RAG-Framework
Yu et al. (2024), Yadav et al. (2023): DARE-TIES-Modellverschmelzungsmethoden
Schroff et al. (2015): Originalarbeiten zu Triplet-Loss
Patwardhan et al. (2024): Definition und Analyse von LLM-Konsistenz
Gesamtbewertung: Dies ist ein hochqualitatives anwendungsorientiertes Forschungspapier, das sich mit praktischen industriellen Problemen befasst und sowohl bei methodischer Innovation als auch bei praktischem Wert signifikante Beiträge leistet. Obwohl es noch Raum für Verbesserungen in theoretischer Tiefe und Generalisierungsvalidierung gibt, hat das gelöste Problem wichtige praktische Bedeutung, und die vorgeschlagene Methode zeigt gute Operabilität und Effektivität.