2025-11-12T19:43:10.253640

Harmonizing Diverse Models: A Layer-wise Merging Strategy for Consistent Generation

Peng, Kumar, Wu et al.

Retrieval-Augmented Generation (RAG) systems leverage Large Language Models (LLMs) to generate accurate and reliable responses that are grounded in retrieved context. However, LLMs often generate inconsistent outputs for semantically equivalent inputs, a problem compounded by the scarcity of consistency-focused training data and the limitations of current fine-tuning techniques in enhancing output consistency. We propose a new approach combining systematic synthetic data generation, triplet loss for better embeddings, and a novel layer-wise model merging approach. Using consistency-aware weights derived from intermediate layer activations, our method effectively integrates knowledge from specialized models. Experimental results how that our merged model significantly enhances output consistency, achieving a ~47.5\% improvement in response similarity over the baseline, thus offering a practical solution for increasing the reliability of an industrial RAG system.

academic

Harmonisierung vielfältiger Modelle: Eine schichtweise Fusionsstrategie für konsistente Generierung

Grundinformationen

Paper-ID: 2510.14915
Titel: Harmonizing Diverse Models: A Layer-wise Merging Strategy for Consistent Generation
Autoren: Xujun Peng, Anoop Kumar, Jingyu Wu, Parker Glenn, Daben Liu (Capital One AI Foundations)
Klassifizierung: cs.CL (Computerlinguistik)
Veröffentlichungsdatum: 16. Oktober 2025 (arXiv-Preprint)
Paper-Link: https://arxiv.org/abs/2510.14915

Zusammenfassung

Retrieval-Augmented-Generation-(RAG-)Systeme nutzen große Sprachmodelle (LLMs), um genaue und zuverlässige Antworten basierend auf abgerufenem Kontext zu generieren. Allerdings produzieren LLMs häufig inkonsistente Ausgaben bei semantisch äquivalenten Eingaben. Dieses Problem wird durch den Mangel an konsistenzorientierten Trainingsdaten und die Grenzen aktueller Feinabstimmungstechniken verschärft. Dieses Paper präsentiert einen Ansatz, der systematische Generierung synthetischer Daten, Triplet-Loss und neuartige schichtweise Modellverschmelzung kombiniert. Durch die Verwendung von Konsistenz-bewussten Gewichten, die aus Aktivierungen mittlerer Schichten abgeleitet werden, integriert die Methode effektiv Wissen spezialisierter Modelle. Experimentelle Ergebnisse zeigen, dass das verschmolzene Modell die Ausgabekonsistenz erheblich verbessert und eine 47,5%ige Verbesserung der Antwortähnlichkeit gegenüber der Baseline erreicht.

Forschungshintergrund und Motivation

Problemdefinition

Die Kernproblematik dieser Forschung ist die Ausgabekonsistenz von Generierungsmodellen in RAG-Systemen. Dies manifestiert sich konkret als:

Semantisch äquivalente Anfragen erzeugen unterschiedliche Antworten: Wie in Abbildung 1 gezeigt, kann bereits die Anwesenheit oder Abwesenheit eines Fragezeichens zu völlig unterschiedlichen Antworten des RAG-Systems führen
Praktische Herausforderungen in der industriellen Bereitstellung: In Produktionsumgebungen stellen vielfältige Varianten von Benutzeranfragen eine Bedrohung für die Systemzuverlässigkeit dar

Bedeutung des Problems

Zuverlässigkeitsanforderungen: In hochriskanten Bereichen wie Finanzen und Medizin können inkonsistente Antworten das Vertrauen der Benutzer erheblich beeinträchtigen
Praktische Auswirkungen: Das Paper zeigt durch empirische Beobachtungen, dass der Generator empfindlicher auf Anfragevariationen reagiert als der Retriever
Systemstabilität: Ausgabeinkonsistenz beeinträchtigt direkt die Akzeptanz von RAG-Systemen in industriellen Umgebungen

Grenzen bestehender Methoden

Mangel an Trainingsdaten: Fehlende spezialisierte Trainingsdaten für Konsistenz
Einschränkungen von Feinabstimmungstechniken: Traditionelle Feinabstimmungsmethoden zeigen begrenzte Effektivität bei der Verbesserung der Ausgabekonsistenz
Fehlende Evaluierungsbenchmarks: Mangel an spezialisierten Konsistenz-Evaluierungsbenchmarks und Datensätzen

Kernbeiträge

Klassifizierung von Anfragevarianten: Systematische Identifizierung und Klassifizierung von Anfragevarianten, die zu Antwortinkonsistenzen in industriellen RAG-Systemen führen
Konsistenz-Messsystem: Etablierung eines Konsistenz-Evaluierungssystems mit Metriken wie exakte Übereinstimmung (EM), Antwortähnlichkeit (RS) und BERT-Ähnlichkeit (BS)
Schichtweise Modellverschmelzungsmethode: Vorschlag einer neuartigen schichtweisen Modellverschmelzungsstrategie basierend auf Konsistenz-bewussten Gewichten
Umfassende Lösung: Integration von synthetischer Datengenerierung, Triplet-Loss-Training und Modellverschmelzung in eine vollständige Methodik

Methodische Details

Aufgabendefinition

Gegeben eine ursprüngliche Anfrage Q und ihre semantisch äquivalente Variante Q', besteht das Ziel darin, dass der Generator des RAG-Systems konsistente Antworten S und S' für beide erzeugt, d.h. die semantische Ähnlichkeit zwischen S und S' maximiert wird, während die Antwortgenauigkeit erhalten bleibt.

Modellarchitektur

1. Strategie zur Generierung synthetischer Daten

Basierend auf der Analyse von Produktionsanfragen werden drei Hauptvariantentypen identifiziert:

How-to/Do-Varianten:

Umformulierung von Methodenfragen
Systematische Generierung mittels regulärer Ausdrücke

Singular/Plural- und Artikel-Varianten:

Numerusveränderungen von Nomen (z.B. "apple" vs "apples")
Artikelveränderungen (z.B. "a", "an", "the")
Zufällige Umwandlung von Singular/Plural und Artikelmodifikation

Semantische Varianten:

Variationen, die die Kernbedeutung bewahren, aber unterschiedliches Vokabular verwenden
Umschreibungsgenerierung mittels Llama-3.1-70B-Instruct

2. Triplet-Loss-Training

Einführung von Triplet-Loss zur Verbesserung der semantischen Darstellungsfähigkeit des Modells:

L(A,P,N) = max(0, d(f(A), f(P)) - d(f(A), f(N)) + α)

Wobei:

A die Anker-Anfrage ist
P die positive Stichprobe (semantisch ähnlich)
N die negative Stichprobe (semantisch unähnlich)
α der Randparameter ist

Die endgültige Verlustfunktion kombiniert Cross-Entropy-Loss und Triplet-Loss:

L = L_CE + α · L_Triplet

3. Schichtweise Modellverschmelzungsalgorithmus

Kernidee: Dynamische Zuweisung von Verschmelzungsgewichten basierend auf dem Beitrag jeder Schicht zur Konsistenz.

Gewichtsberechnungsprozess:

Aktivierungsextraktion: Extraktion der Aktivierungen α_k^(l) jedes Modells k in jeder Schicht l aus dem Entwicklungssatz S_dev
Ähnlichkeitsmatrixberechnung: Berechnung der Ähnlichkeitsmatrix Σ_k^(l) der Aktivierungen
Referenzmatrixkonstruktion: Konstruktion einer Referenz-Ähnlichkeitsmatrix Σ_r mittels Satzencoder
Distanzberechnung: d_k^(l) = |Σ_k^(l) - Σ_r|
Gewichtsnormalisierung: Erhalt der endgültigen Gewichte w_k^(l) durch inverse nichtlineare Normalisierung

Verschmelzungsformel:

θ_merged^(l) = θ_P^(l) + Σ_k w_k^(l) · Δθ_k^(l)

Technische Innovationen

Konsistenz-orientierte Gewichtsgestaltung: Erstmalige Vorschlag einer Modellverschmelzungs-Gewichtsberechnungsmethode basierend auf schichtweiser Aktivierungsähnlichkeit
Vielfältige Strategien zur Generierung synthetischer Daten: Anfragevarianten-Generierungsmethoden, die auf industrielle Szenarien zugeschnitten sind
Triplet-Loss-Integration: Einführung von Triplet-Loss aus Metric Learning in LLM-Feinabstimmung zur Verbesserung der Qualität semantischer Darstellungen

Experimentelle Einrichtung

Datensätze

Basisdaten: 2.738 repräsentative Anfragen mit ihren abgerufenen Kontexten, von Domänenexperten annotiert
Datenaufteilung: 1.421 Trainingsmuster, 1.317 Testmuster
Synthetische Daten:
- 150 "How-to/Do"-Varianten-Anfragen
- 1.421 Umschreibungsanfragen
- 952 Singular/Plural- und Artikel-Varianten-Anfragen
Konsistenz-Testset: 1.579 Varianten (176 "How-to/Do", 912 Umschreibungen, 491 Singular/Plural/Artikel-Variationen)

Evaluierungsmetriken

Genauigkeitsmetriken:

ROUGE-L: Textüberlappungsmessung
BLEU (bis zu 4-Gramm): Wort-Alignment-Messung

Konsistenzmetriken:

Exakte Übereinstimmung (EM): Vollständige Zeichenkettenübereinstimmung
Antwortähnlichkeit (RS): Semantische Äquivalenzbeurteilung basierend auf ROUGE-Schwellenwert
BERT-Ähnlichkeit (BS): Semantische Ähnlichkeit basierend auf BERT

Vergleichsmethoden

Baseline-Modelle (Llama-3.1-8B-Instruct, Gemma-3-12B-Instruct)
Standard-Supervised-Fine-Tuning (SFT)
SFT + Triplet-Loss
Spezialisierte Modelle für einzelne Variantentypen
Gemeinsames Training mit allen Daten

Implementierungsdetails

Basis-Modelle: Llama-3.1-8B-Instruct und Gemma-3-12B-Instruct
Trainings-Epochen: 2
Triplet-Konstruktion: Stichprobenentnahme aus den Top-10 und Bottom-10 Nachbarn des semantischen Merkmalsraums

Experimentelle Ergebnisse

Hauptergebnisse

Ergebnisse des Llama-3.1-8B-Instruct-Modells:

Methode	ROUGE	BLEU	EM	RS	BS
Baseline	0.5123	0.2928	0.1051	0.2799	0.9246
Verschmelzungsmodell	0.5379	0.3380	0.2521	0.4129	0.9292

Wichtigste Erkenntnisse:

Signifikante Konsistenzverbesserung: EM-Verbesserung um 139,87%, RS-Verbesserung um 47,52%
Erhaltung der Genauigkeit: ROUGE und BLEU bleiben auf wettbewerbsfähigem Niveau
Optimales Gleichgewicht: Verschmelzungsmodell erreicht optimale Werte bei allen Konsistenzmetriken

Ergebnisse des Gemma-3-12B-Instruct-Modells:

Ähnliche Verbesserungstrends, die die Universalität der Methode validieren
Größere Modelle zeigen leichte Vorteile bei der Genauigkeit, aber konsistente Verbesserungsmuster bei der Konsistenz

Ablationsstudien

Analyse des Beitrags einzelner Komponenten:

Triplet-Loss-Effekt: Im Vergleich zu Standard-SFT EM-Verbesserung um 73,4%, RS-Verbesserung um 26,1%
Vorteile spezialisierter Modelle: Modelle mit Training auf einzelnen Variantentypen übertreffen die Baseline bei Genauigkeit und Konsistenz
Effekt der Verschmelzungsstrategie: Verschmelzungsmodell übertrifft alle einzelnen Modelle bei Konsistenzmetriken

Experimentelle Erkenntnisse

Generator vs. Retriever: Validierung der Hypothese, dass der Generator empfindlicher auf Anfragevariationen reagiert als der Retriever
Spezialisierung vs. Verallgemeinerung: Spezialisierte Modelle übertreffen gemeinsam trainierte Modelle bei Genauigkeit, aber gemeinsam trainierte Modelle sind bei Konsistenz überlegen
Einfluss der Modellgröße: Größere Modelle garantieren nicht automatisch bessere Konsistenz

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Problemcharakterisierung: Erfolgreiche Identifizierung und Quantifizierung des Konsistenzproblems in industriellen RAG-Systemen
Methodeneffektivität: Die vorgeschlagene schichtweise Verschmelzungsmethode verbessert die Ausgabekonsistenz erheblich (47,5% Verbesserung)
Praktischer Wert: Bietet praktisch umsetzbare Lösungen zur Verbesserung der Zuverlässigkeit industrieller RAG-Systeme

Einschränkungen

Datenbereiche begrenzt: Experimente basieren hauptsächlich auf industriellen Daten, fehlen öffentliche Benchmark-Tests
Retriever-Annahmen: Annahme stabiler Retriever-Ergebnisse, keine Behandlung von Retriever-Inkonsistenz
Modellbereich: Validierung nur auf zwei LLMs, Hyperparameter-Konfiguration bedarf weiterer Erkundung

Zukünftige Richtungen

Öffentliche Benchmark-Konstruktion: Geplante Konstruktion und Veröffentlichung eines Konsistenz-Evaluierungsbenchmarks
Retriever-Konsistenz: Erweiterung auf Retriever-Inkonsistenzprobleme
Adaptive Verschmelzung: Erkundung von Methoden zur dynamischen Anpassung von Verschmelzungsstrategien
Domänenübergreifende Validierung: Validierung der Methodeneffektivität auf mehr öffentlichen Datensätzen

Tiefgehende Bewertung

Stärken

Starke Problembezogenheit: Direkte Lösung praktischer Probleme industrieller RAG-Systeme
Methodische Innovativität: Schichtweise Konsistenz-bewusste Gewichtsgestaltung zeigt Neuheit
Umfassende Experimentalität: Systematische Evaluierung über mehrere Modelle und Metriken
Hoher praktischer Wert: 47,5%ige Konsistenzverbesserung hat signifikante praktische Bedeutung

Mängel

Unzureichende theoretische Analyse: Fehlende tiefere theoretische Erklärung, warum schichtweise Verschmelzung die Konsistenz verbessert
Fehlende Rechenaufwand-Analyse: Keine Analyse der Rechenkomplexität von Schichtgewichtsberechnung und Verschmelzungsprozess
Begrenzte Generalisierungsvalidierung: Hauptsächlich in spezifischen industriellen Szenarien validiert, Generalisierungsfähigkeit über Domänen hinweg zu beweisen
Benchmark-Datenbeschränkungen: Fehlende Validierung auf standardisierten öffentlichen Datensätzen

Einflussfähigkeit

Akademischer Beitrag: Bietet neue technische Wege für LLM-Konsistenzforschung
Industrieller Wert: Löst direkt kritische Probleme bei RAG-Systembereitstellung
Methodische Reproduzierbarkeit: Algorithmusbeschreibung ist relativ klar und reproduzierbar
Inspiration für Folgeforschung: Eröffnet neue Richtungen für Modellverschmelzung und Konsistenzoptimierung

Anwendungsszenarien

Hochzuverlässigkeits-Anforderungsszenarien: Finanzen, Medizin, Rechtswesen und andere Bereiche mit extremen Konsistenzanforderungen
Industrielle RAG-Bereitstellung: Großskalige Produktionsumgebungen für Frage-Antwort-Systeme
Multi-Modell-Integrationsszenarios: Anwendungen, die Wissen mehrerer spezialisierter Modelle integrieren müssen
Benutzerfreundlichkeits-sensitive Anwendungen: Interaktive Systeme mit strikten Anforderungen an Antwortkonsistenz

Literaturverzeichnis

Das Paper zitiert mehrere wichtige verwandte Arbeiten, darunter:

Lewis et al. (2020): Grundlegende Arbeiten zum RAG-Framework
Yu et al. (2024), Yadav et al. (2023): DARE-TIES-Modellverschmelzungsmethoden
Schroff et al. (2015): Originalarbeiten zu Triplet-Loss
Patwardhan et al. (2024): Definition und Analyse von LLM-Konsistenz

Gesamtbewertung: Dies ist ein hochqualitatives anwendungsorientiertes Forschungspapier, das sich mit praktischen industriellen Problemen befasst und sowohl bei methodischer Innovation als auch bei praktischem Wert signifikante Beiträge leistet. Obwohl es noch Raum für Verbesserungen in theoretischer Tiefe und Generalisierungsvalidierung gibt, hat das gelöste Problem wichtige praktische Bedeutung, und die vorgeschlagene Methode zeigt gute Operabilität und Effektivität.