2025-11-12T19:43:10.253640

Harmonizing Diverse Models: A Layer-wise Merging Strategy for Consistent Generation

Peng, Kumar, Wu et al.
Retrieval-Augmented Generation (RAG) systems leverage Large Language Models (LLMs) to generate accurate and reliable responses that are grounded in retrieved context. However, LLMs often generate inconsistent outputs for semantically equivalent inputs, a problem compounded by the scarcity of consistency-focused training data and the limitations of current fine-tuning techniques in enhancing output consistency. We propose a new approach combining systematic synthetic data generation, triplet loss for better embeddings, and a novel layer-wise model merging approach. Using consistency-aware weights derived from intermediate layer activations, our method effectively integrates knowledge from specialized models. Experimental results how that our merged model significantly enhances output consistency, achieving a ~47.5\% improvement in response similarity over the baseline, thus offering a practical solution for increasing the reliability of an industrial RAG system.
academic

Harmonisierung vielfältiger Modelle: Eine schichtweise Fusionsstrategie für konsistente Generierung

Grundinformationen

  • Paper-ID: 2510.14915
  • Titel: Harmonizing Diverse Models: A Layer-wise Merging Strategy for Consistent Generation
  • Autoren: Xujun Peng, Anoop Kumar, Jingyu Wu, Parker Glenn, Daben Liu (Capital One AI Foundations)
  • Klassifizierung: cs.CL (Computerlinguistik)
  • Veröffentlichungsdatum: 16. Oktober 2025 (arXiv-Preprint)
  • Paper-Link: https://arxiv.org/abs/2510.14915

Zusammenfassung

Retrieval-Augmented-Generation-(RAG-)Systeme nutzen große Sprachmodelle (LLMs), um genaue und zuverlässige Antworten basierend auf abgerufenem Kontext zu generieren. Allerdings produzieren LLMs häufig inkonsistente Ausgaben bei semantisch äquivalenten Eingaben. Dieses Problem wird durch den Mangel an konsistenzorientierten Trainingsdaten und die Grenzen aktueller Feinabstimmungstechniken verschärft. Dieses Paper präsentiert einen Ansatz, der systematische Generierung synthetischer Daten, Triplet-Loss und neuartige schichtweise Modellverschmelzung kombiniert. Durch die Verwendung von Konsistenz-bewussten Gewichten, die aus Aktivierungen mittlerer Schichten abgeleitet werden, integriert die Methode effektiv Wissen spezialisierter Modelle. Experimentelle Ergebnisse zeigen, dass das verschmolzene Modell die Ausgabekonsistenz erheblich verbessert und eine 47,5%ige Verbesserung der Antwortähnlichkeit gegenüber der Baseline erreicht.

Forschungshintergrund und Motivation

Problemdefinition

Die Kernproblematik dieser Forschung ist die Ausgabekonsistenz von Generierungsmodellen in RAG-Systemen. Dies manifestiert sich konkret als:

  1. Semantisch äquivalente Anfragen erzeugen unterschiedliche Antworten: Wie in Abbildung 1 gezeigt, kann bereits die Anwesenheit oder Abwesenheit eines Fragezeichens zu völlig unterschiedlichen Antworten des RAG-Systems führen
  2. Praktische Herausforderungen in der industriellen Bereitstellung: In Produktionsumgebungen stellen vielfältige Varianten von Benutzeranfragen eine Bedrohung für die Systemzuverlässigkeit dar

Bedeutung des Problems

  1. Zuverlässigkeitsanforderungen: In hochriskanten Bereichen wie Finanzen und Medizin können inkonsistente Antworten das Vertrauen der Benutzer erheblich beeinträchtigen
  2. Praktische Auswirkungen: Das Paper zeigt durch empirische Beobachtungen, dass der Generator empfindlicher auf Anfragevariationen reagiert als der Retriever
  3. Systemstabilität: Ausgabeinkonsistenz beeinträchtigt direkt die Akzeptanz von RAG-Systemen in industriellen Umgebungen

Grenzen bestehender Methoden

  1. Mangel an Trainingsdaten: Fehlende spezialisierte Trainingsdaten für Konsistenz
  2. Einschränkungen von Feinabstimmungstechniken: Traditionelle Feinabstimmungsmethoden zeigen begrenzte Effektivität bei der Verbesserung der Ausgabekonsistenz
  3. Fehlende Evaluierungsbenchmarks: Mangel an spezialisierten Konsistenz-Evaluierungsbenchmarks und Datensätzen

Kernbeiträge

  1. Klassifizierung von Anfragevarianten: Systematische Identifizierung und Klassifizierung von Anfragevarianten, die zu Antwortinkonsistenzen in industriellen RAG-Systemen führen
  2. Konsistenz-Messsystem: Etablierung eines Konsistenz-Evaluierungssystems mit Metriken wie exakte Übereinstimmung (EM), Antwortähnlichkeit (RS) und BERT-Ähnlichkeit (BS)
  3. Schichtweise Modellverschmelzungsmethode: Vorschlag einer neuartigen schichtweisen Modellverschmelzungsstrategie basierend auf Konsistenz-bewussten Gewichten
  4. Umfassende Lösung: Integration von synthetischer Datengenerierung, Triplet-Loss-Training und Modellverschmelzung in eine vollständige Methodik

Methodische Details

Aufgabendefinition

Gegeben eine ursprüngliche Anfrage Q und ihre semantisch äquivalente Variante Q', besteht das Ziel darin, dass der Generator des RAG-Systems konsistente Antworten S und S' für beide erzeugt, d.h. die semantische Ähnlichkeit zwischen S und S' maximiert wird, während die Antwortgenauigkeit erhalten bleibt.

Modellarchitektur

1. Strategie zur Generierung synthetischer Daten

Basierend auf der Analyse von Produktionsanfragen werden drei Hauptvariantentypen identifiziert:

How-to/Do-Varianten:

  • Umformulierung von Methodenfragen
  • Systematische Generierung mittels regulärer Ausdrücke

Singular/Plural- und Artikel-Varianten:

  • Numerusveränderungen von Nomen (z.B. "apple" vs "apples")
  • Artikelveränderungen (z.B. "a", "an", "the")
  • Zufällige Umwandlung von Singular/Plural und Artikelmodifikation

Semantische Varianten:

  • Variationen, die die Kernbedeutung bewahren, aber unterschiedliches Vokabular verwenden
  • Umschreibungsgenerierung mittels Llama-3.1-70B-Instruct

2. Triplet-Loss-Training

Einführung von Triplet-Loss zur Verbesserung der semantischen Darstellungsfähigkeit des Modells:

L(A,P,N) = max(0, d(f(A), f(P)) - d(f(A), f(N)) + α)

Wobei:

  • A die Anker-Anfrage ist
  • P die positive Stichprobe (semantisch ähnlich)
  • N die negative Stichprobe (semantisch unähnlich)
  • α der Randparameter ist

Die endgültige Verlustfunktion kombiniert Cross-Entropy-Loss und Triplet-Loss:

L = L_CE + α · L_Triplet

3. Schichtweise Modellverschmelzungsalgorithmus

Kernidee: Dynamische Zuweisung von Verschmelzungsgewichten basierend auf dem Beitrag jeder Schicht zur Konsistenz.

Gewichtsberechnungsprozess:

  1. Aktivierungsextraktion: Extraktion der Aktivierungen α_k^(l) jedes Modells k in jeder Schicht l aus dem Entwicklungssatz S_dev
  2. Ähnlichkeitsmatrixberechnung: Berechnung der Ähnlichkeitsmatrix Σ_k^(l) der Aktivierungen
  3. Referenzmatrixkonstruktion: Konstruktion einer Referenz-Ähnlichkeitsmatrix Σ_r mittels Satzencoder
  4. Distanzberechnung: d_k^(l) = |Σ_k^(l) - Σ_r|
  5. Gewichtsnormalisierung: Erhalt der endgültigen Gewichte w_k^(l) durch inverse nichtlineare Normalisierung

Verschmelzungsformel:

θ_merged^(l) = θ_P^(l) + Σ_k w_k^(l) · Δθ_k^(l)

Technische Innovationen

  1. Konsistenz-orientierte Gewichtsgestaltung: Erstmalige Vorschlag einer Modellverschmelzungs-Gewichtsberechnungsmethode basierend auf schichtweiser Aktivierungsähnlichkeit
  2. Vielfältige Strategien zur Generierung synthetischer Daten: Anfragevarianten-Generierungsmethoden, die auf industrielle Szenarien zugeschnitten sind
  3. Triplet-Loss-Integration: Einführung von Triplet-Loss aus Metric Learning in LLM-Feinabstimmung zur Verbesserung der Qualität semantischer Darstellungen

Experimentelle Einrichtung

Datensätze

  • Basisdaten: 2.738 repräsentative Anfragen mit ihren abgerufenen Kontexten, von Domänenexperten annotiert
  • Datenaufteilung: 1.421 Trainingsmuster, 1.317 Testmuster
  • Synthetische Daten:
    • 150 "How-to/Do"-Varianten-Anfragen
    • 1.421 Umschreibungsanfragen
    • 952 Singular/Plural- und Artikel-Varianten-Anfragen
  • Konsistenz-Testset: 1.579 Varianten (176 "How-to/Do", 912 Umschreibungen, 491 Singular/Plural/Artikel-Variationen)

Evaluierungsmetriken

Genauigkeitsmetriken:

  • ROUGE-L: Textüberlappungsmessung
  • BLEU (bis zu 4-Gramm): Wort-Alignment-Messung

Konsistenzmetriken:

  • Exakte Übereinstimmung (EM): Vollständige Zeichenkettenübereinstimmung
  • Antwortähnlichkeit (RS): Semantische Äquivalenzbeurteilung basierend auf ROUGE-Schwellenwert
  • BERT-Ähnlichkeit (BS): Semantische Ähnlichkeit basierend auf BERT

Vergleichsmethoden

  • Baseline-Modelle (Llama-3.1-8B-Instruct, Gemma-3-12B-Instruct)
  • Standard-Supervised-Fine-Tuning (SFT)
  • SFT + Triplet-Loss
  • Spezialisierte Modelle für einzelne Variantentypen
  • Gemeinsames Training mit allen Daten

Implementierungsdetails

  • Basis-Modelle: Llama-3.1-8B-Instruct und Gemma-3-12B-Instruct
  • Trainings-Epochen: 2
  • Triplet-Konstruktion: Stichprobenentnahme aus den Top-10 und Bottom-10 Nachbarn des semantischen Merkmalsraums

Experimentelle Ergebnisse

Hauptergebnisse

Ergebnisse des Llama-3.1-8B-Instruct-Modells:

MethodeROUGEBLEUEMRSBS
Baseline0.51230.29280.10510.27990.9246
Verschmelzungsmodell0.53790.33800.25210.41290.9292

Wichtigste Erkenntnisse:

  • Signifikante Konsistenzverbesserung: EM-Verbesserung um 139,87%, RS-Verbesserung um 47,52%
  • Erhaltung der Genauigkeit: ROUGE und BLEU bleiben auf wettbewerbsfähigem Niveau
  • Optimales Gleichgewicht: Verschmelzungsmodell erreicht optimale Werte bei allen Konsistenzmetriken

Ergebnisse des Gemma-3-12B-Instruct-Modells:

  • Ähnliche Verbesserungstrends, die die Universalität der Methode validieren
  • Größere Modelle zeigen leichte Vorteile bei der Genauigkeit, aber konsistente Verbesserungsmuster bei der Konsistenz

Ablationsstudien

Analyse des Beitrags einzelner Komponenten:

  1. Triplet-Loss-Effekt: Im Vergleich zu Standard-SFT EM-Verbesserung um 73,4%, RS-Verbesserung um 26,1%
  2. Vorteile spezialisierter Modelle: Modelle mit Training auf einzelnen Variantentypen übertreffen die Baseline bei Genauigkeit und Konsistenz
  3. Effekt der Verschmelzungsstrategie: Verschmelzungsmodell übertrifft alle einzelnen Modelle bei Konsistenzmetriken

Experimentelle Erkenntnisse

  1. Generator vs. Retriever: Validierung der Hypothese, dass der Generator empfindlicher auf Anfragevariationen reagiert als der Retriever
  2. Spezialisierung vs. Verallgemeinerung: Spezialisierte Modelle übertreffen gemeinsam trainierte Modelle bei Genauigkeit, aber gemeinsam trainierte Modelle sind bei Konsistenz überlegen
  3. Einfluss der Modellgröße: Größere Modelle garantieren nicht automatisch bessere Konsistenz

Verwandte Arbeiten

Konsistenz-Definition und Evaluierung

  • Theoretische Grundlagen: Basierend auf der Semantik-Äquivalenz-Definition von Patwardhan et al.
  • Evaluierungsmethoden: Anlehnung an das semantische Konsistenz-Messsystem von Raj et al.
  • Automatisierte Evaluierung: Referenzierung von Konsistenz-Evaluierungswerkzeugen von Zhao et al.

LLM-Konsistenzverbesserung

  • Prompt-Engineering: Self-Consistency-Methode von Wang et al.
  • Synthetische Daten: Multi-Step-Prompting und synthetische Datenmethoden von Raj et al.
  • Ensemble-Methoden: Logit-basierte Ensemble-Methoden von Wu et al.

Modellverschmelzungstechniken

  • Grundmethoden: DARE-TIES-Verschmelzungsalgorithmus
  • Gewichtsdurchschnitt: Grenzen traditioneller Modellverschmelzungstechniken
  • Parameterraum-Operationen: Operationen auf Parameterdifferenzen statt absoluten Gewichten

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Problemcharakterisierung: Erfolgreiche Identifizierung und Quantifizierung des Konsistenzproblems in industriellen RAG-Systemen
  2. Methodeneffektivität: Die vorgeschlagene schichtweise Verschmelzungsmethode verbessert die Ausgabekonsistenz erheblich (47,5% Verbesserung)
  3. Praktischer Wert: Bietet praktisch umsetzbare Lösungen zur Verbesserung der Zuverlässigkeit industrieller RAG-Systeme

Einschränkungen

  1. Datenbereiche begrenzt: Experimente basieren hauptsächlich auf industriellen Daten, fehlen öffentliche Benchmark-Tests
  2. Retriever-Annahmen: Annahme stabiler Retriever-Ergebnisse, keine Behandlung von Retriever-Inkonsistenz
  3. Modellbereich: Validierung nur auf zwei LLMs, Hyperparameter-Konfiguration bedarf weiterer Erkundung

Zukünftige Richtungen

  1. Öffentliche Benchmark-Konstruktion: Geplante Konstruktion und Veröffentlichung eines Konsistenz-Evaluierungsbenchmarks
  2. Retriever-Konsistenz: Erweiterung auf Retriever-Inkonsistenzprobleme
  3. Adaptive Verschmelzung: Erkundung von Methoden zur dynamischen Anpassung von Verschmelzungsstrategien
  4. Domänenübergreifende Validierung: Validierung der Methodeneffektivität auf mehr öffentlichen Datensätzen

Tiefgehende Bewertung

Stärken

  1. Starke Problembezogenheit: Direkte Lösung praktischer Probleme industrieller RAG-Systeme
  2. Methodische Innovativität: Schichtweise Konsistenz-bewusste Gewichtsgestaltung zeigt Neuheit
  3. Umfassende Experimentalität: Systematische Evaluierung über mehrere Modelle und Metriken
  4. Hoher praktischer Wert: 47,5%ige Konsistenzverbesserung hat signifikante praktische Bedeutung

Mängel

  1. Unzureichende theoretische Analyse: Fehlende tiefere theoretische Erklärung, warum schichtweise Verschmelzung die Konsistenz verbessert
  2. Fehlende Rechenaufwand-Analyse: Keine Analyse der Rechenkomplexität von Schichtgewichtsberechnung und Verschmelzungsprozess
  3. Begrenzte Generalisierungsvalidierung: Hauptsächlich in spezifischen industriellen Szenarien validiert, Generalisierungsfähigkeit über Domänen hinweg zu beweisen
  4. Benchmark-Datenbeschränkungen: Fehlende Validierung auf standardisierten öffentlichen Datensätzen

Einflussfähigkeit

  1. Akademischer Beitrag: Bietet neue technische Wege für LLM-Konsistenzforschung
  2. Industrieller Wert: Löst direkt kritische Probleme bei RAG-Systembereitstellung
  3. Methodische Reproduzierbarkeit: Algorithmusbeschreibung ist relativ klar und reproduzierbar
  4. Inspiration für Folgeforschung: Eröffnet neue Richtungen für Modellverschmelzung und Konsistenzoptimierung

Anwendungsszenarien

  1. Hochzuverlässigkeits-Anforderungsszenarien: Finanzen, Medizin, Rechtswesen und andere Bereiche mit extremen Konsistenzanforderungen
  2. Industrielle RAG-Bereitstellung: Großskalige Produktionsumgebungen für Frage-Antwort-Systeme
  3. Multi-Modell-Integrationsszenarios: Anwendungen, die Wissen mehrerer spezialisierter Modelle integrieren müssen
  4. Benutzerfreundlichkeits-sensitive Anwendungen: Interaktive Systeme mit strikten Anforderungen an Antwortkonsistenz

Literaturverzeichnis

Das Paper zitiert mehrere wichtige verwandte Arbeiten, darunter:

  • Lewis et al. (2020): Grundlegende Arbeiten zum RAG-Framework
  • Yu et al. (2024), Yadav et al. (2023): DARE-TIES-Modellverschmelzungsmethoden
  • Schroff et al. (2015): Originalarbeiten zu Triplet-Loss
  • Patwardhan et al. (2024): Definition und Analyse von LLM-Konsistenz

Gesamtbewertung: Dies ist ein hochqualitatives anwendungsorientiertes Forschungspapier, das sich mit praktischen industriellen Problemen befasst und sowohl bei methodischer Innovation als auch bei praktischem Wert signifikante Beiträge leistet. Obwohl es noch Raum für Verbesserungen in theoretischer Tiefe und Generalisierungsvalidierung gibt, hat das gelöste Problem wichtige praktische Bedeutung, und die vorgeschlagene Methode zeigt gute Operabilität und Effektivität.