2025-11-12T19:43:10.253640

Harmonizing Diverse Models: A Layer-wise Merging Strategy for Consistent Generation

Peng, Kumar, Wu et al.
Retrieval-Augmented Generation (RAG) systems leverage Large Language Models (LLMs) to generate accurate and reliable responses that are grounded in retrieved context. However, LLMs often generate inconsistent outputs for semantically equivalent inputs, a problem compounded by the scarcity of consistency-focused training data and the limitations of current fine-tuning techniques in enhancing output consistency. We propose a new approach combining systematic synthetic data generation, triplet loss for better embeddings, and a novel layer-wise model merging approach. Using consistency-aware weights derived from intermediate layer activations, our method effectively integrates knowledge from specialized models. Experimental results how that our merged model significantly enhances output consistency, achieving a ~47.5\% improvement in response similarity over the baseline, thus offering a practical solution for increasing the reliability of an industrial RAG system.
academic

Harmoniser les Modèles Diversifiés : Une Stratégie de Fusion par Couches pour une Génération Cohérente

Informations Fondamentales

  • ID de l'article : 2510.14915
  • Titre : Harmonizing Diverse Models: A Layer-wise Merging Strategy for Consistent Generation
  • Auteurs : Xujun Peng, Anoop Kumar, Jingyu Wu, Parker Glenn, Daben Liu (Capital One AI Foundations)
  • Classification : cs.CL (Linguistique Informatique)
  • Date de publication : 16 octobre 2025 (prépublication arXiv)
  • Lien de l'article : https://arxiv.org/abs/2510.14915

Résumé

Les systèmes de génération augmentée par récupération (RAG) exploitent les grands modèles de langage (LLMs) pour générer des réponses précises et fiables basées sur le contexte récupéré. Cependant, les LLMs produisent souvent des résultats incohérents face à des entrées sémantiquement équivalentes, un problème exacerbé par l'absence de données d'entraînement orientées vers la cohérence et les limitations des techniques de mise au point actuelles pour améliorer la cohérence des résultats. Cet article propose une approche combinant la génération systématisée de données synthétiques, la perte triplet et une nouvelle fusion de modèles par couches. En utilisant des poids conscients de la cohérence dérivés des activations des couches intermédiaires, cette approche intègre efficacement les connaissances de modèles spécialisés. Les résultats expérimentaux démontrent que le modèle fusionné améliore significativement la cohérence des résultats, réalisant une amélioration de 47,5 % en similarité de réponse par rapport à la ligne de base.

Contexte et Motivation de la Recherche

Définition du Problème

La recherche aborde le problème central de la cohérence des résultats des modèles de génération dans les systèmes RAG. Cela se manifeste de manière concrète par :

  1. Requêtes sémantiquement équivalentes produisant des réponses différentes : Comme illustré à la figure 1, la simple présence ou absence d'un point d'interrogation peut conduire le système RAG à fournir des réponses radicalement différentes
  2. Défis pratiques du déploiement industriel : En environnement de production, les variantes diversifiées des requêtes utilisateur constituent une menace pour la fiabilité du système

Importance du Problème

  1. Exigences de fiabilité : Dans les domaines à haut risque tels que la finance et la médecine, les réponses incohérentes compromettent gravement la confiance des utilisateurs
  2. Impact pratique : L'article observe empiriquement que le générateur est plus sensible aux variations de requêtes que le récupérateur
  3. Stabilité du système : L'incohérence des résultats affecte directement l'adoption des systèmes RAG en environnement industriel

Limitations des Approches Existantes

  1. Rareté des données d'entraînement : Absence de données d'entraînement spécifiquement orientées vers la cohérence
  2. Limitations des techniques de mise au point : Les méthodes de mise au point traditionnelles ont un effet limité sur l'amélioration de la cohérence des résultats
  3. Absence de référentiels d'évaluation : Manque de référentiels et d'ensembles de données spécialisés pour l'évaluation de la cohérence

Contributions Fondamentales

  1. Classification des variantes de requêtes : Identification et classification systématisée des types de variantes de requêtes causant l'incohérence des réponses dans les systèmes RAG industriels
  2. Système de mesure de la cohérence : Établissement d'indicateurs d'évaluation de la cohérence incluant la correspondance exacte (EM), la similarité de réponse (RS) et la similarité BERT (BS)
  3. Méthode de fusion de modèles par couches : Proposition d'une stratégie novatrice de fusion de modèles par couches basée sur des poids conscients de la cohérence
  4. Solution intégrée : Intégration d'une méthodologie complète combinant la génération de données synthétiques, l'entraînement par perte triplet et la fusion de modèles

Explication Détaillée de la Méthode

Définition de la Tâche

Étant donné une requête originale Q et ses variantes sémantiquement équivalentes Q', l'objectif est que le générateur du système RAG produise des réponses cohérentes S et S' pour les deux, c'est-à-dire maximiser la similarité sémantique entre S et S' tout en maintenant l'exactitude de la réponse.

Architecture du Modèle

1. Stratégie de Génération de Données Synthétiques

Basée sur l'analyse des requêtes de production, trois catégories principales de variantes ont été identifiées :

Variantes "How to/do" :

  • Reformulation de questions méthodologiques
  • Génération systématisée utilisant des règles d'expressions régulières

Variantes singulier/pluriel et articles :

  • Variations du nombre de noms (par exemple, "apple" vs "apples")
  • Variations d'utilisation d'articles (par exemple, "a", "an", "the")
  • Échange aléatoire des formes singulier/pluriel et modification des articles

Variantes sémantiques :

  • Variations conservant le sens fondamental mais utilisant un vocabulaire différent
  • Génération de paraphrases utilisant Llama-3.1-70B-Instruct

2. Entraînement par Perte Triplet

Introduction de la perte triplet pour améliorer la capacité de représentation sémantique du modèle :

L(A,P,N) = max(0, d(f(A), f(P)) - d(f(A), f(N)) + α)

Où :

  • A est la requête d'ancrage
  • P est l'échantillon positif (sémantiquement similaire)
  • N est l'échantillon négatif (sémantiquement dissimilaire)
  • α est le paramètre de marge

La fonction de perte finale combine la perte d'entropie croisée et la perte triplet :

L = L_CE + α · L_Triplet

3. Algorithme de Fusion de Modèles par Couches

Idée centrale : Attribution dynamique des poids de fusion basée sur la contribution de chaque couche à la cohérence.

Processus de calcul des poids :

  1. Extraction des activations : Extraction des activations α_k^(l) de chaque couche l de chaque modèle k à partir de l'ensemble de développement S_dev
  2. Calcul de la matrice de similarité : Calcul de la matrice de similarité Σ_k^(l) des activations
  3. Construction de la matrice de référence : Utilisation d'un encodeur de phrases pour construire la matrice de similarité de référence Σ_r
  4. Calcul de la distance : d_k^(l) = |Σ_k^(l) - Σ_r|
  5. Normalisation des poids : Obtention des poids finaux w_k^(l) par normalisation non-linéaire inverse

Formule de fusion :

θ_merged^(l) = θ_P^(l) + Σ_k w_k^(l) · Δθ_k^(l)

Points d'Innovation Technique

  1. Conception des poids orientée vers la cohérence : Première proposition d'une méthode de calcul des poids de fusion de modèles basée sur la similarité des activations par couches
  2. Stratégie diversifiée de données synthétiques : Méthode de génération de variantes de requêtes conçue pour les caractéristiques des scénarios industriels
  3. Intégration de la perte triplet : Introduction de la perte triplet de l'apprentissage métrique dans la mise au point des LLMs, améliorant la qualité de la représentation sémantique

Configuration Expérimentale

Ensemble de Données

  • Données de base : 2 738 requêtes représentatives et leurs contextes récupérés, annotés par des experts du domaine
  • Division des données : 1 421 échantillons d'entraînement, 1 317 échantillons de test
  • Données synthétiques :
    • 150 requêtes variantes "how to/do"
    • 1 421 requêtes paraphrasées
    • 952 requêtes variantes singulier/pluriel/articles
  • Ensemble de test de cohérence : 1 579 variantes (176 "how to/do", 912 paraphrases, 491 variations singulier/pluriel/articles)

Indicateurs d'Évaluation

Indicateurs d'exactitude :

  • ROUGE-L : Mesure de chevauchement textuel
  • BLEU (jusqu'à 4-grammes) : Mesure d'alignement lexical

Indicateurs de cohérence :

  • Correspondance Exacte (EM) : Correspondance exacte de chaîne de caractères
  • Similarité de Réponse (RS) : Jugement d'équivalence sémantique basé sur le seuil ROUGE
  • Similarité BERT (BS) : Degré de similarité sémantique basé sur BERT

Méthodes de Comparaison

  • Modèle de base (Llama-3.1-8B-Instruct, Gemma-3-12B-Instruct)
  • Mise au point supervisée standard (SFT)
  • SFT + Perte triplet
  • Modèles spécialisés pour type de variante unique
  • Modèle d'entraînement conjoint sur toutes les données

Détails d'Implémentation

  • Modèles de base : Llama-3.1-8B-Instruct et Gemma-3-12B-Instruct
  • Nombre d'epochs d'entraînement : 2
  • Construction de triplets : Échantillonnage à partir des 10 voisins les plus proches et les 10 plus éloignés dans l'espace de caractéristiques sémantiques

Résultats Expérimentaux

Résultats Principaux

Résultats du modèle Llama-3.1-8B-Instruct :

MéthodeROUGEBLEUEMRSBS
Ligne de base0,51230,29280,10510,27990,9246
Modèle fusionné0,53790,33800,25210,41290,9292

Découvertes clés :

  • Amélioration significative de la cohérence : EM augmente de 139,87 %, RS augmente de 47,52 %
  • Maintien de l'exactitude : ROUGE et BLEU conservent des niveaux compétitifs
  • Meilleur équilibre : Le modèle fusionné atteint l'optimum sur tous les indicateurs de cohérence

Résultats du modèle Gemma-3-12B-Instruct :

  • Tendances d'amélioration similaires, validant l'universalité de la méthode
  • Les modèles plus grands présentent un léger avantage en exactitude, mais les modèles d'amélioration de cohérence restent cohérents

Expériences d'Ablation

Analyse de la contribution de chaque composant :

  1. Effet de la perte triplet : Par rapport à la SFT standard, EM augmente de 73,4 %, RS augmente de 26,1 %
  2. Avantages des modèles spécialisés : Les modèles entraînés sur un seul type de variante surpassent la ligne de base en exactitude et cohérence
  3. Effet de la stratégie de fusion : Le modèle fusionné surpasse tous les modèles individuels sur les indicateurs de cohérence

Découvertes Expérimentales

  1. Générateur vs Récupérateur : Validation de l'hypothèse que le générateur est plus sensible aux variations de requêtes que le récupérateur
  2. Spécialisation vs Généralisation : Les modèles spécialisés surpassent les modèles d'entraînement conjoint en exactitude, mais l'entraînement conjoint est supérieur en cohérence
  3. Impact de la taille du modèle : Les modèles plus grands ne garantissent pas automatiquement une meilleure cohérence

Travaux Connexes

Définition et Évaluation de la Cohérence

  • Fondements théoriques : Basés sur la définition d'équivalence sémantique de Patwardhan et al.
  • Méthodes d'évaluation : Empruntant le cadre de mesure de cohérence sémantique de Raj et al.
  • Évaluation automatisée : Référençant les outils d'évaluation de cohérence de Zhao et al.

Amélioration de la Cohérence des LLMs

  • Ingénierie des invites : Méthode d'auto-cohérence de Wang et al.
  • Données synthétiques : Méthode d'invites multi-étapes et de données synthétiques de Raj et al.
  • Méthodes d'ensemble : Méthode d'ensemble basée sur logit de Wu et al.

Techniques de Fusion de Modèles

  • Méthodes de base : Algorithme de fusion DARE-TIES
  • Moyenne pondérée : Limitations des techniques traditionnelles de fusion de modèles
  • Manipulation de l'espace des paramètres : Opérations sur les différences de paramètres plutôt que sur les poids absolus

Conclusions et Discussion

Conclusions Principales

  1. Caractérisation du problème : Identification et quantification réussies du problème de cohérence dans les systèmes RAG industriels
  2. Efficacité de la méthode : La méthode de fusion par couches proposée améliore significativement la cohérence des résultats (amélioration de 47,5 %)
  3. Valeur pratique : Fourniture d'une solution pratique et réalisable pour améliorer la fiabilité des systèmes RAG industriels

Limitations

  1. Limitation de la portée des données : Les expériences sont principalement basées sur des données industrielles, manquant de tests sur des référentiels publics
  2. Hypothèse du récupérateur : Hypothèse que les résultats du récupérateur sont stables, sans aborder l'incohérence du récupérateur
  3. Portée du modèle : Validation sur seulement deux LLMs, la configuration des hyperparamètres nécessite une exploration plus approfondie

Directions Futures

  1. Construction de référentiels publics : Intention de construire et de publier un référentiel d'évaluation de cohérence
  2. Cohérence du récupérateur : Extension au problème d'incohérence du récupérateur
  3. Fusion adaptative : Exploration de méthodes d'ajustement dynamique de la stratégie de fusion
  4. Validation inter-domaines : Validation de l'efficacité de la méthode sur davantage d'ensembles de données publics

Évaluation Approfondie

Points Forts

  1. Forte pertinence du problème : Résolution directe des points critiques des systèmes RAG industriels
  2. Innovativité de la méthode : La conception des poids de cohérence consciente par couches présente une nouveauté
  3. Complétude des expériences : Évaluation systématique couvrant plusieurs modèles et indicateurs
  4. Valeur pratique élevée : L'amélioration de 47,5 % en cohérence présente une signification pratique remarquable

Insuffisances

  1. Analyse théorique insuffisante : Manque d'explication théorique approfondie sur les raisons pour lesquelles la fusion par couches améliore la cohérence
  2. Absence d'analyse de surcharge computationnelle : Pas d'analyse de la complexité computationnelle du calcul des poids par couches et du processus de fusion
  3. Vérification limitée de la capacité de généralisation : Validation principalement dans des scénarios industriels spécifiques, capacité de généralisation inter-domaines à démontrer
  4. Limitation des données de référence : Manque de vérification sur des ensembles de données publics standards

Impact

  1. Contribution académique : Fourniture d'une nouvelle voie technique pour la recherche sur la cohérence des LLMs
  2. Valeur industrielle : Résolution directe des problèmes clés du déploiement des systèmes RAG
  3. Reproductibilité de la méthode : Description d'algorithme relativement claire, possédant une reproductibilité
  4. Inspiration pour la recherche ultérieure : Ouverture de nouvelles directions pour la fusion de modèles et l'optimisation de la cohérence

Scénarios d'Application

  1. Scénarios exigeant une haute fiabilité : Domaines tels que la finance, la médecine et le droit où les exigences de cohérence sont extrêmement élevées
  2. Déploiement RAG industriel : Systèmes de questions-réponses en environnement de production à grande échelle
  3. Scénarios d'intégration multi-modèles : Applications nécessitant l'intégration des connaissances de plusieurs modèles spécialisés
  4. Applications sensibles à l'expérience utilisateur : Systèmes interactifs ayant des exigences strictes en matière de cohérence des réponses

Références

L'article cite plusieurs travaux connexes importants, notamment :

  • Lewis et al. (2020) : Travail fondateur du cadre RAG
  • Yu et al. (2024), Yadav et al. (2023) : Méthode de fusion de modèles DARE-TIES
  • Schroff et al. (2015) : Travail original sur la perte triplet
  • Patwardhan et al. (2024) : Définition et analyse de la cohérence des LLMs

Évaluation Globale : Cet article est une recherche appliquée de haute qualité abordant un problème industriel réel, avec des contributions significatives tant en innovativité de méthode qu'en valeur pratique. Bien qu'il y ait encore de la place pour l'amélioration en profondeur théorique et vérification de généralisation, le problème qu'il résout possède une importance pratique significative, et la méthode proposée présente une bonne opérabilité et efficacité.