Harmonizing Diverse Models: A Layer-wise Merging Strategy for Consistent Generation
Peng, Kumar, Wu et al.
Retrieval-Augmented Generation (RAG) systems leverage Large Language Models (LLMs) to generate accurate and reliable responses that are grounded in retrieved context. However, LLMs often generate inconsistent outputs for semantically equivalent inputs, a problem compounded by the scarcity of consistency-focused training data and the limitations of current fine-tuning techniques in enhancing output consistency. We propose a new approach combining systematic synthetic data generation, triplet loss for better embeddings, and a novel layer-wise model merging approach. Using consistency-aware weights derived from intermediate layer activations, our method effectively integrates knowledge from specialized models. Experimental results how that our merged model significantly enhances output consistency, achieving a ~47.5\% improvement in response similarity over the baseline, thus offering a practical solution for increasing the reliability of an industrial RAG system.
academic
Harmoniser les Modèles Diversifiés : Une Stratégie de Fusion par Couches pour une Génération Cohérente
Les systèmes de génération augmentée par récupération (RAG) exploitent les grands modèles de langage (LLMs) pour générer des réponses précises et fiables basées sur le contexte récupéré. Cependant, les LLMs produisent souvent des résultats incohérents face à des entrées sémantiquement équivalentes, un problème exacerbé par l'absence de données d'entraînement orientées vers la cohérence et les limitations des techniques de mise au point actuelles pour améliorer la cohérence des résultats. Cet article propose une approche combinant la génération systématisée de données synthétiques, la perte triplet et une nouvelle fusion de modèles par couches. En utilisant des poids conscients de la cohérence dérivés des activations des couches intermédiaires, cette approche intègre efficacement les connaissances de modèles spécialisés. Les résultats expérimentaux démontrent que le modèle fusionné améliore significativement la cohérence des résultats, réalisant une amélioration de 47,5 % en similarité de réponse par rapport à la ligne de base.
La recherche aborde le problème central de la cohérence des résultats des modèles de génération dans les systèmes RAG. Cela se manifeste de manière concrète par :
Requêtes sémantiquement équivalentes produisant des réponses différentes : Comme illustré à la figure 1, la simple présence ou absence d'un point d'interrogation peut conduire le système RAG à fournir des réponses radicalement différentes
Défis pratiques du déploiement industriel : En environnement de production, les variantes diversifiées des requêtes utilisateur constituent une menace pour la fiabilité du système
Exigences de fiabilité : Dans les domaines à haut risque tels que la finance et la médecine, les réponses incohérentes compromettent gravement la confiance des utilisateurs
Impact pratique : L'article observe empiriquement que le générateur est plus sensible aux variations de requêtes que le récupérateur
Stabilité du système : L'incohérence des résultats affecte directement l'adoption des systèmes RAG en environnement industriel
Rareté des données d'entraînement : Absence de données d'entraînement spécifiquement orientées vers la cohérence
Limitations des techniques de mise au point : Les méthodes de mise au point traditionnelles ont un effet limité sur l'amélioration de la cohérence des résultats
Absence de référentiels d'évaluation : Manque de référentiels et d'ensembles de données spécialisés pour l'évaluation de la cohérence
Classification des variantes de requêtes : Identification et classification systématisée des types de variantes de requêtes causant l'incohérence des réponses dans les systèmes RAG industriels
Système de mesure de la cohérence : Établissement d'indicateurs d'évaluation de la cohérence incluant la correspondance exacte (EM), la similarité de réponse (RS) et la similarité BERT (BS)
Méthode de fusion de modèles par couches : Proposition d'une stratégie novatrice de fusion de modèles par couches basée sur des poids conscients de la cohérence
Solution intégrée : Intégration d'une méthodologie complète combinant la génération de données synthétiques, l'entraînement par perte triplet et la fusion de modèles
Étant donné une requête originale Q et ses variantes sémantiquement équivalentes Q', l'objectif est que le générateur du système RAG produise des réponses cohérentes S et S' pour les deux, c'est-à-dire maximiser la similarité sémantique entre S et S' tout en maintenant l'exactitude de la réponse.
Conception des poids orientée vers la cohérence : Première proposition d'une méthode de calcul des poids de fusion de modèles basée sur la similarité des activations par couches
Stratégie diversifiée de données synthétiques : Méthode de génération de variantes de requêtes conçue pour les caractéristiques des scénarios industriels
Intégration de la perte triplet : Introduction de la perte triplet de l'apprentissage métrique dans la mise au point des LLMs, améliorant la qualité de la représentation sémantique
Modèles de base : Llama-3.1-8B-Instruct et Gemma-3-12B-Instruct
Nombre d'epochs d'entraînement : 2
Construction de triplets : Échantillonnage à partir des 10 voisins les plus proches et les 10 plus éloignés dans l'espace de caractéristiques sémantiques
Générateur vs Récupérateur : Validation de l'hypothèse que le générateur est plus sensible aux variations de requêtes que le récupérateur
Spécialisation vs Généralisation : Les modèles spécialisés surpassent les modèles d'entraînement conjoint en exactitude, mais l'entraînement conjoint est supérieur en cohérence
Impact de la taille du modèle : Les modèles plus grands ne garantissent pas automatiquement une meilleure cohérence
Limitation de la portée des données : Les expériences sont principalement basées sur des données industrielles, manquant de tests sur des référentiels publics
Hypothèse du récupérateur : Hypothèse que les résultats du récupérateur sont stables, sans aborder l'incohérence du récupérateur
Portée du modèle : Validation sur seulement deux LLMs, la configuration des hyperparamètres nécessite une exploration plus approfondie
Analyse théorique insuffisante : Manque d'explication théorique approfondie sur les raisons pour lesquelles la fusion par couches améliore la cohérence
Absence d'analyse de surcharge computationnelle : Pas d'analyse de la complexité computationnelle du calcul des poids par couches et du processus de fusion
Vérification limitée de la capacité de généralisation : Validation principalement dans des scénarios industriels spécifiques, capacité de généralisation inter-domaines à démontrer
Limitation des données de référence : Manque de vérification sur des ensembles de données publics standards
L'article cite plusieurs travaux connexes importants, notamment :
Lewis et al. (2020) : Travail fondateur du cadre RAG
Yu et al. (2024), Yadav et al. (2023) : Méthode de fusion de modèles DARE-TIES
Schroff et al. (2015) : Travail original sur la perte triplet
Patwardhan et al. (2024) : Définition et analyse de la cohérence des LLMs
Évaluation Globale : Cet article est une recherche appliquée de haute qualité abordant un problème industriel réel, avec des contributions significatives tant en innovativité de méthode qu'en valeur pratique. Bien qu'il y ait encore de la place pour l'amélioration en profondeur théorique et vérification de généralisation, le problème qu'il résout possède une importance pratique significative, et la méthode proposée présente une bonne opérabilité et efficacité.