Harmonizing Diverse Models: A Layer-wise Merging Strategy for Consistent Generation
Peng, Kumar, Wu et al.
Retrieval-Augmented Generation (RAG) systems leverage Large Language Models (LLMs) to generate accurate and reliable responses that are grounded in retrieved context. However, LLMs often generate inconsistent outputs for semantically equivalent inputs, a problem compounded by the scarcity of consistency-focused training data and the limitations of current fine-tuning techniques in enhancing output consistency. We propose a new approach combining systematic synthetic data generation, triplet loss for better embeddings, and a novel layer-wise model merging approach. Using consistency-aware weights derived from intermediate layer activations, our method effectively integrates knowledge from specialized models. Experimental results how that our merged model significantly enhances output consistency, achieving a ~47.5\% improvement in response similarity over the baseline, thus offering a practical solution for increasing the reliability of an industrial RAG system.
academic
Armonizando Modelos Diversos: Una Estrategia de Fusión por Capas para Generación Consistente
Los sistemas de generación aumentada por recuperación (RAG) aprovechan los modelos de lenguaje grandes (LLMs) para generar respuestas precisas y confiables basadas en contextos recuperados. Sin embargo, los LLMs frecuentemente producen salidas inconsistentes cuando se enfrentan a entradas semánticamente equivalentes, un problema agravado por la escasez de datos de entrenamiento orientados a la consistencia y las limitaciones de las técnicas de ajuste fino actuales para mejorar la consistencia de salida. Este artículo propone un enfoque que combina generación sistemática de datos sintéticos, pérdida de tripletes y una novedosa fusión de modelos por capas. Mediante el uso de pesos conscientes de consistencia derivados de activaciones de capas intermedias, el método integra efectivamente el conocimiento de modelos especializados. Los resultados experimentales demuestran que el modelo fusionado mejora significativamente la consistencia de salida, logrando una mejora del 47.5% en similitud de respuesta en comparación con la línea base.
El problema central abordado en esta investigación es el problema de consistencia de salida en sistemas RAG. Se manifiesta específicamente como:
Consultas semánticamente equivalentes producen respuestas diferentes: Como se muestra en la Figura 1, simplemente la presencia o ausencia de un signo de interrogación puede llevar a que el sistema RAG proporcione respuestas completamente diferentes
Desafíos prácticos en despliegue industrial: En entornos de producción, las variantes diversificadas de consultas de usuarios representan una amenaza para la confiabilidad del sistema
Requisitos de confiabilidad: En campos de alto riesgo como finanzas y medicina, las respuestas inconsistentes afectan gravemente la confianza del usuario
Impacto práctico: El artículo descubre empíricamente que el generador es más sensible a variaciones de consultas que el recuperador
Estabilidad del sistema: La inconsistencia de salida afecta directamente la adopción de sistemas RAG en entornos industriales
Clasificación de variantes de consultas: Identificación y clasificación sistemática de tipos de variantes de consultas que causan inconsistencia de respuesta en sistemas RAG industriales
Sistema de métricas de consistencia: Establecimiento de métricas de evaluación de consistencia incluyendo coincidencia exacta (EM), similitud de respuesta (RS) y similitud BERT (BS)
Método de fusión de modelos por capas: Propuesta de una novedosa estrategia de fusión de modelos por capas basada en pesos conscientes de consistencia
Solución integral: Integración de generación de datos sintéticos, entrenamiento con pérdida de tripletes y fusión de modelos
Dada una consulta original Q y su variante semánticamente equivalente Q', el objetivo es que el generador del sistema RAG produzca respuestas consistentes S y S' para ambas, es decir, maximizar la similitud semántica entre S y S' mientras se mantiene la precisión de la respuesta.
Diseño de pesos orientado a consistencia: Primera propuesta de método de cálculo de pesos de fusión de modelos basado en similitud de activaciones por capas
Estrategia diversificada de datos sintéticos: Método de generación de variantes de consultas diseñado para características de escenarios industriales
Integración de pérdida de tripletes: Introducción de pérdida de tripletes del aprendizaje métrico en ajuste fino de LLMs, mejorando la calidad de representación semántica
Generador vs recuperador: Validación de la hipótesis de que el generador es más sensible a variaciones de consultas que el recuperador
Especialización vs generalización: Modelos especializados superan en precisión a modelos de entrenamiento conjunto, pero el entrenamiento conjunto es superior en consistencia
Impacto del tamaño del modelo: Modelos más grandes no garantizan automáticamente mejor consistencia
Análisis teórico insuficiente: Falta de explicación teórica profunda sobre por qué la fusión por capas mejora la consistencia
Análisis de costo computacional ausente: No se analiza la complejidad computacional del cálculo de pesos por capas y proceso de fusión
Validación limitada de capacidad de generalización: Validación principalmente en escenario industrial específico, capacidad de generalización entre dominios por demostrar
Limitación de datos de referencia: Falta de validación en conjuntos de datos estándar públicos
El artículo cita múltiples trabajos relacionados importantes, incluyendo:
Lewis et al. (2020): Trabajo fundamental del marco RAG
Yu et al. (2024), Yadav et al. (2023): Método de fusión de modelos DARE-TIES
Schroff et al. (2015): Trabajo original de pérdida de tripletes
Patwardhan et al. (2024): Definición y análisis de consistencia de LLMs
Evaluación general: Este es un artículo de investigación aplicada de alta calidad dirigido a problemas industriales prácticos, con contribuciones significativas tanto en innovación de método como en valor práctico. Aunque hay espacio para mejora en profundidad teórica y validación de generalización, el problema que resuelve tiene importancia práctica significativa y el método propuesto tiene buena operabilidad y efectividad.