2025-11-12T19:43:10.253640

Harmonizing Diverse Models: A Layer-wise Merging Strategy for Consistent Generation

Peng, Kumar, Wu et al.

Retrieval-Augmented Generation (RAG) systems leverage Large Language Models (LLMs) to generate accurate and reliable responses that are grounded in retrieved context. However, LLMs often generate inconsistent outputs for semantically equivalent inputs, a problem compounded by the scarcity of consistency-focused training data and the limitations of current fine-tuning techniques in enhancing output consistency. We propose a new approach combining systematic synthetic data generation, triplet loss for better embeddings, and a novel layer-wise model merging approach. Using consistency-aware weights derived from intermediate layer activations, our method effectively integrates knowledge from specialized models. Experimental results how that our merged model significantly enhances output consistency, achieving a ~47.5\% improvement in response similarity over the baseline, thus offering a practical solution for increasing the reliability of an industrial RAG system.

academic

Armonizando Modelos Diversos: Una Estrategia de Fusión por Capas para Generación Consistente

Información Básica

ID del Artículo: 2510.14915
Título: Harmonizing Diverse Models: A Layer-wise Merging Strategy for Consistent Generation
Autores: Xujun Peng, Anoop Kumar, Jingyu Wu, Parker Glenn, Daben Liu (Capital One AI Foundations)
Clasificación: cs.CL (Lingüística Computacional)
Fecha de Publicación: 16 de octubre de 2025 (preimpresión arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.14915

Resumen

Los sistemas de generación aumentada por recuperación (RAG) aprovechan los modelos de lenguaje grandes (LLMs) para generar respuestas precisas y confiables basadas en contextos recuperados. Sin embargo, los LLMs frecuentemente producen salidas inconsistentes cuando se enfrentan a entradas semánticamente equivalentes, un problema agravado por la escasez de datos de entrenamiento orientados a la consistencia y las limitaciones de las técnicas de ajuste fino actuales para mejorar la consistencia de salida. Este artículo propone un enfoque que combina generación sistemática de datos sintéticos, pérdida de tripletes y una novedosa fusión de modelos por capas. Mediante el uso de pesos conscientes de consistencia derivados de activaciones de capas intermedias, el método integra efectivamente el conocimiento de modelos especializados. Los resultados experimentales demuestran que el modelo fusionado mejora significativamente la consistencia de salida, logrando una mejora del 47.5% en similitud de respuesta en comparación con la línea base.

Contexto de Investigación y Motivación

Definición del Problema

El problema central abordado en esta investigación es el problema de consistencia de salida en sistemas RAG. Se manifiesta específicamente como:

Consultas semánticamente equivalentes producen respuestas diferentes: Como se muestra en la Figura 1, simplemente la presencia o ausencia de un signo de interrogación puede llevar a que el sistema RAG proporcione respuestas completamente diferentes
Desafíos prácticos en despliegue industrial: En entornos de producción, las variantes diversificadas de consultas de usuarios representan una amenaza para la confiabilidad del sistema

Importancia del Problema

Requisitos de confiabilidad: En campos de alto riesgo como finanzas y medicina, las respuestas inconsistentes afectan gravemente la confianza del usuario
Impacto práctico: El artículo descubre empíricamente que el generador es más sensible a variaciones de consultas que el recuperador
Estabilidad del sistema: La inconsistencia de salida afecta directamente la adopción de sistemas RAG en entornos industriales

Limitaciones de Métodos Existentes

Escasez de datos de entrenamiento: Falta de datos de entrenamiento específicamente orientados a la consistencia
Limitaciones de técnicas de ajuste fino: Los métodos tradicionales de ajuste fino tienen efecto limitado en mejorar la consistencia de salida
Ausencia de puntos de referencia de evaluación: Falta de puntos de referencia especializados de consistencia y conjuntos de datos

Contribuciones Principales

Clasificación de variantes de consultas: Identificación y clasificación sistemática de tipos de variantes de consultas que causan inconsistencia de respuesta en sistemas RAG industriales
Sistema de métricas de consistencia: Establecimiento de métricas de evaluación de consistencia incluyendo coincidencia exacta (EM), similitud de respuesta (RS) y similitud BERT (BS)
Método de fusión de modelos por capas: Propuesta de una novedosa estrategia de fusión de modelos por capas basada en pesos conscientes de consistencia
Solución integral: Integración de generación de datos sintéticos, entrenamiento con pérdida de tripletes y fusión de modelos

Explicación Detallada del Método

Definición de la Tarea

Dada una consulta original Q y su variante semánticamente equivalente Q', el objetivo es que el generador del sistema RAG produzca respuestas consistentes S y S' para ambas, es decir, maximizar la similitud semántica entre S y S' mientras se mantiene la precisión de la respuesta.

Arquitectura del Modelo

1. Estrategia de Generación de Datos Sintéticos

Basada en análisis de consultas de producción, se identifican tres clases principales de variantes:

Variantes "How to/do":

Reformulación de preguntas procedimentales
Generación sistemática mediante reglas de expresiones regulares

Variantes de singular/plural y artículos:

Cambios en cantidad de sustantivos (ej. "apple" vs "apples")
Cambios en uso de artículos (ej. "a", "an", "the")
Intercambio aleatorio de formas singular/plural y modificación de artículos

Variantes semánticas:

Cambios que mantienen el significado central pero utilizan vocabulario diferente
Generación de paráfrasis utilizando Llama-3.1-70B-Instruct

2. Entrenamiento con Pérdida de Tripletes

Introducción de pérdida de tripletes para mejorar la capacidad de representación semántica del modelo:

L(A,P,N) = max(0, d(f(A), f(P)) - d(f(A), f(N)) + α)

Donde:

A es la consulta ancla
P es la muestra positiva (semánticamente similar)
N es la muestra negativa (semánticamente no similar)
α es el parámetro de margen

La función de pérdida final combina pérdida de entropía cruzada y pérdida de tripletes:

L = L_CE + α · L_Triplet

3. Algoritmo de Fusión de Modelos por Capas

Idea central: Asignación dinámica de pesos de fusión basada en la contribución de cada capa a la consistencia.

Flujo de cálculo de pesos:

Extracción de activaciones: Extracción de activaciones α_k^(l) de cada capa l de cada modelo k del conjunto de desarrollo S_dev
Cálculo de matriz de similitud: Cálculo de la matriz de similitud Σ_k^(l) de las activaciones
Construcción de matriz de referencia: Construcción de matriz de similitud de referencia Σ_r utilizando codificador de oraciones
Cálculo de distancia: d_k^(l) = |Σ_k^(l) - Σ_r|
Normalización de pesos: Obtención de pesos finales w_k^(l) mediante normalización no lineal inversa

Fórmula de fusión:

θ_merged^(l) = θ_P^(l) + Σ_k w_k^(l) · Δθ_k^(l)

Puntos de Innovación Técnica

Diseño de pesos orientado a consistencia: Primera propuesta de método de cálculo de pesos de fusión de modelos basado en similitud de activaciones por capas
Estrategia diversificada de datos sintéticos: Método de generación de variantes de consultas diseñado para características de escenarios industriales
Integración de pérdida de tripletes: Introducción de pérdida de tripletes del aprendizaje métrico en ajuste fino de LLMs, mejorando la calidad de representación semántica

Configuración Experimental

Conjunto de Datos

Datos base: 2,738 consultas representativas y sus contextos recuperados, anotados por expertos del dominio
División de datos: 1,421 muestras de entrenamiento, 1,317 muestras de prueba
Datos sintéticos:
- 150 consultas variantes "how to/do"
- 1,421 consultas parafraseadas
- 952 consultas variantes de singular/plural y artículos
Conjunto de prueba de consistencia: 1,579 variantes (176 "how to/do", 912 parafraseadas, 491 cambios de singular/plural/artículos)

Métricas de Evaluación

Métricas de precisión:

ROUGE-L: Medida de superposición de texto
BLEU (máximo 4-gramas): Medida de alineación léxica

Métricas de consistencia:

Coincidencia exacta (EM): Coincidencia de cadena exacta
Similitud de respuesta (RS): Determinación de equivalencia semántica basada en umbral ROUGE
Similitud BERT (BS): Similitud semántica basada en BERT

Métodos de Comparación

Modelo base (Llama-3.1-8B-Instruct, Gemma-3-12B-Instruct)
Ajuste fino supervisado estándar (SFT)
SFT + pérdida de tripletes
Modelos especializados de tipo de variante único
Modelo de entrenamiento conjunto con todos los datos

Detalles de Implementación

Modelos base: Llama-3.1-8B-Instruct y Gemma-3-12B-Instruct
Épocas de entrenamiento: 2 épocas
Construcción de tripletes: Muestreo de los 10 vecinos más cercanos y 10 más lejanos del espacio de características semánticas

Resultados Experimentales

Resultados Principales

Resultados del modelo Llama-3.1-8B-Instruct:

Método	ROUGE	BLEU	EM	RS	BS
Línea base	0.5123	0.2928	0.1051	0.2799	0.9246
Modelo fusionado	0.5379	0.3380	0.2521	0.4129	0.9292

Hallazgos clave:

Mejora significativa de consistencia: EM mejora 139.87%, RS mejora 47.52%
Mantenimiento de precisión: ROUGE y BLEU mantienen niveles competitivos
Mejor equilibrio: El modelo fusionado logra óptimo en todos los indicadores de consistencia

Resultados del modelo Gemma-3-12B-Instruct:

Tendencias de mejora similares, validando la universalidad del método
Modelos más grandes tienen ligera ventaja en precisión, pero el patrón de mejora de consistencia es consistente

Experimentos de Ablación

Análisis de contribución de componentes:

Efecto de pérdida de tripletes: En comparación con SFT estándar, EM mejora 73.4%, RS mejora 26.1%
Ventaja de modelos especializados: Modelos entrenados con variante única superan la línea base en precisión y consistencia
Efecto de estrategia de fusión: El modelo fusionado supera todos los modelos individuales en indicadores de consistencia

Hallazgos Experimentales

Generador vs recuperador: Validación de la hipótesis de que el generador es más sensible a variaciones de consultas que el recuperador
Especialización vs generalización: Modelos especializados superan en precisión a modelos de entrenamiento conjunto, pero el entrenamiento conjunto es superior en consistencia
Impacto del tamaño del modelo: Modelos más grandes no garantizan automáticamente mejor consistencia

Trabajo Relacionado

Definición y Evaluación de Consistencia

Fundamento teórico: Basado en definición de equivalencia semántica de Patwardhan et al.
Métodos de evaluación: Referencia al marco de medida de consistencia semántica de Raj et al.
Evaluación automatizada: Referencia a herramientas de evaluación de consistencia de Zhao et al.

Mejora de Consistencia en LLMs

Ingeniería de prompts: Método de auto-consistencia de Wang et al.
Datos sintéticos: Método de prompts multi-paso y datos sintéticos de Raj et al.
Métodos de conjunto: Método de conjunto basado en logits de Wu et al.

Técnicas de Fusión de Modelos

Método base: Algoritmo de fusión DARE-TIES
Promediado de pesos: Limitaciones de técnicas tradicionales de fusión de modelos
Operaciones en espacio de parámetros: Operaciones sobre diferencias de parámetros en lugar de pesos absolutos

Conclusiones y Discusión

Conclusiones Principales

Caracterización del problema: Identificación y cuantificación exitosa del problema de consistencia en sistemas RAG industriales
Efectividad del método: El método de fusión por capas propuesto mejora significativamente la consistencia de salida (mejora del 47.5%)
Valor práctico: Proporciona una solución práctica y viable para mejorar la confiabilidad de sistemas RAG industriales

Limitaciones

Rango limitado de datos: Experimentos principalmente basados en datos industriales, falta de pruebas en puntos de referencia públicos
Suposición del recuperador: Asume que los resultados del recuperador son estables, sin abordar inconsistencia del recuperador
Rango de modelos: Validación solo en dos LLMs, configuración de hiperparámetros requiere exploración adicional

Direcciones Futuras

Construcción de punto de referencia público: Plan de construir y publicar un punto de referencia de evaluación de consistencia
Consistencia del recuperador: Extensión a problemas de inconsistencia del recuperador
Fusión adaptativa: Exploración de métodos para ajuste dinámico de estrategia de fusión
Validación entre dominios: Validación del método en más conjuntos de datos públicos

Evaluación Profunda

Fortalezas

Especificidad del problema: Aborda directamente puntos débiles prácticos de sistemas RAG industriales
Innovación del método: El diseño de pesos por capas consciente de consistencia tiene novedad
Completitud experimental: Evaluación sistemática que abarca múltiples modelos e indicadores
Valor práctico alto: La mejora de consistencia del 47.5% tiene significancia práctica notable

Insuficiencias

Análisis teórico insuficiente: Falta de explicación teórica profunda sobre por qué la fusión por capas mejora la consistencia
Análisis de costo computacional ausente: No se analiza la complejidad computacional del cálculo de pesos por capas y proceso de fusión
Validación limitada de capacidad de generalización: Validación principalmente en escenario industrial específico, capacidad de generalización entre dominios por demostrar
Limitación de datos de referencia: Falta de validación en conjuntos de datos estándar públicos

Impacto

Contribución académica: Proporciona nueva ruta técnica para investigación de consistencia en LLMs
Valor industrial: Resuelve directamente problemas clave en despliegue de sistemas RAG
Reproducibilidad del método: Descripción de algoritmo relativamente clara, con reproducibilidad viable
Inspiración para investigación posterior: Abre nuevas direcciones para fusión de modelos y optimización de consistencia

Escenarios Aplicables

Escenarios con requisitos de alta confiabilidad: Campos como finanzas, medicina y derecho con requisitos extremadamente altos de consistencia
Despliegue industrial de RAG: Sistemas de preguntas y respuestas en entornos de producción a gran escala
Escenarios de integración multi-modelo: Aplicaciones que requieren integrar conocimiento de múltiples modelos especializados
Aplicaciones sensibles a experiencia de usuario: Sistemas interactivos con requisitos estrictos de consistencia de respuesta

Referencias

El artículo cita múltiples trabajos relacionados importantes, incluyendo:

Lewis et al. (2020): Trabajo fundamental del marco RAG
Yu et al. (2024), Yadav et al. (2023): Método de fusión de modelos DARE-TIES
Schroff et al. (2015): Trabajo original de pérdida de tripletes
Patwardhan et al. (2024): Definición y análisis de consistencia de LLMs

Evaluación general: Este es un artículo de investigación aplicada de alta calidad dirigido a problemas industriales prácticos, con contribuciones significativas tanto en innovación de método como en valor práctico. Aunque hay espacio para mejora en profundidad teórica y validación de generalización, el problema que resuelve tiene importancia práctica significativa y el método propuesto tiene buena operabilidad y efectividad.