Harmonizing Diverse Models: A Layer-wise Merging Strategy for Consistent Generation
Peng, Kumar, Wu et al.
Retrieval-Augmented Generation (RAG) systems leverage Large Language Models (LLMs) to generate accurate and reliable responses that are grounded in retrieved context. However, LLMs often generate inconsistent outputs for semantically equivalent inputs, a problem compounded by the scarcity of consistency-focused training data and the limitations of current fine-tuning techniques in enhancing output consistency. We propose a new approach combining systematic synthetic data generation, triplet loss for better embeddings, and a novel layer-wise model merging approach. Using consistency-aware weights derived from intermediate layer activations, our method effectively integrates knowledge from specialized models. Experimental results how that our merged model significantly enhances output consistency, achieving a ~47.5\% improvement in response similarity over the baseline, thus offering a practical solution for increasing the reliability of an industrial RAG system.
academic
Гармонизация разнообразных моделей: стратегия послойного слияния для согласованной генерации
Системы генерации с дополнением поиском (RAG) используют большие языковые модели (LLM) для генерации точных и надежных ответов на основе извлеченного контекста. Однако LLM часто генерируют несогласованные выходные данные при столкновении с семантически эквивалентными входными данными. Эта проблема усугубляется отсутствием ориентированных на согласованность обучающих данных и ограничениями современных методов тонкой настройки в повышении согласованности выходных данных. В данной работе предлагается подход, сочетающий систематическую генерацию синтетических данных, триплетную потерю и новый метод послойного слияния моделей. Используя веса, осведомленные о согласованности, полученные из активаций промежуточных слоев, метод эффективно интегрирует знания специализированных моделей. Экспериментальные результаты показывают, что объединенная модель значительно повышает согласованность выходных данных, достигая 47,5% улучшения в сравнении с базовым уровнем по метрике сходства ответов.
Основная проблема, решаемая в данном исследовании, — это проблема согласованности выходных данных в системах RAG. Конкретные проявления:
Семантически эквивалентные запросы генерируют различные ответы: как показано на рисунке 1, простое наличие или отсутствие вопросительного знака может привести к совершенно различным ответам системы RAG
Практические вызовы при развертывании в промышленности: в производственной среде разнообразные варианты пользовательских запросов представляют угрозу надежности системы
Дефицит обучающих данных: отсутствие специализированных данных для обучения, ориентированных на согласованность
Ограничения методов тонкой настройки: традиционные методы тонкой настройки имеют ограниченную эффективность в повышении согласованности выходных данных
Отсутствие эталонных оценок: нехватка специализированных эталонов и наборов данных для оценки согласованности
Классификация вариантов запросов: систематическое выявление и классификация типов вариантов запросов, вызывающих несогласованность ответов в промышленных системах RAG
Система метрик согласованности: разработка системы оценки согласованности, включающей точное совпадение (EM), сходство ответов (RS) и сходство BERT (BS)
Метод послойного слияния моделей: предложение новой стратегии послойного слияния моделей на основе весов, осведомленных о согласованности
Комплексное решение: интеграция генерации синтетических данных, обучения с триплетной потерей и слияния моделей в единую методологию
Дано исходный запрос Q и его семантически эквивалентный вариант Q'. Цель состоит в том, чтобы генератор системы RAG производил согласованные ответы S и S' для обоих запросов, то есть максимизировать семантическое сходство между S и S' при сохранении точности ответов.
Проектирование весов, ориентированное на согласованность: впервые предложен метод вычисления весов слияния моделей на основе сходства активаций послойных слоев
Разнообразная стратегия синтетических данных: методы генерации вариантов запросов, разработанные с учетом особенностей промышленных сценариев
Интеграция триплетной потери: применение триплетной потери из метрического обучения к тонкой настройке LLM для повышения качества семантического представления
Эффект триплетной потери: по сравнению со стандартной SFT, улучшение EM на 73,4%, улучшение RS на 26,1%
Преимущества специализированных моделей: модели, обученные на одном типе вариантов, превосходят базовую модель как по точности, так и по согласованности
Эффект стратегии слияния: объединенная модель превосходит все отдельные модели по метрикам согласованности
Генератор vs поисковик: подтверждена гипотеза о том, что генератор более чувствителен к вариациям запросов, чем поисковик
Специализация vs универсальность: специализированные модели превосходят совместно обученные модели по точности, но совместно обученные модели лучше по согласованности
Влияние размера модели: более крупные модели не автоматически гарантируют лучшую согласованность
Недостаточный теоретический анализ: отсутствие глубокого теоретического объяснения того, почему послойное слияние повышает согласованность
Отсутствие анализа вычислительных затрат: не проведен анализ вычислительной сложности вычисления послойных весов и процесса слияния
Ограниченная проверка способности к обобщению: проверка в основном в специфическом промышленном сценарии, способность к обобщению на разные домены требует доказательства
Ограничения эталонных данных: отсутствие проверки на стандартных открытых наборах данных
В статье цитируются многие важные связанные работы, включая:
Lewis et al. (2020): основополагающая работа по фреймворку RAG
Yu et al. (2024), Yadav et al. (2023): методы слияния моделей DARE-TIES
Schroff et al. (2015): оригинальная работа по триплетной потере
Patwardhan et al. (2024): определение и анализ согласованности LLM
Общая оценка: это высококачественная прикладная исследовательская работа, ориентированная на решение практических промышленных проблем, с значительными вкладами как в методологическую инновацию, так и в практическую ценность. Хотя существует место для улучшения в теоретической глубине и проверке способности к обобщению, решаемая проблема имеет важное практическое значение, а предложенный метод обладает хорошей операциональностью и эффективностью.