2025-11-18T17:40:13.411750

Domain-Specific Data Generation Framework for RAG Adaptation

Tian, Xie, Chen et al.
Retrieval-Augmented Generation (RAG) combines the language understanding and reasoning power of large language models (LLMs) with external retrieval to enable domain-grounded responses. Effectively adapting RAG systems to domain-specific settings requires specialized, context-rich training data beyond general-purpose question-answering. Here, we propose RAGen, a scalable and modular framework for generating domain-grounded question-answer-context (QAC) triples tailored to diverse RAG adaptation approaches. RAGen produces these QAC triples by identifying key concepts in documents, generating diverse questions guided by Bloom's Taxonomy-inspired principles, and pairing them with precise answers extracted from relevant contexts. RAGen supports multiple RAG adaptation strategies, including the optimization of key components such as the LLM, retriever, and embedding model, etc. Its modular pipeline features semantic chunking, hierarchical concept extraction, and multi-chunk retrieval, along with the introduction of curated distractor contexts to promote robust reasoning. Designed for scalability, RAGen efficiently handles large and evolving document corpora without redundant processing, making it especially suitable for dynamic evolving domains such as scientific research and enterprise knowledge bases.
academic

Фреймворк генерации данных, специфичных для домена, для адаптации RAG

Основная информация

  • ID статьи: 2510.11217
  • Название: Domain-Specific Data Generation Framework for RAG Adaptation
  • Авторы: Chris Xing Tian, Weihao Xie, Zhen Chen, Zhengyuan Yi, Hui Liu, Haoliang Li, Shiqi Wang, Siwei Ma
  • Классификация: cs.CL cs.AI
  • Дата публикации: 13 октября 2025 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2510.11217

Аннотация

Поиск с дополнением генерацией (RAG) объединяет способности больших языковых моделей в понимании языка и рассуждении с внешним поиском для обеспечения ответов, специфичных для домена. Эффективная адаптация систем RAG к конкретным доменным установкам требует специализированных, контекстно-богатых обучающих данных, выходящих за рамки общих вопросно-ответных систем. В данной работе предлагается RAGen — масштабируемый модульный фреймворк для генерации троек вопрос-ответ-контекст (QAC), специфичных для домена, предназначенных для различных методов адаптации RAG. RAGen генерирует эти тройки QAC путём выявления ключевых концепций в документах, генерации разнообразных вопросов под руководством принципов, вдохновлённых таксономией Блума, и их сопоставления с точными ответами, извлеченными из соответствующего контекста.

Исследовательский контекст и мотивация

Определение проблемы

  1. Основная проблема: существующие универсальные системы RAG показывают низкую производительность при применении к конкретным доменам и требуют специализированных данных для обучения адаптации к домену
  2. Ключевые вызовы:
    • Организации предпочитают использовать локально развёрнутые малые и средние языковые модели по причинам конфиденциальности данных, соответствия нормативным требованиям и высокой стоимости
    • Малые модели имеют ограничения в способностях понимания языка и рассуждения по сравнению с передовыми языковыми моделями
    • Существующие методы адаптации RAG имеют узкую область применения, обычно ориентированы на отдельные компоненты конвейера RAG
    • Отсутствует гибкость для поддержки стратегий адаптации нескольких компонентов

Исследовательская мотивация

  • Практические потребности: растущий спрос на системы RAG, специфичные для домена, в корпоративной и организационной среде
  • Технологический пробел: существующие методы полагаются на фиксированные, тесно связанные процедуры обучения, предполагающие доступность высококачественных данных, специфичных для домена
  • Требования масштабируемости: необходимость обработки больших и постоянно развивающихся корпусов документов

Основные вклады

  1. Предложение фреймворка RAGen: масштабируемый модульный фреймворк для генерации высококачественных обучающих данных QAC, специфичных для домена
  2. Поддержка адаптации нескольких компонентов: одновременная оптимизация нескольких компонентов RAG, включая языковую модель, поисковик и модель встраивания
  3. Генерация вопросов по уровням познания: стратегия генерации вопросов на основе таксономии Блума, обеспечивающая разнообразие по когнитивной сложности
  4. Рассуждение между блоками и концепциями: реализация глобальной генерации вопросов посредством многоблочного поиска и слияния концепций
  5. Стратегия отвлекающих контекстов: введение тщательно подобранных отвлекающих контекстов для повышения устойчивости модели

Подробное описание методологии

Определение задачи

Адаптация RAG определяется как процесс систематической оптимизации различных компонентов системы поиска с дополнением генерацией (языковой модели, поисковика, модели встраивания) для повышения точности и устойчивости в динамических доменных установках.

Архитектура модели

Фреймворк RAGen состоит из трёх основных модулей:

1. Извлечение концепций документа (Document Concepts Extraction)

Семантическое разбиение на блоки:

  • Использование разбивателя llamaindex для разделения доменных документов D на набор связных блоков {d₁, d₂, ...}

Извлечение концепций на уровне блока:

  • Для каждого блока dᵢ использование ChatGPT-4o для извлечения набора концепций на уровне блока Cᵢ = {cᵢ₁, cᵢ₂, ...}
  • Эти концепции отражают центральные темы блока dᵢ

Слияние концепций:

  • Слияние всех концепций на уровне блока на основе семантического сходства
  • Генерация дедублицированного набора репрезентативных концепций на уровне документа O = {o₁, o₂, ..., oₖ}
  • Использование модели встраивания OpenAI Ada для встраивания концепций
  • Применение алгоритма K-средних для группировки в K семантически согласованных кластеров

2. Сборка доказательств, ориентированных на концепции (Concept-centered Evidence Assembly)

Поиск между блоками:

  • Для каждой концепции на уровне документа использование конвейера поисковик-переранжировщик для поиска top-N релевантных блоков
  • Применение плотного поисковика и BGE-Reranker-Base для поиска и переранжирования

Извлечение доказательств:

  • Фильтрация на уровне предложений в извлечённых блоках
  • Извлечение подмножества текста, ориентированного на концепцию, называемого доказательством e
  • Представление как d^{oᵢ} → {e^{oᵢ}₀, e^{oᵢ}₁, ..., e^{oᵢ}_N}

3. Генерация QAC (QAC Generation)

Типы вопросов по Блуму: На основе пересмотренной таксономии Блума с шестью уровнями познания:

  • Запоминание (Remembering): определение или воспроизведение информации
  • Понимание (Understanding): построение смысла из информации
  • Применение (Applying): использование знания в новых ситуациях
  • Анализ (Analyzing): разложение информации и поиск доказательств
  • Оценка (Evaluating): вынесение суждений на основе критериев
  • Создание (Creating): объединение элементов в связное целое

Генерация вопросов:

  • Поддержка комбинаций нескольких основ, уровень комбинации ℓ контролирует количество одновременно используемых концепций
  • При ℓ=1 перебор всех отдельных основ; при ℓ≥2 поддержка рассуждения между концепциями
  • Использование ChatGPT-4o для генерации вопросов, эталонных ответов, траекторий рассуждения и поддерживающих доказательств

Построение вариантов контекста: Связывание четырёх тщательно подобранных вариантов контекста с каждым экземпляром вопроса-ответа:

  • Полная поддержка: предложения доказательства, непосредственно отвечающие на вопрос
  • Частичная поддержка: подмножество доказательства, содержащее неполную информацию
  • Не относящиеся к делу: содержание того же домена, но не связанное с вопросом
  • Вводящие в заблуждение: тематически связанные, но семантически недостаточные материалы

Технические инновации

  1. Глобальное слияние концепций: преодоление ограничений одного блока посредством извлечения концепций на уровне документа, поддержка глобальной генерации вопросов
  2. Многоуровневое моделирование познания: обеспечение систематического распределения когнитивной сложности вопросов на основе таксономии Блума
  3. Детализированная стратегия отвлечения: разработка четырёх типов вариантов контекста, превосходящих методы случайного отвлечения
  4. Рассуждение между блоками и концепциями: поддержка комбинаций нескольких основ, реализация сложного логического цепного рассуждения

Экспериментальная установка

Наборы данных

Построение трёх наборов данных, специфичных для домена:

ДоменРазмер корпуса (обучение/оценка)Количество вопросов (RAGen/LlamaIndex/AutoRAG)
PPFS15/32726/2502/2084
TradePolicy20/51977/1820/1500
BusinessAI17/32228/2118/2072
  • PPFS: документы партнёрства APEC по безопасности пищевых продуктов
  • TradePolicy: нормативные акты по импорту-экспорту из 8 экономик APEC
  • BusinessAI: отчёты об внедрении искусственного интеллекта в различных бизнес-подразделениях

Метрики оценки

  • Задачи поиска: Recall@K (K=1,5,10), MRR@10
  • Задачи генерации: ROUGE-L, BERT-F1

Методы сравнения

  • AutoRAG: фреймворк автоматической конфигурации конвейера RAG
  • LlamaIndex Dataset Generator: генератор QA данных с открытым исходным кодом

Детали реализации

  • Разбиение документов: блоки из 1024 токенов с перекрытием в 200 токенов
  • Тонкая настройка модели встраивания: скорость обучения 1e-5, 3 эпохи, параметр температуры τ=0.02
  • Тонкая настройка языковой модели: метод LoRA, скорость обучения 1e-5, 5 эпох

Результаты экспериментов

Основные результаты

Результаты кастомизации модели встраивания

На всех моделях встраивания в трёх доменах набор данных RAGen достигает лучшей производительности:

Производительность модели BGE-large в домене PPFS:

  • Recall@1: RAGen(0.3095) > LlamaIndex(0.2024) > AutoRAG(0.1877)
  • MRR@10: RAGen(0.4626) > LlamaIndex(0.3548) > AutoRAG(0.3342)

Результаты контролируемой тонкой настройки языковой модели

RAGen постоянно превосходит базовые методы во всех доменах и размерах моделей:

Qwen2.5-3B в домене PPFS:

  • ROUGE-L: RAGen(0.3815) > AutoRAG(0.3436) > LlamaIndex(0.3253)
  • BERT-F1: RAGen(0.9079) > AutoRAG(0.8979) > LlamaIndex(0.8952)

Абляционные исследования

Эффект отвлекающего контекста

Оценка в реальных условиях вывода RAG (k=3):

  • Обучение без отвлечения: ROUGE-L(0.3143), BERT-F1(0.8957)
  • Обучение с отвлечением: ROUGE-L(0.4074), BERT-F1(0.9121)

Значительное улучшение подтверждает эффективность обучения с учётом отвлечения.

Анализ примеров

Пример вопроса между концепциями

Вопрос: "Как интеграция агентов по составлению документов влияет на прибыль и убытки компаний в области биологических наук?"

  • Концепции: агенты по составлению документов & прибыль и убытки
  • Источники доказательств: доказательства из 3 несмежных блоков
  • Глубина рассуждения: требует комплексного анализа нескольких источников доказательств

Экспериментальные выводы

  1. Распределение по уровням познания: RAGen генерирует больше вопросов высокого порядка познания (анализ, оценка, создание), значительно снижая количество вопросов низкого уровня
  2. Способность между концепциями: комбинации нескольких основ реализуют глобальное рассуждение, недостижимое традиционными методами одного блока
  3. Повышение устойчивости: обучение с отвлекающим контекстом значительно повышает производительность модели в условиях шумного поиска

Связанные работы

Исследования генерации вопросов

  • CliniQG4QA: контролируемая генерация пар QA в клинической области, но зависит от методов, управляемых шаблонами
  • E2EQR: генерация многошаговых QA, но не хватает механизма семантического выбора доказательств
  • RAGEval: оценка наборов данных QA в контексте RAG, но зависит от специфичных для сценария шаблонов

Поиск с дополнением генерацией

  • DPR: улучшение поиска посредством обучения плотным представлениям
  • GraphRAG: поиск и декодирование на основе графов, но зависит от предопределённых шаблонов графов
  • RAFT: введение контролируемого отвлечением обучения для повышения устойчивости языковой модели
  • Self-RAG/OpenRAG: методы контроля поиска во время вывода

Заключение и обсуждение

Основные выводы

  1. Фреймворк RAGen успешно генерирует высококачественные наборы данных QAC, специфичные для домена
  2. Стратегия адаптации RAG нескольких компонентов значительно превосходит методы оптимизации одного компонента
  3. Генерация вопросов на основе таксономии Блума обеспечивает систематическое распределение когнитивной сложности
  4. Способность рассуждения между блоками и концепциями реализует более полное понимание домена

Ограничения

  1. Ограничения формата документа: в настоящее время поддерживаются только текстовые документы, не поддерживаются PDF или многомодальные входные данные
  2. Зависимость от качества исходных документов: качество генерируемых данных значительно зависит от качества исходных документов
  3. Ручная установка гиперпараметров: количество концепций на уровне документа K требует ручного указания
  4. Вычислительные затраты: зависимость от ChatGPT-4o может привести к высоким вычислительным затратам

Направления будущих исследований

  1. Расширение на возможности обработки многомодальных документов
  2. Автоматизация механизма выбора гиперпараметров
  3. Снижение зависимости от коммерческих API
  4. Поддержка приложений корпоративного масштаба

Глубокая оценка

Преимущества

  1. Инновационность методологии: первый предложенный единый фреймворк генерации данных, поддерживающий адаптацию RAG нескольких компонентов
  2. Прочная теоретическая основа: генерация вопросов на основе таксономии Блума имеет прочную педагогическую теоретическую основу
  3. Достаточность экспериментов: проверка эффективности методологии в трёх различных доменах, разумный дизайн сравнительных экспериментов
  4. Высокая практическая ценность: решение практических потребностей адаптации корпоративных систем RAG

Недостатки

  1. Ограничения оценки: проверка только в трёх доменах, способность к обобщению требует более широкой проверки
  2. Отсутствие анализа вычислительных затрат: отсутствует подробный анализ вычислительных затрат и временной сложности фреймворка
  3. Недостаток человеческой оценки: в основном полагается на автоматические метрики оценки, не хватает человеческой оценки качества
  4. Неизвестные долгосрочные эффекты: отсутствует оценка долгосрочной способности адаптации в динамически развивающихся доменах

Влияние

  1. Академический вклад: предоставление новой исследовательской парадигмы для адаптации систем RAG к доменам
  2. Практическая ценность: предоставление практического решения для корпоративных хранилищ знаний и исследовательских областей
  3. Воспроизводимость: подробное описание методологии, ясная экспериментальная установка, хорошая воспроизводимость

Применимые сценарии

  1. Корпоративные хранилища знаний: применимо к системам управления знаниями корпорации, требующим частых обновлений
  2. Научная литература: подходит для обработки литературы быстро развивающихся научных областей
  3. Профессиональное консультирование: может использоваться в интеллектуальных системах вопросно-ответных систем в специализированных областях, таких как право и медицина
  4. Образование и обучение: особенности, основанные на таксономии Блума, делают её подходящей для образовательных сценариев

Библиография

Статья ссылается на множество важных связанных работ, включая основополагающие работы по RAG Lewis et al. (2020), метод RAFT Zhang et al. (2024c) и методы контроля поиска во время вывода, такие как Self-RAG Asai et al. (2023), отражая полное понимание исследований в соответствующих областях.