2025-11-22T20:07:15.604385

Semantic-Condition Tuning: Fusing Graph Context with Large Language Models for Knowledge Graph Completion

Liu, Wen, Sun et al.
Fusing Knowledge Graphs with Large Language Models is crucial for knowledge-intensive tasks like knowledge graph completion. The prevailing paradigm, prefix-tuning, simply concatenates knowledge embeddings with text inputs. However, this shallow fusion overlooks the rich relational semantics within KGs and imposes a significant implicit reasoning burden on the LLM to correlate the prefix with the text. To address these, we propose Semantic-condition Tuning (SCT), a new knowledge injection paradigm comprising two key modules. First, a Semantic Graph Module employs a Graph Neural Network to extract a context-aware semantic condition from the local graph neighborhood, guided by knowledge-enhanced relations. Subsequently, this condition is passed to a Condition-Adaptive Fusion Module, which, in turn, adaptively modulates the textual embedding via two parameterized projectors, enabling a deep, feature-wise, and knowledge-aware interaction. The resulting pre-fused embedding is then fed into the LLM for fine-tuning. Extensive experiments on knowledge graph benchmarks demonstrate that SCT significantly outperforms prefix-tuning and other strong baselines. Our analysis confirms that by modulating the input representation with semantic graph context before LLM inference, SCT provides a more direct and potent signal, enabling more accurate and robust knowledge reasoning.
academic

Семантико-Условная Настройка: Интеграция Контекста Графа с Большими Языковыми Моделями для Дополнения Графов Знаний

Основная информация

  • ID статьи: 2510.08966
  • Название: Semantic-Condition Tuning: Fusing Graph Context with Large Language Models for Knowledge Graph Completion
  • Авторы: Ruitong Liu, Yan Wen, Te Sun, Yunjia Wu, Pingyang Huang, Zihang Yu, Siyuan Li
  • Классификация: cs.AI cs.CL
  • Дата публикации/Конференция: The ACM Web Conference, 13-17 апреля 2026, Дубай, ОАЭ
  • Ссылка на статью: https://arxiv.org/abs/2510.08966

Аннотация

В данной статье предлагается Semantic-Condition Tuning (SCT) — новая парадигма внедрения знаний для решения проблемы интеграции графов знаний и больших языковых моделей при дополнении графов знаний. Традиционные методы префиксной настройки просто конкатенируют вложения знаний с текстовым входом, что приводит к поверхностному слиянию и игнорирует богатую реляционную семантику в графах знаний, возлагая на LLM тяжелое бремя неявного логического вывода. SCT включает два ключевых модуля: семантический модуль графа использует графовые нейронные сети для извлечения контекстно-зависимых семантических условий из локальной окрестности графа; модуль адаптивного условного слияния адаптивно модулирует текстовые вложения через два параметризованных проектора, обеспечивая глубокое, признаковое и знаниевое взаимодействие.

Исследовательский контекст и мотивация

Основные проблемы

  1. Неполнота графов знаний: Графы знаний в реальном мире по своей природе неполны, что ограничивает их полезность в нижестоящих приложениях
  2. Ограничения поверхностного слияния: Существующие методы префиксной настройки выполняют только простые операции конкатенации, неспособные полностью использовать структурную информацию графов знаний
  3. Динамичность реляционной семантики: Значение отношений динамически изменяется в зависимости от окружающего семантического контекста, как показано на рисунке 1, где отношение "treats" представляет различные механизмы лечения в разных контекстах

Значимость исследования

  • Дополнение графов знаний критически важно для систем рекомендаций, извлечения информации, систем вопросно-ответных и других приложений
  • LLM недостаточно обладают глубокими и точными фактическими знаниями, подвержены проблеме галлюцинаций
  • Необходимо эффективно интегрировать явные структурированные знания графов знаний с неявными параметризованными знаниями LLM

Ограничения существующих методов

  1. Поверхностность префиксной настройки: Простые операции конкатенации не обеспечивают глубокую интеграцию
  2. Игнорирование реляционной семантики: Неспособность захватить богатую реляционную семантику в графах знаний
  3. Бремя логического вывода: Возложение тяжелого бремени неявного логического вывода на LLM для связи префикса и текста

Основные вклады

  1. Предложение структуры SCT: Первая структура семантико-условной настройки, интегрирующая контекстно-зависимое и адаптивное слияние вложений, преодолевающая ограничения существующей простой префиксной конкатенации
  2. Семантический модуль графа: Предложен новый механизм передачи сообщений, ориентированный на отношения, где выбор соседей направляется явными оценками семантического сходства, основанными на знаниевых описаниях отношений
  3. Модуль адаптивного условного слияния: Введен механизм слияния, использующий семантические условия для обучения прямым признаковым аффинным преобразованиям входных текстовых вложений, обеспечивая глубокую синергетическую интеграцию контекста графа
  4. Проверка производительности: Демонстрация передовой производительности SCT и высокой параметрической эффективности на нескольких эталонных тестах

Подробное описание методологии

Определение задачи

Граф знаний G определяется как набор троек T = {(h, r, t) | h, t ∈ E, r ∈ R}, где E и R обозначают соответственно наборы сущностей и отношений. Задача дополнения графа знаний заключается в предсказании недостающих элементов в данной тройке, например, предсказание хвостовой сущности t для запроса (h, r, ?). В дополнении графа знаний на основе LLM эта задача формализуется как задача генерации текста.

Архитектура модели

1. Семантический модуль графа (Semantic Graph Module)

Обогащение знаниями:

  • Использование мощной LLM (GPT-4O) для генерации канонических текстовых описаний для каждого типа отношения
  • Кодирование описаний в семантические векторы с использованием предварительно обученной модели встраивания предложений (Sentence-BERT)

Передача сообщений, ориентированная на отношения:

  • Использование структуры отношений KG в качестве основного вычислительного графа
  • Обновление состояния ребер (отношений) путем агрегирования информации соседних ребер
  • Использование механизма выбора Top-K для фильтрации наиболее семантически релевантных соседей:
Score(ec, en) = (sc · sn) / (||sc||2 ||sn||2)

Обновление слоя Transformer:

s^(l+1)_c = TransformerLayer(s^l_c, s̄_N_K(ec))

Генерация семантических условий:

cS = MeanPool({s^L_h,i}_i ∪ {s^L_t,j}_j)

2. Модуль адаптивного условного слияния (Condition-Adaptive Fusion Module)

Использование механизма Feature-wise Linear Modulation (FiLM):

X' = X ⊙ γ + β
γ = σ(MLP1(cS))
β = MLP2(cS)

где γ — вектор масштабирования, β — вектор смещения, обеспечивающие признаковые аффинные преобразования текстовых вложений.

Технические инновации

  1. Глубокое слияние против поверхностной конкатенации: В отличие от простой префиксной конкатенации, SCT обеспечивает признаковое глубокое взаимодействие
  2. Семантически управляемый выбор соседей: Использование обогащенных LLM описаний отношений для расчета семантического сходства вместо представлений, специфичных для задачи
  3. Обработка графа, ориентированная на отношения: Сосредоточение на отношениях вместо сущностей, более эффективно и семантически показательно

Экспериментальная установка

Наборы данных

Предсказание связей:

  • WN18RR: 40 943 сущности, 11 отношений, 86 835 тройек обучения
  • FB15k-237: 14 541 сущность, 237 отношений, 272 115 троек обучения

Классификация троек:

  • UMLS: 135 сущностей, 46 отношений
  • CoDeX-S: 2 034 сущности, 42 отношения
  • FB15k-237N: 13 104 сущности, 93 отношения

Метрики оценки

  • Предсказание связей: Mean Reciprocal Rank (MRR) и Hits@N
  • Классификация троек: Accuracy (Acc), Precision (P), Recall (R), F1-Score

Методы сравнения

Методы встраивания: TransE, CompGCN, AdaProp, MA-GNN и др. Методы LLM: KICGPT, KG-FIT, MKGL, SSQR-LLaMA2, KoPA и др.

Детали реализации

  • Реализация на основе Alpaca-7B
  • Семантический модуль графа: 2 слоя Transformer, Top-K=10
  • Микронастройка LLM с использованием LoRA (rank=64)
  • Оптимизатор AdamW, размер пакета 12
  • Двухэтапная стратегия обучения

Результаты экспериментов

Основные результаты

Производительность предсказания связей:

  • Набор данных WN18RR: улучшение MRR на 2,2% по сравнению с сильнейшей базовой линией SSQR-LLaMA2, улучшение Hits@1 на 2,4%, Hits@3 на 2,6%
  • Набор данных FB15k-237: значительное улучшение MRR на 4,9%, Hits@1 на 1,6%, Hits@10 на 4,4%

Производительность классификации троек:

  • Набор данных UMLS: точность 93,15%, F1-оценка 93,18%, достижение лучшей производительности
  • Набор данных FB15k-237N: точность 78,02%, полнота 71,10%, F1-оценка 80,93%, все показатели лучшие
  • Набор данных CoDeX-S: полнота 78,52% наивысшая, другие показатели сопоставимы с сильными базовыми линиями

Абляционные эксперименты

Проверка эффективности компонентов:

  1. w/o Semantics: Удаление семантического модуля графа, замена традиционным KGE
    • На FB15k-237 MRR снижается с 0,471 до 0,433, Hits@1 с 0,380 до 0,327
  2. w/o Fusion: Удаление модуля адаптивного условного слияния, замена префиксной настройкой
    • Наиболее серьезное снижение производительности, MRR и Hits@1 снижаются на 0,062 и 0,081 соответственно

Сравнение функций оценки:

  • Функция стиля RotatE показывает лучшие результаты, MRR достигает 0,471
  • Простые DistMult и MLP приводят к явному снижению производительности

Анализ примеров

Эффект семантического обогащения: На примере запроса (Barack Obama, /government/politician/government_positions_held..., ?):

  • Без обогащения знаниями: На основе лексического перекрытия Gov Position (Title) и т.д. занимают высокие позиции
  • С обогащением знаниями: Семантически релевантные концепции, такие как Person (Nationality), повышают свой рейтинг, отражая переход от поверхностного текстового сопоставления к истинной семантической релевантности

Чувствительность гиперпараметров: Параметр Top-K достигает оптимальной производительности при K=10 (MRR=0,471, Hit@1=0,380), слишком малое значение (K=4) приводит к недостаточности информации, слишком большое (K=32) вводит шум.

Связанные работы

Дополнение графов знаний

  1. Методы встраивания: Развитие от геометрических моделей TransE, ComplEx к более сложным геометрическим методам пространства RotE, HAKE
  2. Методы GNN: PathCon, CBLiP и др. агрегируют информацию многошаговых путей, но остаются основаны на статических представлениях
  3. Методы LLM: KG-BERT, SimKGC и др. преобразуют тройки в текстовые последовательности, но взаимодействие остается на поверхностном уровне

Интеграция LLM и графов знаний

Два основных направления:

  1. Использование KG для предоставления фактической основы LLM, снижение галлюцинаций
  2. Использование генеративных и логических способностей LLM для решения задач, связанных с KG

Общее ограничение существующих методов: взаимодействие с графами знаний часто остается на текстовом или поверхностном уровне.

Заключение и обсуждение

Основные выводы

  1. SCT значительно превосходит методы поверхностной префиксной настройки благодаря глубокому признаковому слиянию
  2. Семантический модуль графа эффективно захватывает контекстно-зависимую реляционную семантику
  3. Модуль адаптивного условного слияния обеспечивает глубокую синергетическую интеграцию знаний и текста
  4. Достижение передовой или высоко конкурентной производительности на нескольких эталонных тестах

Ограничения

  1. Ограниченная глубина логического вывода: Текущая структура имеет ограниченную глубину логического вывода
  2. Недостаточная адаптивность к динамическим графам знаний: Адаптивность к динамически изменяющимся графам знаний требует улучшения
  3. Вычислительная сложность: Двухэтапное обучение и сложный механизм слияния увеличивают вычислительные затраты

Будущие направления

  1. Иерархическая генерация семантических условий: Введение иерархических механизмов для повышения глубины логического вывода
  2. Временная осведомленность: Интеграция временной осведомленности для обработки динамических знаний
  3. Расширение сценариев применения: Исследование применения в более сложных сценариях, таких как временные графы знаний

Глубокая оценка

Преимущества

  1. Сильная методологическая инновация: Впервые предложена парадигма признакового глубокого слияния, преодолевающая ограничения традиционной префиксной настройки
  2. Разумный технический дизайн: Передача сообщений, ориентированная на отношения, и семантически управляемый выбор соседей демонстрируют изящный дизайн
  3. Полные и всесторонние эксперименты: Охватывают две категории задач — предсказание связей и классификацию троек, проверка на нескольких наборах данных
  4. Подробные абляционные эксперименты: Систематическая проверка вклада каждого компонента
  5. Глубокий анализ примеров: Демонстрация эффекта семантического обогащения на конкретных примерах

Недостатки

  1. Недостаточный анализ вычислительной сложности: Отсутствие подробного анализа вычислительных затрат двухэтапного обучения
  2. Ограниченное обсуждение масштабируемости: Недостаточный анализ применимости к графам знаний сверхбольшого масштаба
  3. Отсутствие анализа ошибок: Недостаток глубокого анализа неудачных примеров
  4. Выбор базовых линий: Некоторые методы сравнения могут быть не самыми новыми и сильными

Влияние

  1. Теоретический вклад: Предоставление новой парадигмы для интеграции графов знаний и LLM
  2. Практическая ценность: Отличная производительность на нескольких эталонных тестах подтверждает практическую применимость
  3. Воспроизводимость: Предоставление подробных деталей реализации способствует воспроизведению
  4. Вдохновляющий характер: Идея признакового слияния может вдохновить другие связанные исследования

Применимые сценарии

  1. Задачи, требующие интенсивного использования знаний: Особенно подходит для задач логического вывода, требующих структурированных знаний
  2. Графы знаний среднего масштаба: Текущий масштаб экспериментов указывает на применимость к приложениям с графами среднего масштаба
  3. Сценарии с высокими требованиями к точности: Выдающаяся производительность в приложениях, где точность важнее эффективности
  4. Требования многошагового логического вывода: Эффективная обработка сложных запросов, требующих многошагового логического вывода

Библиография

Статья цитирует 80 связанных работ, охватывающих встраивание графов знаний, графовые нейронные сети, большие языковые модели и другие важные области, обеспечивая прочную теоретическую основу для исследования. Ключевые цитируемые работы включают классические методы встраивания KG, такие как TransE, RotatE, а также представительные работы по интеграции LLM-KG, такие как KG-BERT, KoPA.