2025-11-22T20:07:15.604385

Semantic-Condition Tuning: Fusing Graph Context with Large Language Models for Knowledge Graph Completion

Liu, Wen, Sun et al.
Fusing Knowledge Graphs with Large Language Models is crucial for knowledge-intensive tasks like knowledge graph completion. The prevailing paradigm, prefix-tuning, simply concatenates knowledge embeddings with text inputs. However, this shallow fusion overlooks the rich relational semantics within KGs and imposes a significant implicit reasoning burden on the LLM to correlate the prefix with the text. To address these, we propose Semantic-condition Tuning (SCT), a new knowledge injection paradigm comprising two key modules. First, a Semantic Graph Module employs a Graph Neural Network to extract a context-aware semantic condition from the local graph neighborhood, guided by knowledge-enhanced relations. Subsequently, this condition is passed to a Condition-Adaptive Fusion Module, which, in turn, adaptively modulates the textual embedding via two parameterized projectors, enabling a deep, feature-wise, and knowledge-aware interaction. The resulting pre-fused embedding is then fed into the LLM for fine-tuning. Extensive experiments on knowledge graph benchmarks demonstrate that SCT significantly outperforms prefix-tuning and other strong baselines. Our analysis confirms that by modulating the input representation with semantic graph context before LLM inference, SCT provides a more direct and potent signal, enabling more accurate and robust knowledge reasoning.
academic

Semantic-Condition Tuning: Fusing Graph Context with Large Language Models for Knowledge Graph Completion

基本信息

  • 论文ID: 2510.08966
  • 标题: Semantic-Condition Tuning: Fusing Graph Context with Large Language Models for Knowledge Graph Completion
  • 作者: Ruitong Liu, Yan Wen, Te Sun, Yunjia Wu, Pingyang Huang, Zihang Yu, Siyuan Li
  • 分类: cs.AI cs.CL
  • 发表时间/会议: The ACM Web Conference, April 13-17, 2026, Dubai, UAE
  • 论文链接: https://arxiv.org/abs/2510.08966

摘要

该论文提出了Semantic-Condition Tuning (SCT),一种新的知识注入范式,用于解决知识图谱补全任务中的知识图谱与大语言模型融合问题。传统的前缀调优方法简单地将知识嵌入与文本输入连接,这种浅层融合忽略了知识图谱中丰富的关系语义,并给LLM带来了沉重的隐式推理负担。SCT包含两个关键模块:语义图模块使用图神经网络从局部图邻域中提取上下文感知的语义条件;条件自适应融合模块通过两个参数化投影器自适应地调制文本嵌入,实现深层、特征级和知识感知的交互。

研究背景与动机

核心问题

  1. 知识图谱不完整性:现实世界的知识图谱固有地不完整,限制了其在下游应用中的效用
  2. 浅层融合的局限性:现有的前缀调优方法仅进行简单的连接操作,无法充分利用知识图谱的结构信息
  3. 关系语义的动态性:关系的含义会根据其周围的语义上下文动态变化,如图1所示的"treats"关系在不同上下文中表示不同的治疗机制

研究重要性

  • 知识图谱补全对推荐系统、信息提取、问答系统等应用至关重要
  • LLMs缺乏深度和精确的事实知识,容易产生幻觉问题
  • 需要有效融合知识图谱的显式结构化知识与LLMs的隐式参数化知识

现有方法局限性

  1. 前缀调优的浅层性:简单的连接操作无法实现深层整合
  2. 忽略关系语义:未能捕捉知识图谱中丰富的关系语义
  3. 推理负担:给LLM施加了沉重的隐式推理负担来关联前缀与文本

核心贡献

  1. 提出SCT框架:首个集成上下文感知和自适应嵌入融合的语义条件调优框架,克服了现有简单前缀调优连接的局限性
  2. 语义图模块:提出了新颖的以关系为中心的消息传递机制,邻居选择由知识增强关系描述的显式语义相似度分数指导
  3. 条件自适应融合模块:引入融合机制,使用语义条件学习输入文本嵌入的直接特征级仿射变换,实现图上下文的深层协同整合
  4. 性能验证:在多个基准测试中展示了SCT的最先进性能和高参数效率

方法详解

任务定义

知识图谱G定义为三元组集合T = {(h, r, t) | h, t ∈ E, r ∈ R},其中E和R分别表示实体和关系集合。知识图谱补全任务是推断给定三元组中的缺失元素,如预测查询(h, r, ?)的尾实体t。在基于LLM的KGC中,此任务被形式化为文本生成问题。

模型架构

1. 语义图模块 (Semantic Graph Module)

知识增强

  • 使用强大的LLM (GPT-4O)为每个关系类型生成规范的文本描述
  • 使用预训练的句子嵌入模型(Sentence-BERT)将描述编码为语义向量

关系中心的消息传递

  • 将KG的关系结构作为主要计算图
  • 边(关系)通过聚合邻近边的信息来更新状态
  • 使用Top-K选择机制过滤最语义相关的邻居:
Score(ec, en) = (sc · sn) / (||sc||2 ||sn||2)

Transformer层更新

s^(l+1)_c = TransformerLayer(s^l_c, s̄_N_K(ec))

语义条件生成

cS = MeanPool({s^L_h,i}_i ∪ {s^L_t,j}_j)

2. 条件自适应融合模块 (Condition-Adaptive Fusion Module)

使用Feature-wise Linear Modulation (FiLM)机制:

X' = X ⊙ γ + β
γ = σ(MLP1(cS))
β = MLP2(cS)

其中γ是缩放向量,β是偏移向量,实现对文本嵌入的特征级仿射变换。

技术创新点

  1. 深层融合vs浅层连接:不同于简单的前缀连接,SCT实现特征级的深层交互
  2. 语义驱动的邻居选择:使用LLM增强的关系描述进行语义相似度计算,而非基于任务特定的学习表示
  3. 关系中心的图处理:聚焦于关系而非实体,更高效且语义指示性更强

实验设置

数据集

链接预测

  • WN18RR:40,943个实体,11个关系,86,835个训练三元组
  • FB15k-237:14,541个实体,237个关系,272,115个训练三元组

三元组分类

  • UMLS:135个实体,46个关系
  • CoDeX-S:2,034个实体,42个关系
  • FB15k-237N:13,104个实体,93个关系

评价指标

  • 链接预测:Mean Reciprocal Rank (MRR)和Hits@N
  • 三元组分类:Accuracy (Acc)、Precision (P)、Recall (R)、F1-Score

对比方法

嵌入方法:TransE、CompGCN、AdaProp、MA-GNN等 LLM方法:KICGPT、KG-FIT、MKGL、SSQR-LLaMA2、KoPA等

实现细节

  • 基于Alpaca-7B实现
  • 语义图模块:2层Transformer,Top-K=10
  • 使用LoRA (rank=64)微调LLM
  • AdamW优化器,批大小12
  • 两阶段训练策略

实验结果

主要结果

链接预测性能

  • WN18RR数据集:相比最强基线SSQR-LLaMA2,MRR提升2.2%,Hits@1提升2.4%,Hits@3提升2.6%
  • FB15k-237数据集:MRR显著提升4.9%,Hits@1提升1.6%,Hits@10提升4.4%

三元组分类性能

  • UMLS数据集:准确率93.15%,F1分数93.18%,达到最佳性能
  • FB15k-237N数据集:准确率78.02%,精确率71.10%,F1分数80.93%,均为最佳
  • CoDeX-S数据集:精确率78.52%为最高,其他指标与强基线相当

消融实验

组件有效性验证

  1. w/o Semantics:移除语义图模块,用传统KGE替代
    • FB15k-237上MRR从0.471降至0.433,Hits@1从0.380降至0.327
  2. w/o Fusion:移除条件自适应融合模块,改用前缀调优
    • 性能下降最严重,MRR和Hits@1分别下降0.062和0.081

评分函数比较

  • RotatE风格函数表现最佳,MRR达到0.471
  • 简单的DistMult和MLP导致性能明显下降

案例分析

语义增强效果: 以查询(Barack Obama, /government/politician/government_positions_held..., ?)为例:

  • 无知识增强:基于词汇重叠,Gov Position (Title)等排名靠前
  • 有知识增强:Person (Nationality)等语义相关概念排名提升,体现了从浅层文本匹配到真实语义相关性的转变

超参数敏感性: Top-K参数在K=10时达到最佳性能(MRR=0.471, Hit@1=0.380),过小(K=4)信息不足,过大(K=32)引入噪声。

相关工作

知识图谱补全

  1. 嵌入方法:从TransE、ComplEx等几何模型发展到RotE、HAKE等更复杂的几何空间方法
  2. GNN方法:PathCon、CBLiP等聚合多跳路径信息,但仍基于静态表示
  3. LLM方法:KG-BERT、SimKGC等将三元组转换为文本序列,但交互停留在表面层次

LLMs与知识图谱融合

两个主要方向:

  1. 用KGs为LLMs提供事实基础,减少幻觉
  2. 利用LLMs的生成和推理能力解决KG相关任务

现有方法的共同局限:与知识图谱的交互往往停留在文本或表面层次。

结论与讨论

主要结论

  1. SCT通过深层特征级融合显著优于浅层前缀调优方法
  2. 语义图模块能够有效捕捉上下文感知的关系语义
  3. 条件自适应融合模块实现了知识与文本的深层协同整合
  4. 在多个基准测试中达到最先进或高度竞争的性能

局限性

  1. 推理深度有限:当前框架的推理深度仍有限制
  2. 动态知识图谱适应性不足:对动态变化的知识图谱适应性有待提高
  3. 计算复杂度:两阶段训练和复杂的融合机制增加了计算成本

未来方向

  1. 层次化语义条件生成:引入层次化机制增强推理深度
  2. 时序感知:融入时间感知能力处理动态知识
  3. 扩展应用场景:探索在时序知识图谱等更复杂场景中的应用

深度评价

优点

  1. 方法创新性强:首次提出特征级深层融合范式,突破了传统前缀调优的局限
  2. 技术设计合理:关系中心的消息传递和语义驱动的邻居选择设计巧妙
  3. 实验充分全面:涵盖链接预测和三元组分类两类任务,多个数据集验证
  4. 消融实验详实:系统验证了各组件的贡献
  5. 案例分析深入:通过具体例子展示了语义增强的效果

不足

  1. 计算复杂度分析不足:未详细分析两阶段训练的计算开销
  2. 可扩展性讨论有限:对超大规模知识图谱的适用性分析不充分
  3. 错误分析缺失:缺乏对失败案例的深入分析
  4. 基线选择:部分基线方法可能不是最新的最强方法

影响力

  1. 理论贡献:为知识图谱与LLM融合提供了新的范式
  2. 实用价值:在多个基准测试中的优异表现证明了实用性
  3. 可复现性:提供了详细的实现细节,有助于复现
  4. 启发性:特征级融合的思路可能启发其他相关研究

适用场景

  1. 知识密集型任务:特别适合需要结构化知识的推理任务
  2. 中等规模知识图谱:当前实验规模表明适合中等规模的KG应用
  3. 对准确性要求高的场景:在准确性比效率更重要的应用中表现突出
  4. 多跳推理需求:能够有效处理需要多跳推理的复杂查询

参考文献

论文引用了80篇相关文献,涵盖了知识图谱嵌入、图神经网络、大语言模型等多个领域的重要工作,为研究提供了坚实的理论基础。其中关键参考文献包括TransE、RotatE等经典KG嵌入方法,以及KG-BERT、KoPA等LLM-KG融合的代表性工作。