PRoH: Dynamic Planning and Reasoning over Knowledge Hypergraphs for Retrieval-Augmented Generation
Zai, Tan, Wang et al.
Knowledge Hypergraphs (KHs) have recently emerged as a knowledge representation for retrieval-augmented generation (RAG), offering a paradigm to model multi-entity relations into a structured form. However, existing KH-based RAG methods suffer from three major limitations: static retrieval planning, non-adaptive retrieval execution, and superficial use of KH structure and semantics, which constrain their ability to perform effective multi-hop question answering. To overcome these limitations, we propose PRoH, a dynamic Planning and Reasoning over Knowledge Hypergraphs framework. PRoH incorporates three core innovations: (i) a context-aware planning module that sketches the local KH neighborhood to guide structurally grounded reasoning plan generation; (ii) a structured question decomposition process that organizes subquestions as a dynamically evolving Directed Acyclic Graph (DAG) to enable adaptive, multi-trajectory exploration; and (iii) an Entity-Weighted Overlap (EWO)-guided reasoning path retrieval algorithm that prioritizes semantically coherent hyperedge traversals. Experiments across multiple domains demonstrate that PRoH achieves state-of-the-art performance, surpassing the prior SOTA model HyperGraphRAG by an average of 19.73% in F1 and 8.41% in Generation Evaluation (G-E) score, while maintaining strong robustness in long-range multi-hop reasoning tasks.
academic
PRoH: Planificación Dinámica y Razonamiento sobre Hipergrafos de Conocimiento para Generación Aumentada por Recuperación
Los hipergrafos de conocimiento (Knowledge Hypergraphs, KHs) como forma emergente de representación del conocimiento para la generación aumentada por recuperación (RAG), ofrecen un paradigma para modelar relaciones multi-entidad en forma estructurada. Sin embargo, los métodos RAG basados en KH existentes presentan tres limitaciones principales: planificación de recuperación estática, ejecución de recuperación no adaptativa y utilización superficial de la semántica de la estructura KH, lo que limita su capacidad para realizar respuestas efectivas a preguntas de múltiples saltos. Para superar estas limitaciones, este artículo propone PRoH, un marco de planificación y razonamiento dinámico sobre hipergrafos de conocimiento. PRoH contiene tres innovaciones principales: (1) un módulo de planificación consciente del contexto que guía la generación de planes de razonamiento estructurado mediante la delineación de vecindarios KH locales; (2) un proceso de descomposición de problemas estructurado que organiza subproblemas en grafos acíclicos dirigidos (DAG) dinámicamente evolutivos para permitir exploración adaptativa de múltiples trayectorias; (3) un algoritmo de recuperación de rutas de razonamiento guiado por superposición ponderada de entidades (EWO) que prioriza el recorrido de hiperedges semánticamente coherentes.
Los sistemas RAG tradicionales dependen principalmente de la similitud semántica para la recuperación, siendo incapaces de capturar el conocimiento de relaciones estructuradas inherente a muchos dominios de información, y frecuentemente recuperan contenido redundante o ruidoso. Aunque los RAG basados en grafos mejoran este problema mediante grafos de conocimiento (KG), la mayoría de marcos existentes solo modelan relaciones que involucran dos entidades, ignorando la naturaleza n-aria de muchas relaciones en el mundo real.
Muchas relaciones en el mundo real involucran múltiples entidades, como "Mario + Rabbids Kingdom Battle es la primera colaboración importante entre Nintendo y Ubisoft", una relación que conecta simultáneamente tres entidades. Descomponer estas relaciones n-arias en múltiples aristas binarias inevitablemente resulta en la pérdida de información estructural y semántica clave.
Los métodos RAG basados en KH existentes presentan tres limitaciones principales:
Planificación de recuperación estática: Dependen de canalizaciones de recuperación predefinidas y codificadas, aplicando la misma secuencia de operaciones independientemente del contenido de la consulta o del contexto del grafo
Ejecución de recuperación no adaptativa: Adoptan un enfoque de recuperación única y no iterativa, siendo incapaces de utilizar resultados de razonamiento intermedio para optimizar la recuperación
Utilización superficial de la semántica de la estructura del grafo: Tratan principalmente las hiperedges como enlaces simples o mecanismos de enrutamiento para acceder a bloques de texto relevantes, ignorando la semántica de relaciones rica codificada en las hiperedges
Propuesta del Marco PRoH: Un marco RAG de hipergrafos de conocimiento dinámico que aprovecha plenamente la capacidad expresiva de hipergrafos para respuestas a preguntas de múltiples saltos
Mecanismo de Planificación Consciente del Contexto: Un mecanismo de planificación que delinea el hipergrafo de conocimiento subyacente y genera planes de razonamiento viables
Estrategia de Recuperación de Rutas de Razonamiento Guiada por EWO: Una estrategia de exploración de grano fino y consciente de la semántica específica para hipergrafos de conocimiento
Mejora Significativa de Rendimiento: Logra rendimiento SOTA en múltiples dominios de conocimiento, con una mejora promedio de puntuación F1 de 19.73% y una mejora de puntuación de evaluación generativa (G-E) de 8.41%
Dada una pregunta q y un hipergrafo de conocimiento H = (V, E), el RAG de hipergrafos necesita recuperar conocimiento relevante para la pregunta de H (conjunto de hechos F), y luego generar una respuesta a(q) basada en q y F.
Delineación del Subgrafo de Pregunta: Construye el grafo de contexto de planificación Hp, proporcionando entrada estructurada al LLM
Generación de Plan de Razonamiento Inicial: Genera plan de razonamiento basado en el contexto de planificación
Construcción de DAG de Razonamiento: Representa el plan de razonamiento como un grafo acíclico dirigido, aplicando reducción de Hasse para obtener representación mínima
Conjunto de Datos KHQA: Abarca cinco dominios: medicina, agricultura, ciencias de la computación, derecho y mixto
Extensión de Problemas de Largo Alcance: Se generan 200 problemas adicionales de 3-6 saltos por dominio para evaluar la capacidad de razonamiento de múltiples saltos
En tareas de respuesta a preguntas de múltiples saltos de largo alcance, PRoH demuestra robustez sólida, con mejora promedio de F1 de 26.68%, alcanzando mejora máxima de 44.87% en el dominio de ciencias de la computación.
La variante PRoH-L mantiene rendimiento competitivo mientras reduce significativamente el uso de tokens, logrando reducción de tokens de 30.07% en el dominio de agricultura mientras mejora F1 en 16.58%.
Los métodos RAG basados en grafos existentes logran recuperación más precisa y razonamiento consciente de relaciones mediante grafos de conocimiento, pero la mayoría se limitan a representación de relaciones binarias.
Sistemas tempranos como HyperGraphRAG e Hyper-RAG extraen hiperedges para capturar relaciones de orden superior, pero aún dependen de canalizaciones de recuperación heurísticas de una sola vez, careciendo de capacidad de planificación consciente del contexto y razonamiento iterativo.
PRoH resuelve exitosamente las tres limitaciones principales de los métodos RAG basados en KH existentes mediante la introducción de planificación consciente del contexto, descomposición estructurada e iterativa de problemas y recuperación de rutas de razonamiento guiada por EWO, logrando mejoras de rendimiento significativas en múltiples dominios de conocimiento.
Innovación Fuerte: Propone por primera vez un marco KH-RAG de planificación y razonamiento dinámico, resolviendo limitaciones centrales de métodos existentes
Contribuciones Técnicas Significativas: El mecanismo de puntuación EWO y la descomposición estructurada de problemas son innovaciones importantes específicas para características de hipergrafos
Experimentación Completa: Abarca múltiples dominios y tareas de razonamiento de largo alcance, con experimentos de ablación exhaustivos
Mejora de Rendimiento Evidente: Mejoras significativas y consistentes en comparación con métodos SOTA
El artículo cita 40 referencias relacionadas, abarcando trabajo importante en campos relacionados como RAG basado en grafos, hipergrafos de conocimiento y razonamiento de múltiples saltos, proporcionando una base teórica sólida para la investigación.