Self-Exploring Language Models for Explainable Link Forecasting on Temporal Graphs via Reinforcement Learning
Ding, Huang, Cao et al.
Forecasting future links is a central task in temporal graph (TG) reasoning, requiring models to leverage historical interactions to predict upcoming ones. Traditional neural approaches, such as temporal graph neural networks, achieve strong performance but lack explainability and cannot be applied to unseen graphs without retraining. Recent studies have begun to explore using large language models (LLMs) for graph reasoning, but most of them are constrained to static graphs or small synthetic TGs and lack the evaluation of the quality of reasoning traces generated by LLMs. In this work, we present Reasoning-Enhanced Learning for Temporal Graphs (ReaL-TG), a reinforcement learning framework that fine-tunes LLMs to perform explainable link forecasting on real-world TGs. ReaL-TG uses outcome-based reward to encourage models to self-explore reasoning strategies from graph structure and to produce explanations that directly justify their predictions. To enable evaluation on LLM-generated reasoning traces, we propose a new evaluation protocol combining ranking metrics with an LLM-as-a-Judge system that assesses both the quality of reasoning and the impact of hallucinations. Experiments with ReaL-TG-4B, obtained by fine-tuning Qwen3-4B under our framework, show that it outperforms much larger frontier LLMs, including GPT-5 mini, on ranking metrics, while producing high-quality explanations confirmed by both the LLM judge and human evaluation.
academic
Самоисследующие языковые модели для объяснимого прогнозирования связей на временных графах с использованием обучения с подкреплением
Прогнозирование связей на временных графах (TG) является ключевой задачей, требующей от моделей использования исторических взаимодействий для предсказания будущих соединений. Хотя традиционные нейросетевые методы демонстрируют высокую производительность, им не хватает интерпретируемости и они не могут применяться к неизвестным графам без переобучения. В данной работе предлагается ReaL-TG (Reasoning-Enhanced Learning for Temporal Graphs) — фреймворк обучения с подкреплением, который выполняет интерпретируемое прогнозирование связей на временных графах путём тонкой настройки больших языковых моделей. ReaL-TG использует механизм вознаграждения на основе результатов, побуждающий модель самостоятельно исследовать стратегии рассуждений из структуры графа и генерировать объяснения, непосредственно поддерживающие её предсказания. Экспериментальные результаты показывают, что ReaL-TG-4B превосходит более крупные передовые LLM, включая GPT-5 mini, по метрикам ранжирования, одновременно производя объяснения высокого качества.
Прогнозирование связей на временных графах направлено на предсказание будущих соединений на основе исторических взаимодействий узлов. Это имеет значительную практическую ценность в рекомендательных системах, обнаружении сообществ и финансовом анализе.
Традиционные нейросетевые методы: Такие как временные графовые нейронные сети (TGNN), сетевые модели памяти и другие, хотя и показывают хорошие результаты, имеют две критические проблемы:
Отсутствие читаемых человеком объяснений, что затрудняет оценку надёжности результатов
Требуют переобучения при применении к новым графам, не обладают бесшовной обобщаемостью
Существующие методы на основе LLM:
Большинство ограничены статическими графами или небольшими синтетическими временными графами
Существует риск утечки данных (текстовые атрибуты могут быть встречены во время предварительного обучения)
Отсутствует оценка качества траекторий рассуждений, генерируемых LLM
Целью данной работы является разработка метода прогнозирования связей на временных графах, который одновременно обеспечивает высокое качество предсказаний, генерирует интерпретируемые рассуждения, избегает утечки данных и обобщается на неизвестные графы.
Предложение фреймворка ReaL-TG: Первый фреймворк, позволяющий LLM выполнять объяснимое и эффективное прогнозирование связей на реальных временных графах через обучение с подкреплением
Новый протокол оценки: Сочетание метрик ранжирования и системы LLM-as-a-Judge, оценивающей не только точность предсказаний, но и качество рассуждений и влияние галлюцинаций
Превосходные экспериментальные результаты: ReaL-TG-4B превосходит более крупные передовые LLM как на известных, так и на неизвестных графах, производя объяснения высокого качества, подтверждённые оценкой LLM и человеческой оценкой
Определение временного графа: Временный граф G представляется как последовательность взаимодействий, упорядоченных по времени: G = {(ui, vi, ti)}, где ui, vi — исходный и целевой узлы, ti — временная метка.
Прогнозирование связей в формате вопрос-ответ: Учитывая запрос q = (uq, ?, tq) и историю Htq, LLM должна сгенерировать текстовый ответ A, указывающий набор предсказанных целевых узлов vq.
Самоисследование, ориентированное на результаты: Не зависит от надзора на уровне процесса, позволяя модели самостоятельно открывать эффективные стратегии рассуждений через вознаграждение за результаты
Выбор контекста с учётом времени: Алгоритм T-CGS учитывает временное затухание и выбирает наиболее релевантную историческую информацию
Парадигма предсказания в формате вопрос-ответ: По сравнению с традиционными методами бинарной классификации, прямой проход позволяет непосредственно вывести предсказанные узлы, значительно снижая вычислительные затраты
Временные рассуждения: Существующие эталоны часто зависят от знаний реального мира; данная работа использует анонимизированные графы для избежания утечки данных
Zheng et al. (2023): Парадигма оценки LLM-as-a-Judge
Резюме: В данной работе предложен инновационный фреймворк, успешно сочетающий способности рассуждений больших языковых моделей с механизмом самоисследования обучения с подкреплением, достигший значительного прогресса в задаче прогнозирования связей на временных графах. Хотя существуют некоторые ограничения, вклад в интерпретируемость и способность обобщения открывает новые направления для развития данной области.