2025-11-22T07:37:16.078617

A Survey of Inductive Reasoning for Large Language Models

Chen, Ruan, Dan et al.

Reasoning is an important task for large language models (LLMs). Among all the reasoning paradigms, inductive reasoning is one of the fundamental types, which is characterized by its particular-to-general thinking process and the non-uniqueness of its answers. The inductive mode is crucial for knowledge generalization and aligns better with human cognition, so it is a fundamental mode of learning, hence attracting increasing interest. Despite the importance of inductive reasoning, there is no systematic summary of it. Therefore, this paper presents the first comprehensive survey of inductive reasoning for LLMs. First, methods for improving inductive reasoning are categorized into three main areas: post-training, test-time scaling, and data augmentation. Then, current benchmarks of inductive reasoning are summarized, and a unified sandbox-based evaluation approach with the observation coverage metric is derived. Finally, we offer some analyses regarding the source of inductive ability and how simple model architectures and data help with inductive tasks, providing a solid foundation for future research.

academic

A Survey of Inductive Reasoning for Large Language Models

基本信息

论文ID: 2510.10182
标题: A Survey of Inductive Reasoning for Large Language Models
作者: Kedi Chen, Dezhao Ruan, Yuhao Dan, Yaoting Wang, Siyu Yan, Xuecheng Wu, Yinqi Zhang, Qin Chen, Jie Zhou, Liang He, Biqing Qi, Linyang Li, Qipeng Guo, Xiaoming Shi, Wei Zhang
分类: cs.CL cs.AI
发表时间: 2025年10月11日（arXiv提交）
论文链接: https://arxiv.org/abs/2510.10182v1

摘要

推理是大语言模型(LLMs)的重要任务。在所有推理范式中，归纳推理是基础类型之一，其特点是从特殊到一般的思维过程和答案的非唯一性。归纳推理模式对于知识泛化至关重要，更好地符合人类认知，是学习的基本模式，因此吸引了越来越多的关注。尽管归纳推理很重要，但目前还没有系统性的总结。因此，本文首次对LLMs的归纳推理进行了全面调研。首先，将改进归纳推理的方法分为三个主要领域：后训练、测试时扩展和数据增强。然后，总结了当前的归纳推理基准，并提出了一个统一的基于沙盒的评估方法和观察覆盖度指标。最后，分析了归纳能力的来源以及简单模型架构和数据如何帮助归纳任务，为未来研究提供了坚实基础。

研究背景与动机

问题定义与重要性

核心问题：尽管归纳推理在LLMs中具有重要地位，但缺乏系统性的研究总结和方法论框架。
重要性体现：
- 归纳推理是从特殊观察推导一般规律的基础认知能力
- 更好地符合人类认知模式，是知识泛化的关键
- 在NLP下游任务和现实场景中有广泛应用
- 与演绎推理不同，归纳推理答案具有非唯一性特征

现有研究局限性

研究偏重：以往工作主要关注演绎推理（如数学证明、程序验证），对归纳推理关注不足
缺乏系统性：没有统一的方法分类和评估框架
理论分析不足：对归纳能力来源和影响因素缺乏深入分析

研究动机

本文旨在填补LLMs归纳推理研究的空白，提供首个全面的调研框架，为该领域的发展奠定基础。

核心贡献

首次全面调研：提供了LLMs归纳推理领域的第一个系统性综述
新的分类体系：将改进方法分为后训练、测试时扩展、数据增强三大类
统一评估框架：提出基于沙盒的评估方法和观察覆盖度(OC)指标
理论分析：深入分析归纳能力来源和简单架构/数据的作用
前瞻性视角：不仅总结现有方法，还展望未来发展方向

方法详解

任务定义

归纳推理任务的核心特征：

输入：具体的观察实例或案例
输出：从观察中推导的一般性规律或规则
特点：从特殊到一般的思维过程，答案具有非唯一性

方法分类框架

1. 后训练方法 (Post-training)

合成数据生成：

LingR：构建语言规则指令集，使模型学习基于语言规则的逐步推理
ItD：利用LLMs的演绎能力生成数据来优化归纳能力
CodeSeq：构建数字序列通项公式的训练集

IRL风格优化：

利用逆强化学习(IRL)思想设计奖励模型
RLHF过程本质上是IRL，通过人类反馈推断潜在奖励函数
Prompt-OIRL：基于历史提示经验训练奖励模型

2. 测试时扩展 (Test-time Scaling)

假设选择：

MoC：生成语义非冗余的概念列表，基于每个概念生成假设
EPIC：使用小型LLMs生成候选编码，通过调节机制过滤

假设迭代：

三步迭代假设优化：生成多个假设→评估覆盖能力→基于反馈修正
SSR：通过执行反馈迭代优化候选规则
ARISE：迭代优化归纳规则后用于训练模型

假设演化：

IncSchema：分阶段查询LLMs，逐步归纳一般模式
HRI：生成归纳元规则并与样本匹配，演化为一阶逻辑规则
PRIMO：渐进式多阶段开放规则归纳方法

3. 数据增强 (Data Augmentation)

人工干预：

SS-VQ-VAE：依赖少量人工标注信息发现新模式
专家知识和人工标注信息的重要性

外部知识检索：

LLEGO：将LLMs中的语义先验知识融入遗传编程操作
利用其他LLMs的参数知识作为补充信息源

结构化信号：

利用子图或上下文信息提供局部隐式信号
QARR：提取查询实体的开放子图进行归纳推理
REST：部署规则诱导子图捕获局部语义模式

实验设置

基准数据集

论文总结了17个主要的归纳推理基准：

对象类型	基准名称	观察输入	归纳目标	样本数量
实体	SCAN	实体状态	状态动作	7,700
网格	ARC	网格对	网格转换规则	400
列表	List Functions	数字列表对	列表操作规则	250
代码	PROGES	输入输出	程序	10,000
字符串	SyGuS	字符串对	字符串映射程序	2,000
数字	CodeSeq	数字序列	通项公式	1,500