2025-11-18T10:22:13.240299

Large Language Model-Driven Database for Thermoelectric Materials

Itani, Zhang, Zang

Thermoelectric materials provide a sustainable way to convert waste heat into electricity. However, data-driven discovery and optimization of these materials are challenging because of a lack of a reliable database. Here we developed a comprehensive database of 7,123 thermoelectric compounds, containing key information such as chemical composition, structural detail, seebeck coefficient, electrical and thermal conductivity, power factor, and figure of merit (ZT). We used the GPTArticleExtractor workflow, powered by large language models (LLM), to extract and curate data automatically from the scientific literature published in Elsevier journals. This process enabled the creation of a structured database that addresses the challenges of manual data collection. The open access database could stimulate data-driven research and advance thermoelectric material analysis and discovery.

academic

Large Language Model-Driven Database for Thermoelectric Materials

基本信息

论文ID: 2501.00564
标题: Large Language Model-Driven Database for Thermoelectric Materials
作者: Suman Itani, Yibo Zhang, Jiadong Zang (University of New Hampshire)
分类: cond-mat.mtrl-sci cs.DL
发表时间: 2025年1月3日 (预印本)
论文链接: https://arxiv.org/abs/2501.00564

摘要

热电材料为将废热转化为电能提供了可持续的途径。然而，由于缺乏可靠的数据库，这些材料的数据驱动发现和优化面临挑战。本研究开发了一个包含7,123种热电化合物的综合数据库，包含化学组成、结构细节、塞贝克系数、电导率和热导率、功率因子以及品质因数(ZT)等关键信息。研究使用由大语言模型驱动的GPTArticleExtractor工作流，从Elsevier期刊发表的科学文献中自动提取和整理数据。该过程实现了结构化数据库的创建，解决了手动数据收集的挑战。这个开放获取的数据库可以刺激数据驱动研究，推进热电材料分析和发现。

研究背景与动机

问题定义

能源转换需求: 随着全球能源挑战和环境问题日益突出，热电材料作为直接将热能转换为电能的关键技术受到重视
数据稀缺问题: 现有热电材料数据库存在显著局限性：
- 大多数基于第一性原理计算，局限于理想的未掺杂晶体结构
- 实验数据库规模小且需要人工整理
- 缺乏结构性质信息，限制了结构-性能关系研究

研究重要性

热电材料的性能由无量纲品质因数ZT量化：

ZT = S²σT/κ

其中S为塞贝克系数，σ为电导率，T为绝对温度，κ为热导率。优化ZT需要同时考虑这些相互关联的性质，这使得材料设计极具挑战性。

现有方法局限性

传统方法: 依赖实验试错和理论模拟(DFT、MD)，耗时且计算成本高
现有数据库:
- 计算数据库不能完全反映实际材料行为
- 实验数据库规模有限
- 缺乏结构信息用于机器学习应用
自动化提取: ChemDataExtractor等工具在处理多化合物文章时准确性降低

核心贡献

构建大规模数据库: 创建了包含7,123种热电化合物的综合数据库，涵盖关键热电性质和结构信息
自动化数据提取: 采用GPTArticleExtractor工作流，利用大语言模型自动从科学文献中提取结构化数据
数据质量保证: 包含实验与理论数据标识，约66%为实验数据，提高了数据可靠性
开放获取资源: 在nemad.org提供开放获取，支持数据驱动的热电材料研究
结构-性能关系: 首次在热电材料数据库中系统性包含结构信息，支持图神经网络等先进方法

方法详解

任务定义

从科学文献中自动提取热电材料的性质数据和结构信息，构建标准化的结构化数据库，包括：

输入: Elsevier期刊发表的热电相关科学文献
输出: 包含化学式、热电性质、结构参数的标准化JSON格式数据
约束: 确保数据准确性和单位统一性

工作流程架构

1. DOI收集阶段

使用关键词("Thermoelectric", "Seebeck Coefficient", "Figure of Merit")筛选相关文章
通过网络爬虫脚本从Elsevier期刊数据库收集约20,000个DOI

2. 文章获取阶段

使用Elsevier API密钥下载XML格式全文
开发定制化文本和表格解析工具，将XML转换为纯文本CSV格式
去除嵌套标签和多余元数据

3. 数据提取与编译阶段

GPTArticleExtractor核心技术:
- 利用GPT-4模型通过OpenAI API进行数据提取
- 高度可定制的提示设计，针对特定信息提取需求
- 输出结构化JSON文件，符合预定义格式
- 对多材料文章生成JSON对象列表

技术创新点

LLM驱动的自动化: 相比传统NLP工具，GPT-4在理解复杂科学文本方面表现更优
多材料处理能力: 能够准确处理描述多种化合物及其性质的文章
数据标准化: 开发数据清洗脚本，统一不同文献中的单位制
质量控制: 区分实验和理论数据，提高数据库可靠性

实验设置

数据源

来源: Elsevier期刊发表的科学文献
规模: 处理约20,000篇相关文献
时间跨度: 涵盖历史发表的热电材料研究文献
语言: 英文科学文献

数据处理流程

XML到CSV转换: 保留PDF版本的核心内容
GPT-4提取: 使用精心设计的提示进行信息提取
数据清洗: 统一单位制和数据格式
质量验证: 人工检查关键数据点

提取目标

化学组成和化合物类型
热电性质(S, σ, κ, PF, ZT)及测量温度
结构信息(晶体结构、晶格参数、空间群)
数据来源标识(实验/理论)

实验结果

数据库统计特征

数据库规模与内容

总化合物数: 7,123种热电化合物
数据来源比例: 66%实验数据，34%理论计算数据
结构化程度: 完整的JSON格式，支持机器学习应用

性质分布分析

1. 塞贝克系数分布

范围: -200 μV/K 到 3,000 μV/K
特征: 包含n型(负值)和p型(正值)材料
高值材料: 少数化合物达到3,000 μV/K，主要来自计算研究

2. 电导率分布

平均值: 58,980.63 S/m
中位数: 20,900.00 S/m
最大值: 约500,000 S/m
分布: 强右偏分布，大多数材料电导率较低

3. 热导率分布

平均值: 2.17 W/mK
中位数: 1.10 W/mK
峰值: 1 W/mK附近
特征: 大多数材料具有适合热电应用的低热导率

4. 功率因子分布

计算公式: PF = S² × σ
平均值: 1,165.54 μW/mK²
中位数: 526.86 μW/mK²
最大值: 约7,000 μW/mK²

5. 品质因数(ZT)分布

平均值: 0.75
中位数: 0.72
主要范围: 0.5-1.0
高性能材料: 少数达到ZT ≈ 4.0

数据完整性分析

根据图2显示，不同性质的数据覆盖率存在差异，反映了文献中报告的性质不完整性，这是实际科研中的常见现象。

相关工作

现有数据库对比

计算数据库: Materials Project, JARVIS等主要基于DFT计算
实验数据库: 规模较小，如Gaultois等人的手工整理数据库
自动化提取: Sierepeklis和Cole使用ChemDataExtractor构建了10,641种化合物的数据库

本工作优势

数据质量: 使用先进LLM提高提取准确性
结构信息: 首次系统性包含晶体结构、空间群等信息
数据标识: 明确区分实验和理论数据
持续更新: 建立可扩展的自动化流程

结论与讨论

主要结论

成功构建了目前最全面的热电材料数据库之一，包含7,123种化合物
GPTArticleExtractor证明了LLM在科学数据提取中的有效性
数据库涵盖了从低性能到高性能(ZT~4)的广泛材料范围
结构信息的包含为未来的机器学习应用奠定了基础

局限性

数据完整性: 并非所有化合物都有完整的性质数据
来源限制: 仅限于Elsevier期刊，可能存在发表偏见
质量控制: 虽然使用LLM提高了准确性，但仍需人工验证
动态更新: 需要持续维护以包含最新研究成果

未来方向

扩展到更多期刊和数据源
开发基于此数据库的机器学习模型
集成图神经网络利用结构信息
建立社区贡献机制

深度评价

优点

技术创新: 将LLM应用于科学数据提取，显著提高了自动化程度和准确性
数据价值: 填补了热电材料领域缺乏大规模实验数据库的空白
实用性: 开放获取且格式标准化，便于研究社区使用
前瞻性: 包含结构信息为先进机器学习方法应用铺平道路
方法可复现: 详细描述了工作流程，具有良好的可复现性

不足

验证机制: 缺乏系统性的人工验证来量化提取准确性
偏见问题: 仅使用Elsevier期刊可能引入发表和选择偏见
数据质量评估: 未提供不同来源数据质量的定量比较
更新机制: 未详细说明数据库的长期维护和更新策略

影响力

学术价值: 为热电材料的数据驱动研究提供重要资源
方法示范: GPTArticleExtractor工作流可推广到其他材料科学领域
产业应用: 支持热电器件的工业化开发和优化
教育价值: 为相关课程和研究提供标准化数据集

适用场景

机器学习研究: 训练预测热电性质的模型
材料筛选: 快速识别具有特定性质的候选材料
结构-性能关系研究: 利用结构信息探索设计规律
基准测试: 为新的计算方法提供验证数据集

参考文献

论文引用了40篇相关文献，涵盖了热电材料基础理论、计算方法、现有数据库和机器学习应用等方面，为研究提供了坚实的理论基础和充分的背景调研。

总体评价: 这是一篇高质量的跨学科研究论文，成功将人工智能技术应用于材料科学数据管理，为热电材料研究社区提供了宝贵资源。虽然存在一些局限性，但其创新性方法和实际贡献使其具有重要的学术和实用价值。