2025-11-18T10:22:13.240299

Large Language Model-Driven Database for Thermoelectric Materials

Itani, Zhang, Zang

Thermoelectric materials provide a sustainable way to convert waste heat into electricity. However, data-driven discovery and optimization of these materials are challenging because of a lack of a reliable database. Here we developed a comprehensive database of 7,123 thermoelectric compounds, containing key information such as chemical composition, structural detail, seebeck coefficient, electrical and thermal conductivity, power factor, and figure of merit (ZT). We used the GPTArticleExtractor workflow, powered by large language models (LLM), to extract and curate data automatically from the scientific literature published in Elsevier journals. This process enabled the creation of a structured database that addresses the challenges of manual data collection. The open access database could stimulate data-driven research and advance thermoelectric material analysis and discovery.

academic

대규모 언어 모델 기반 열전 재료 데이터베이스

기본 정보

논문 ID: 2501.00564
제목: Large Language Model-Driven Database for Thermoelectric Materials
저자: Suman Itani, Yibo Zhang, Jiadong Zang (뉴햄프셔 대학교)
분류: cond-mat.mtrl-sci cs.DL
발표 시간: 2025년 1월 3일 (프리프린트)
논문 링크: https://arxiv.org/abs/2501.00564

초록

열전 재료는 폐열을 전기 에너지로 변환하는 지속 가능한 방법을 제공한다. 그러나 신뢰할 수 있는 데이터베이스의 부재로 인해 이러한 재료의 데이터 기반 발견 및 최적화가 어려움을 겪고 있다. 본 연구는 7,123개의 열전 화합물을 포함하는 포괄적인 데이터베이스를 개발했으며, 화학 조성, 구조 세부 사항, 제벡 계수, 전기 전도도 및 열 전도도, 전력 인자 및 무차원 성능 지수(ZT) 등의 핵심 정보를 포함한다. 본 연구는 대규모 언어 모델로 구동되는 GPTArticleExtractor 워크플로우를 사용하여 Elsevier 저널에 발표된 과학 문헌에서 데이터를 자동으로 추출하고 정리했다. 이 과정은 구조화된 데이터베이스의 생성을 실현하여 수동 데이터 수집의 과제를 해결했다. 이 오픈 액세스 데이터베이스는 데이터 기반 연구를 촉진하고 열전 재료 분석 및 발견을 진전시킬 수 있다.

연구 배경 및 동기

문제 정의

에너지 변환 필요성: 전 지구적 에너지 문제와 환경 문제가 심화됨에 따라 열 에너지를 전기 에너지로 직접 변환하는 핵심 기술인 열전 재료가 주목받고 있다
데이터 부족 문제: 기존 열전 재료 데이터베이스의 상당한 한계:
- 대부분 제1원리 계산에 기반하며 이상적인 미도핑 결정 구조로 제한됨
- 실험 데이터베이스 규모가 작고 수동 정리 필요
- 구조 정보 부족으로 구조-성능 관계 연구 제한

연구의 중요성

열전 재료의 성능은 무차원 성능 지수 ZT로 정량화된다:

ZT = S²σT/κ

여기서 S는 제벡 계수, σ는 전기 전도도, T는 절대 온도, κ는 열 전도도이다. ZT 최적화는 이러한 상호 연관된 성질들을 동시에 고려해야 하므로 재료 설계가 극히 도전적이다.

기존 방법의 한계

전통적 방법: 실험 시행착오 및 이론 시뮬레이션(DFT, MD)에 의존하며 시간 소모적이고 계산 비용이 높음
기존 데이터베이스:
- 계산 데이터베이스는 실제 재료 거동을 완전히 반영하지 못함
- 실험 데이터베이스 규모 제한적
- 기계 학습 응용을 위한 구조 정보 부족
자동화 추출: ChemDataExtractor 등의 도구는 다중 화합물 논문 처리 시 정확도 저하

핵심 기여

대규모 데이터베이스 구축: 7,123개의 열전 화합물을 포함하는 포괄적 데이터베이스 생성, 주요 열전 성질 및 구조 정보 포함
자동화 데이터 추출: GPTArticleExtractor 워크플로우 채택, 대규모 언어 모델을 활용한 과학 문헌에서의 구조화된 데이터 자동 추출
데이터 품질 보증: 실험 및 이론 데이터 식별 포함, 약 66%가 실험 데이터로 데이터 신뢰성 향상
오픈 액세스 자원: nemad.org에서 오픈 액세스 제공, 데이터 기반 열전 재료 연구 지원
구조-성능 관계: 열전 재료 데이터베이스에서 처음으로 체계적으로 구조 정보 포함, 그래프 신경망 등 고급 방법 지원

방법론 상세 설명

작업 정의

과학 문헌에서 열전 재료의 성질 데이터 및 구조 정보를 자동으로 추출하여 표준화된 구조화 데이터베이스를 구축하며, 다음을 포함한다:

입력: Elsevier 저널에 발표된 열전 관련 과학 문헌
출력: 화학식, 열전 성질, 구조 매개변수를 포함하는 표준화된 JSON 형식 데이터
제약: 데이터 정확성 및 단위 통일성 보장

워크플로우 아키텍처

1. DOI 수집 단계

키워드("Thermoelectric", "Seebeck Coefficient", "Figure of Merit")를 사용하여 관련 논문 필터링
Elsevier 저널 데이터베이스에서 웹 크롤링 스크립트를 통해 약 20,000개의 DOI 수집

2. 논문 획득 단계

Elsevier API 키를 사용하여 XML 형식 전문 다운로드
XML을 순수 텍스트 CSV 형식으로 변환하는 맞춤형 텍스트 및 표 파싱 도구 개발
중첩 태그 및 불필요한 메타데이터 제거

3. 데이터 추출 및 컴파일 단계

GPTArticleExtractor 핵심 기술:
- OpenAI API를 통한 GPT-4 모델 활용 데이터 추출
- 특정 정보 추출 요구사항을 위한 고도로 맞춤화된 프롬프트 설계
- 사전 정의된 형식을 준수하는 구조화된 JSON 파일 출력
- 다중 재료 논문에 대한 JSON 객체 리스트 생성