2025-11-18T10:22:13.240299

Large Language Model-Driven Database for Thermoelectric Materials

Itani, Zhang, Zang

Thermoelectric materials provide a sustainable way to convert waste heat into electricity. However, data-driven discovery and optimization of these materials are challenging because of a lack of a reliable database. Here we developed a comprehensive database of 7,123 thermoelectric compounds, containing key information such as chemical composition, structural detail, seebeck coefficient, electrical and thermal conductivity, power factor, and figure of merit (ZT). We used the GPTArticleExtractor workflow, powered by large language models (LLM), to extract and curate data automatically from the scientific literature published in Elsevier journals. This process enabled the creation of a structured database that addresses the challenges of manual data collection. The open access database could stimulate data-driven research and advance thermoelectric material analysis and discovery.

academic

База данных термоэлектрических материалов, управляемая большой языковой моделью

Основная информация

ID статьи: 2501.00564
Название: Large Language Model-Driven Database for Thermoelectric Materials
Авторы: Suman Itani, Yibo Zhang, Jiadong Zang (Университет Нью-Гэмпшира)
Классификация: cond-mat.mtrl-sci cs.DL
Дата публикации: 3 января 2025 г. (препринт)
Ссылка на статью: https://arxiv.org/abs/2501.00564

Аннотация

Термоэлектрические материалы предоставляют устойчивый путь для преобразования отходящего тепла в электрическую энергию. Однако открытие и оптимизация этих материалов, управляемые данными, сталкиваются с проблемами из-за отсутствия надежной базы данных. В данном исследовании разработана комплексная база данных, содержащая 7 123 термоэлектрических соединения с ключевой информацией, включая химический состав, структурные детали, коэффициент Зеебека, электропроводность и теплопроводность, коэффициент мощности и фактор качества (ZT). Исследование использует рабочий процесс GPTArticleExtractor, управляемый большой языковой моделью, для автоматического извлечения и организации данных из научной литературы, опубликованной в журналах Elsevier. Этот процесс позволил создать структурированную базу данных, решив проблемы ручного сбора данных. Эта открытая база данных может стимулировать исследования, управляемые данными, и продвинуть анализ и открытие термоэлектрических материалов.

Предпосылки и мотивация исследования

Определение проблемы

Потребность в преобразовании энергии: С растущими глобальными энергетическими проблемами и экологическими проблемами термоэлектрические материалы как ключевая технология прямого преобразования тепла в электричество привлекают внимание
Проблема дефицита данных: Существующие базы данных термоэлектрических материалов имеют значительные ограничения:
- Большинство основаны на расчетах из первых принципов, ограничены идеальными недопированными кристаллическими структурами
- Базы экспериментальных данных имеют небольшой размер и требуют ручной обработки
- Отсутствие информации о структурных свойствах ограничивает исследование отношений структура-свойство

Значимость исследования

Производительность термоэлектрических материалов количественно определяется безразмерным фактором качества ZT:

ZT = S²σT/κ

где S — коэффициент Зеебека, σ — электропроводность, T — абсолютная температура, κ — теплопроводность. Оптимизация ZT требует одновременного рассмотрения этих взаимосвязанных свойств, что делает проектирование материалов чрезвычайно сложным.

Ограничения существующих подходов

Традиционные методы: Зависят от экспериментального метода проб и ошибок и теоретического моделирования (DFT, MD), что требует много времени и вычислительных затрат
Существующие базы данных:
- Вычислительные базы данных не полностью отражают поведение реальных материалов
- Базы экспериментальных данных имеют ограниченный размер
- Отсутствие структурной информации для приложений машинного обучения
Автоматизированное извлечение: Инструменты, такие как ChemDataExtractor, показывают снижение точности при обработке статей с несколькими соединениями

Основные вклады

Построение крупномасштабной базы данных: Создана комплексная база данных, содержащая 7 123 термоэлектрических соединения, охватывающая ключевые термоэлектрические свойства и структурную информацию
Автоматизированное извлечение данных: Применен рабочий процесс GPTArticleExtractor, использующий большую языковую модель для автоматического извлечения структурированных данных из научной литературы
Обеспечение качества данных: Включает идентификацию экспериментальных и теоретических данных, примерно 66% составляют экспериментальные данные, повышая надежность данных
Открытый доступ к ресурсам: Доступна открытая база данных на nemad.org, поддерживающая исследования термоэлектрических материалов, управляемые данными
Отношения структура-свойство: Впервые систематически включена структурная информация в базу данных термоэлектрических материалов, поддерживающая передовые методы, такие как графовые нейронные сети

Подробное описание методологии

Определение задачи

Автоматическое извлечение данных о свойствах и структурной информации термоэлектрических материалов из научной литературы для построения стандартизированной структурированной базы данных, включающей:

Входные данные: Научная литература по термоэлектрике, опубликованная в журналах Elsevier
Выходные данные: Стандартизированные данные в формате JSON, содержащие химическую формулу, термоэлектрические свойства и структурные параметры
Ограничения: Обеспечение точности данных и единообразия единиц измерения

Архитектура рабочего процесса

1. Этап сбора DOI

Использование ключевых слов ("Thermoelectric", "Seebeck Coefficient", "Figure of Merit") для фильтрации релевантных статей
Сбор примерно 20 000 DOI из базы данных журналов Elsevier с помощью скриптов веб-скрейпинга

2. Этап получения статей

Загрузка полных текстов в формате XML с использованием ключей API Elsevier
Разработка специализированных инструментов для анализа текста и таблиц, преобразующих XML в чистый текстовый формат CSV
Удаление вложенных тегов и лишних метаданных

3. Этап извлечения и компиляции данных

Основная технология GPTArticleExtractor:
- Использование модели GPT-4 для извлечения данных через API OpenAI
- Высоко настраиваемый дизайн подсказок для конкретных требований извлечения информации
- Вывод структурированных файлов JSON в соответствии с предопределенным форматом
- Генерация списков объектов JSON для статей с несколькими материалами

Технологические инновации

Автоматизация, управляемая LLM: По сравнению с традиционными инструментами NLP, GPT-4 показывает лучшую производительность в понимании сложных научных текстов
Способность обработки нескольких материалов: Точная обработка статей, описывающих несколько соединений и их свойства
Стандартизация данных: Разработка скриптов очистки данных для унификации единиц измерения из различных источников литературы
Контроль качества: Различие между экспериментальными и теоретическими данными повышает надежность базы данных

Экспериментальная установка

Источники данных

Источник: Научная литература, опубликованная в журналах Elsevier
Масштаб: Обработка примерно 20 000 релевантных статей
Временной диапазон: Охватывает исторически опубликованные исследования термоэлектрических материалов
Язык: Англоязычная научная литература

Процесс обработки данных

Преобразование XML в CSV: Сохранение основного содержания версии PDF
Извлечение GPT-4: Использование тщательно разработанных подсказок для извлечения информации
Очистка данных: Унификация единиц измерения и формата данных
Проверка качества: Ручная проверка ключевых точек данных

Целевые показатели извлечения

Химический состав и тип соединения
Термоэлектрические свойства (S, σ, κ, PF, ZT) и температура измерения
Структурная информация (кристаллическая структура, параметры решетки, пространственная группа)
Идентификация источника данных (экспериментальные/теоретические)

Результаты экспериментов

Статистические характеристики базы данных

Масштаб и содержание базы данных

Общее количество соединений: 7 123 термоэлектрических соединения
Соотношение источников данных: 66% экспериментальных данных, 34% теоретических расчетных данных
Степень структурированности: Полный формат JSON, поддерживающий приложения машинного обучения

Анализ распределения свойств

1. Распределение коэффициента Зеебека

Диапазон: от -200 мкВ/К до 3 000 мкВ/К
Характеристики: Включает материалы n-типа (отрицательные значения) и p-типа (положительные значения)
Материалы с высокими значениями: Небольшое количество соединений достигает 3 000 мкВ/К, в основном из вычислительных исследований

2. Распределение электропроводности

Среднее значение: 58 980,63 S/m
Медиана: 20 900,00 S/m
Максимальное значение: примерно 500 000 S/m
Распределение: Сильное правостороннее распределение, большинство материалов имеют низкую электропроводность

3. Распределение теплопроводности

Среднее значение: 2,17 Вт/мК
Медиана: 1,10 Вт/мК
Пиковое значение: около 1 Вт/мК
Характеристики: Большинство материалов имеют низкую теплопроводность, подходящую для термоэлектрических приложений

4. Распределение коэффициента мощности

Формула расчета: PF = S² × σ
Среднее значение: 1 165,54 мкВт/мК²
Медиана: 526,86 мкВт/мК²
Максимальное значение: примерно 7 000 мкВт/мК²

5. Распределение фактора качества (ZT)

Среднее значение: 0,75
Медиана: 0,72
Основной диапазон: 0,5–1,0
Высокопроизводительные материалы: Небольшое количество достигает ZT ≈ 4,0

Анализ полноты данных

Согласно рисунку 2, существуют различия в охвате данных для различных свойств, отражающие неполноту свойств, сообщаемых в литературе, что является обычным явлением в практических научных исследованиях.

Связанные работы

Сравнение существующих баз данных

Вычислительные базы данных: Materials Project, JARVIS и другие в основном основаны на расчетах DFT
Базы экспериментальных данных: Меньший масштаб, например, ручная база данных, составленная Gaultois и соавторами
Автоматизированное извлечение: Sierepeklis и Cole использовали ChemDataExtractor для построения базы данных из 10 641 соединения

Преимущества данной работы

Качество данных: Использование передовой LLM повышает точность извлечения
Структурная информация: Впервые систематически включена кристаллическая структура, пространственная группа и другая информация
Идентификация данных: Четкое различие между экспериментальными и теоретическими данными
Непрерывное обновление: Установление масштабируемого автоматизированного процесса

Заключение и обсуждение

Основные выводы

Успешно построена одна из наиболее полных баз данных термоэлектрических материалов, содержащая 7 123 соединения
GPTArticleExtractor доказал эффективность LLM при извлечении научных данных
База данных охватывает широкий спектр материалов от низкопроизводительных до высокопроизводительных (ZT~4)
Включение структурной информации закладывает основу для будущих приложений машинного обучения

Ограничения

Полнота данных: Не все соединения имеют полный набор данных о свойствах
Ограничение источников: Ограничено журналами Elsevier, что может привести к предвзятости публикации
Контроль качества: Хотя использование LLM повышает точность, все еще требуется ручная проверка
Динамическое обновление: Требуется постоянное обслуживание для включения последних результатов исследований

Будущие направления

Расширение на дополнительные журналы и источники данных
Разработка моделей машинного обучения на основе этой базы данных
Интеграция графовых нейронных сетей для использования структурной информации
Установление механизма вклада сообщества

Глубокая оценка

Преимущества

Технологические инновации: Применение LLM к извлечению научных данных значительно повышает степень автоматизации и точность
Ценность данных: Заполняет пробел в отсутствии крупномасштабной базы экспериментальных данных в области термоэлектрических материалов
Практичность: Открытый доступ и стандартизированный формат облегчают использование исследовательским сообществом
Перспективность: Включение структурной информации прокладывает путь для применения передовых методов машинного обучения
Воспроизводимость методов: Подробное описание рабочего процесса обеспечивает хорошую воспроизводимость

Недостатки

Механизм проверки: Отсутствует систематическая ручная проверка для количественной оценки точности извлечения
Проблемы предвзятости: Использование только журналов Elsevier может привести к предвзятости публикации и отбора
Оценка качества данных: Отсутствует количественное сравнение качества данных из различных источников
Механизм обновления: Недостаточно подробное описание долгосрочной стратегии обслуживания и обновления базы данных

Влияние

Академическая ценность: Предоставляет важный ресурс для исследований термоэлектрических материалов, управляемых данными
Демонстрация методов: Рабочий процесс GPTArticleExtractor может быть распространен на другие области науки о материалах
Промышленное применение: Поддерживает промышленное развитие и оптимизацию термоэлектрических устройств
Образовательная ценность: Предоставляет стандартизированный набор данных для соответствующих курсов и исследований

Применимые сценарии

Исследования машинного обучения: Обучение моделей для прогнозирования термоэлектрических свойств
Отбор материалов: Быстрое определение кандидатных материалов с конкретными свойствами
Исследование отношений структура-свойство: Использование структурной информации для изучения закономерностей проектирования
Тестирование эталонов: Предоставление данных проверки для новых вычислительных методов

Библиография

Статья цитирует 40 соответствующих источников, охватывающих фундаментальную теорию термоэлектрических материалов, вычислительные методы, существующие базы данных и приложения машинного обучения, обеспечивая прочную теоретическую основу и достаточный обзор литературы для исследования.

Общая оценка: Это высококачественная междисциплинарная исследовательская статья, которая успешно применяет технологию искусственного интеллекта к управлению данными в науке о материалах, предоставляя ценный ресурс исследовательскому сообществу термоэлектрических материалов. Несмотря на некоторые ограничения, его инновационный подход и практический вклад придают ему значительную академическую и практическую ценность.