2025-11-18T10:22:13.240299

Large Language Model-Driven Database for Thermoelectric Materials

Itani, Zhang, Zang

Thermoelectric materials provide a sustainable way to convert waste heat into electricity. However, data-driven discovery and optimization of these materials are challenging because of a lack of a reliable database. Here we developed a comprehensive database of 7,123 thermoelectric compounds, containing key information such as chemical composition, structural detail, seebeck coefficient, electrical and thermal conductivity, power factor, and figure of merit (ZT). We used the GPTArticleExtractor workflow, powered by large language models (LLM), to extract and curate data automatically from the scientific literature published in Elsevier journals. This process enabled the creation of a structured database that addresses the challenges of manual data collection. The open access database could stimulate data-driven research and advance thermoelectric material analysis and discovery.

academic

Base de Données de Matériaux Thermoélectriques Pilotée par Modèle de Langage de Grande Taille

Informations Fondamentales

ID de l'article: 2501.00564
Titre: Large Language Model-Driven Database for Thermoelectric Materials
Auteurs: Suman Itani, Yibo Zhang, Jiadong Zang (Université du New Hampshire)
Classification: cond-mat.mtrl-sci cs.DL
Date de publication: 3 janvier 2025 (prépublication)
Lien de l'article: https://arxiv.org/abs/2501.00564

Résumé

Les matériaux thermoélectriques offrent une voie durable pour convertir la chaleur résiduelle en énergie électrique. Cependant, la découverte et l'optimisation pilotées par les données de ces matériaux font face à des défis en raison de l'absence de bases de données fiables. Cette étude développe une base de données complète contenant 7 123 composés thermoélectriques, incluant la composition chimique, les détails structuraux, le coefficient de Seebeck, la conductivité électrique et thermique, le facteur de puissance et le facteur de mérite (ZT). L'étude utilise le flux de travail GPTArticleExtractor piloté par un modèle de langage de grande taille pour extraire et organiser automatiquement les données de la littérature scientifique publiée dans les revues Elsevier. Ce processus a permis la création d'une base de données structurée, résolvant les défis de la collecte manuelle de données. Cette base de données en accès libre peut stimuler la recherche pilotée par les données et faire progresser l'analyse et la découverte de matériaux thermoélectriques.

Contexte et Motivation de la Recherche

Définition du Problème

Besoins de conversion énergétique: Avec l'aggravation des défis énergétiques mondiaux et des problèmes environnementaux, les matériaux thermoélectriques, en tant que technologie clé pour convertir directement la chaleur en électricité, reçoivent une attention particulière
Problème de rareté des données: Les bases de données existantes de matériaux thermoélectriques présentent des limitations significatives:
- La plupart sont basées sur des calculs ab initio, limitées aux structures cristallines idéales non dopées
- Les bases de données expérimentales sont de petite taille et nécessitent une organisation manuelle
- Absence d'informations structurelles, limitant les études des relations structure-propriété

Importance de la Recherche

La performance des matériaux thermoélectriques est quantifiée par le facteur de mérite adimensionnel ZT:

ZT = S²σT/κ

où S est le coefficient de Seebeck, σ est la conductivité électrique, T est la température absolue et κ est la conductivité thermique. L'optimisation de ZT nécessite de considérer simultanément ces propriétés interdépendantes, ce qui rend la conception des matériaux extrêmement difficile.

Limitations des Approches Existantes

Méthodes traditionnelles: Dépendantes des essais expérimentaux et des simulations théoriques (DFT, MD), chronophages et coûteuses en calcul
Bases de données existantes:
- Les bases de données de calcul ne reflètent pas complètement le comportement réel des matériaux
- Les bases de données expérimentales sont de taille limitée
- Absence d'informations structurelles pour les applications d'apprentissage automatique
Extraction automatisée: Les outils comme ChemDataExtractor voient leur précision diminuer lors du traitement d'articles multi-composés

Contributions Principales

Construction d'une base de données à grande échelle: Création d'une base de données complète contenant 7 123 composés thermoélectriques, couvrant les propriétés thermoélectriques clés et les informations structurales
Extraction de données automatisée: Adoption du flux de travail GPTArticleExtractor, utilisant un modèle de langage de grande taille pour extraire automatiquement les données structurées de la littérature scientifique
Assurance de la qualité des données: Identification des données expérimentales et théoriques, environ 66% étant des données expérimentales, améliorant la fiabilité des données
Ressource en accès libre: Disponible en accès libre sur nemad.org, soutenant la recherche thermoélectrique pilotée par les données
Relations structure-propriété: Première inclusion systématique d'informations structurales dans une base de données de matériaux thermoélectriques, soutenant les méthodes avancées comme les réseaux de neurones graphiques

Détails de la Méthodologie

Définition de la Tâche

Extraction automatique des données de propriétés et des informations structurales des matériaux thermoélectriques de la littérature scientifique, construction d'une base de données structurée normalisée, incluant:

Entrées: Littérature scientifique thermoélectrique publiée dans les revues Elsevier
Sorties: Données normalisées au format JSON structuré contenant la formule chimique, les propriétés thermoélectriques et les paramètres structuraux
Contraintes: Assurer l'exactitude des données et l'uniformité des unités

Architecture du Flux de Travail

1. Phase de Collecte des DOI

Utilisation de mots-clés ("Thermoelectric", "Seebeck Coefficient", "Figure of Merit") pour filtrer les articles pertinents
Collecte d'environ 20 000 DOI via des scripts de web scraping à partir de la base de données des revues Elsevier

2. Phase d'Acquisition des Articles

Téléchargement de textes intégraux au format XML en utilisant les clés API Elsevier
Développement d'outils d'analyse de texte et de tableaux personnalisés, convertissant XML en format CSV texte pur
Suppression des balises imbriquées et des métadonnées superflues

3. Phase d'Extraction et de Compilation des Données

Technologie centrale de GPTArticleExtractor:
- Utilisation du modèle GPT-4 via l'API OpenAI pour l'extraction de données
- Conception de prompts hautement personnalisables, adaptée aux besoins spécifiques d'extraction d'informations
- Sortie de fichiers JSON structurés, conformes au format prédéfini
- Génération de listes d'objets JSON pour les articles multi-matériaux

Points d'Innovation Technique

Automatisation pilotée par LLM: GPT-4 surpasse les outils NLP traditionnels dans la compréhension de textes scientifiques complexes
Capacité de traitement multi-matériaux: Traitement précis des articles décrivant plusieurs composés et leurs propriétés
Normalisation des données: Développement de scripts de nettoyage de données, unifiant les systèmes d'unités dans différentes littératures
Contrôle de qualité: Distinction entre données expérimentales et théoriques, améliorant la fiabilité de la base de données

Configuration Expérimentale

Sources de Données

Source: Littérature scientifique publiée dans les revues Elsevier
Échelle: Traitement d'environ 20 000 articles pertinents
Période couverte: Littérature de recherche thermoélectrique publiée historiquement
Langue: Littérature scientifique en anglais

Processus de Traitement des Données

Conversion XML en CSV: Conservation du contenu essentiel de la version PDF
Extraction GPT-4: Extraction d'informations utilisant des prompts soigneusement conçus
Nettoyage des données: Uniformisation des systèmes d'unités et des formats de données
Validation de qualité: Vérification manuelle des points de données critiques

Cibles d'Extraction

Composition chimique et type de composé
Propriétés thermoélectriques (S, σ, κ, PF, ZT) et température de mesure
Informations structurales (structure cristalline, paramètres de réseau, groupe spatial)
Identification de la source de données (expérimentale/théorique)

Résultats Expérimentaux

Caractéristiques Statistiques de la Base de Données

Échelle et Contenu de la Base de Données

Nombre total de composés: 7 123 composés thermoélectriques
Proportion des sources de données: 66% de données expérimentales, 34% de données de calcul théorique
Degré de structuration: Format JSON complet, supportant les applications d'apprentissage automatique

Analyse de la Distribution des Propriétés

1. Distribution du Coefficient de Seebeck

Plage: -200 μV/K à 3 000 μV/K
Caractéristiques: Incluant les matériaux de type n (valeurs négatives) et de type p (valeurs positives)
Matériaux à haute valeur: Quelques composés atteignant 3 000 μV/K, provenant principalement d'études de calcul

2. Distribution de la Conductivité Électrique

Valeur moyenne: 58 980,63 S/m
Médiane: 20 900,00 S/m
Valeur maximale: Environ 500 000 S/m
Distribution: Distribution fortement asymétrique vers la droite, la plupart des matériaux ayant une conductivité électrique faible

3. Distribution de la Conductivité Thermique

Valeur moyenne: 2,17 W/mK
Médiane: 1,10 W/mK
Pic: Près de 1 W/mK
Caractéristiques: La plupart des matériaux possèdent une conductivité thermique faible adaptée aux applications thermoélectriques

4. Distribution du Facteur de Puissance

Formule de calcul: PF = S² × σ
Valeur moyenne: 1 165,54 μW/mK²
Médiane: 526,86 μW/mK²
Valeur maximale: Environ 7 000 μW/mK²

5. Distribution du Facteur de Mérite (ZT)

Valeur moyenne: 0,75
Médiane: 0,72
Plage principale: 0,5-1,0
Matériaux haute performance: Quelques-uns atteignant ZT ≈ 4,0

Analyse de la Complétude des Données

Selon la figure 2, les taux de couverture des différentes propriétés varient, reflétant l'incomplétude des propriétés rapportées dans la littérature, un phénomène courant dans la recherche pratique.

Travaux Connexes

Comparaison avec les Bases de Données Existantes

Bases de données de calcul: Materials Project, JARVIS, etc., basées principalement sur des calculs DFT
Bases de données expérimentales: Taille plus réduite, comme la base de données compilée manuellement par Gaultois et al.
Extraction automatisée: Sierepeklis et Cole ont utilisé ChemDataExtractor pour construire une base de données de 10 641 composés

Avantages de ce Travail

Qualité des données: Utilisation d'un LLM avancé pour améliorer la précision d'extraction
Informations structurales: Première inclusion systématique de structure cristalline, groupe spatial et autres informations
Identification des données: Distinction claire entre données expérimentales et théoriques
Mise à jour continue: Établissement d'un processus automatisé extensible

Conclusions et Discussion

Conclusions Principales

Construction réussie de l'une des bases de données de matériaux thermoélectriques les plus complètes à ce jour, contenant 7 123 composés
GPTArticleExtractor a prouvé l'efficacité des LLM dans l'extraction de données scientifiques
La base de données couvre une large gamme de matériaux, des performances faibles aux hautes performances (ZT~4)
L'inclusion d'informations structurales jette les bases pour les futures applications d'apprentissage automatique

Limitations

Complétude des données: Tous les composés ne disposent pas de données de propriétés complètes
Limitation des sources: Limitée aux revues Elsevier, pouvant introduire des biais de publication
Contrôle de qualité: Bien que l'utilisation de LLM améliore la précision, une vérification manuelle reste nécessaire
Mise à jour dynamique: Nécessite une maintenance continue pour inclure les résultats de recherche les plus récents

Directions Futures

Extension à d'autres revues et sources de données
Développement de modèles d'apprentissage automatique basés sur cette base de données
Intégration de réseaux de neurones graphiques exploitant les informations structurales
Établissement de mécanismes de contribution communautaire

Évaluation Approfondie

Points Forts

Innovation technologique: Application des LLM à l'extraction de données scientifiques, améliorant significativement l'automatisation et la précision
Valeur des données: Comble le vide d'une base de données expérimentale à grande échelle dans le domaine des matériaux thermoélectriques
Praticité: Accès libre et format standardisé, facilitant l'utilisation par la communauté de recherche
Caractère prospectif: L'inclusion d'informations structurales prépare le terrain pour l'application de méthodes avancées d'apprentissage automatique
Reproductibilité de la méthode: Description détaillée du flux de travail, avec bonne reproductibilité

Insuffisances

Mécanisme de vérification: Absence de vérification systématique manuelle pour quantifier la précision d'extraction
Problème de biais: L'utilisation exclusive de revues Elsevier peut introduire des biais de publication et de sélection
Évaluation de la qualité des données: Absence de comparaison quantitative de la qualité des données provenant de différentes sources
Mécanisme de mise à jour: Absence de description détaillée de la stratégie de maintenance et de mise à jour à long terme de la base de données

Impact

Valeur académique: Fournit une ressource importante pour la recherche thermoélectrique pilotée par les données
Démonstration méthodologique: Le flux de travail GPTArticleExtractor peut être étendu à d'autres domaines de la science des matériaux
Application industrielle: Soutient le développement et l'optimisation industriels des dispositifs thermoélectriques
Valeur éducative: Fournit un ensemble de données standardisé pour les cours et la recherche connexes

Scénarios d'Application

Recherche en apprentissage automatique: Entraînement de modèles prédisant les propriétés thermoélectriques
Sélection de matériaux: Identification rapide de matériaux candidats avec des propriétés spécifiques
Étude des relations structure-propriété: Exploitation des informations structurales pour explorer les lois de conception
Benchmarking: Fourniture de données de validation pour les nouvelles méthodes de calcul

Références Bibliographiques

L'article cite 40 références pertinentes, couvrant la théorie fondamentale des matériaux thermoélectriques, les méthodes de calcul, les bases de données existantes et les applications d'apprentissage automatique, fournissant une base théorique solide et une investigation de contexte suffisante pour la recherche.

Évaluation Globale: Ceci est un article de recherche interdisciplinaire de haute qualité qui applique avec succès la technologie de l'intelligence artificielle à la gestion des données en science des matériaux, fournissant une ressource précieuse à la communauté de recherche thermoélectrique. Bien que présentant certaines limitations, sa méthode innovante et ses contributions pratiques lui confèrent une valeur académique et pratique importante.