2025-11-18T10:22:13.240299

Large Language Model-Driven Database for Thermoelectric Materials

Itani, Zhang, Zang
Thermoelectric materials provide a sustainable way to convert waste heat into electricity. However, data-driven discovery and optimization of these materials are challenging because of a lack of a reliable database. Here we developed a comprehensive database of 7,123 thermoelectric compounds, containing key information such as chemical composition, structural detail, seebeck coefficient, electrical and thermal conductivity, power factor, and figure of merit (ZT). We used the GPTArticleExtractor workflow, powered by large language models (LLM), to extract and curate data automatically from the scientific literature published in Elsevier journals. This process enabled the creation of a structured database that addresses the challenges of manual data collection. The open access database could stimulate data-driven research and advance thermoelectric material analysis and discovery.
academic

Base de Données de Matériaux Thermoélectriques Pilotée par Modèle de Langage de Grande Taille

Informations Fondamentales

  • ID de l'article: 2501.00564
  • Titre: Large Language Model-Driven Database for Thermoelectric Materials
  • Auteurs: Suman Itani, Yibo Zhang, Jiadong Zang (Université du New Hampshire)
  • Classification: cond-mat.mtrl-sci cs.DL
  • Date de publication: 3 janvier 2025 (prépublication)
  • Lien de l'article: https://arxiv.org/abs/2501.00564

Résumé

Les matériaux thermoélectriques offrent une voie durable pour convertir la chaleur résiduelle en énergie électrique. Cependant, la découverte et l'optimisation pilotées par les données de ces matériaux font face à des défis en raison de l'absence de bases de données fiables. Cette étude développe une base de données complète contenant 7 123 composés thermoélectriques, incluant la composition chimique, les détails structuraux, le coefficient de Seebeck, la conductivité électrique et thermique, le facteur de puissance et le facteur de mérite (ZT). L'étude utilise le flux de travail GPTArticleExtractor piloté par un modèle de langage de grande taille pour extraire et organiser automatiquement les données de la littérature scientifique publiée dans les revues Elsevier. Ce processus a permis la création d'une base de données structurée, résolvant les défis de la collecte manuelle de données. Cette base de données en accès libre peut stimuler la recherche pilotée par les données et faire progresser l'analyse et la découverte de matériaux thermoélectriques.

Contexte et Motivation de la Recherche

Définition du Problème

  1. Besoins de conversion énergétique: Avec l'aggravation des défis énergétiques mondiaux et des problèmes environnementaux, les matériaux thermoélectriques, en tant que technologie clé pour convertir directement la chaleur en électricité, reçoivent une attention particulière
  2. Problème de rareté des données: Les bases de données existantes de matériaux thermoélectriques présentent des limitations significatives:
    • La plupart sont basées sur des calculs ab initio, limitées aux structures cristallines idéales non dopées
    • Les bases de données expérimentales sont de petite taille et nécessitent une organisation manuelle
    • Absence d'informations structurelles, limitant les études des relations structure-propriété

Importance de la Recherche

La performance des matériaux thermoélectriques est quantifiée par le facteur de mérite adimensionnel ZT:

ZT = S²σT/κ

où S est le coefficient de Seebeck, σ est la conductivité électrique, T est la température absolue et κ est la conductivité thermique. L'optimisation de ZT nécessite de considérer simultanément ces propriétés interdépendantes, ce qui rend la conception des matériaux extrêmement difficile.

Limitations des Approches Existantes

  1. Méthodes traditionnelles: Dépendantes des essais expérimentaux et des simulations théoriques (DFT, MD), chronophages et coûteuses en calcul
  2. Bases de données existantes:
    • Les bases de données de calcul ne reflètent pas complètement le comportement réel des matériaux
    • Les bases de données expérimentales sont de taille limitée
    • Absence d'informations structurelles pour les applications d'apprentissage automatique
  3. Extraction automatisée: Les outils comme ChemDataExtractor voient leur précision diminuer lors du traitement d'articles multi-composés

Contributions Principales

  1. Construction d'une base de données à grande échelle: Création d'une base de données complète contenant 7 123 composés thermoélectriques, couvrant les propriétés thermoélectriques clés et les informations structurales
  2. Extraction de données automatisée: Adoption du flux de travail GPTArticleExtractor, utilisant un modèle de langage de grande taille pour extraire automatiquement les données structurées de la littérature scientifique
  3. Assurance de la qualité des données: Identification des données expérimentales et théoriques, environ 66% étant des données expérimentales, améliorant la fiabilité des données
  4. Ressource en accès libre: Disponible en accès libre sur nemad.org, soutenant la recherche thermoélectrique pilotée par les données
  5. Relations structure-propriété: Première inclusion systématique d'informations structurales dans une base de données de matériaux thermoélectriques, soutenant les méthodes avancées comme les réseaux de neurones graphiques

Détails de la Méthodologie

Définition de la Tâche

Extraction automatique des données de propriétés et des informations structurales des matériaux thermoélectriques de la littérature scientifique, construction d'une base de données structurée normalisée, incluant:

  • Entrées: Littérature scientifique thermoélectrique publiée dans les revues Elsevier
  • Sorties: Données normalisées au format JSON structuré contenant la formule chimique, les propriétés thermoélectriques et les paramètres structuraux
  • Contraintes: Assurer l'exactitude des données et l'uniformité des unités

Architecture du Flux de Travail

1. Phase de Collecte des DOI

  • Utilisation de mots-clés ("Thermoelectric", "Seebeck Coefficient", "Figure of Merit") pour filtrer les articles pertinents
  • Collecte d'environ 20 000 DOI via des scripts de web scraping à partir de la base de données des revues Elsevier

2. Phase d'Acquisition des Articles

  • Téléchargement de textes intégraux au format XML en utilisant les clés API Elsevier
  • Développement d'outils d'analyse de texte et de tableaux personnalisés, convertissant XML en format CSV texte pur
  • Suppression des balises imbriquées et des métadonnées superflues

3. Phase d'Extraction et de Compilation des Données

  • Technologie centrale de GPTArticleExtractor:
    • Utilisation du modèle GPT-4 via l'API OpenAI pour l'extraction de données
    • Conception de prompts hautement personnalisables, adaptée aux besoins spécifiques d'extraction d'informations
    • Sortie de fichiers JSON structurés, conformes au format prédéfini
    • Génération de listes d'objets JSON pour les articles multi-matériaux

Points d'Innovation Technique

  1. Automatisation pilotée par LLM: GPT-4 surpasse les outils NLP traditionnels dans la compréhension de textes scientifiques complexes
  2. Capacité de traitement multi-matériaux: Traitement précis des articles décrivant plusieurs composés et leurs propriétés
  3. Normalisation des données: Développement de scripts de nettoyage de données, unifiant les systèmes d'unités dans différentes littératures
  4. Contrôle de qualité: Distinction entre données expérimentales et théoriques, améliorant la fiabilité de la base de données

Configuration Expérimentale

Sources de Données

  • Source: Littérature scientifique publiée dans les revues Elsevier
  • Échelle: Traitement d'environ 20 000 articles pertinents
  • Période couverte: Littérature de recherche thermoélectrique publiée historiquement
  • Langue: Littérature scientifique en anglais

Processus de Traitement des Données

  1. Conversion XML en CSV: Conservation du contenu essentiel de la version PDF
  2. Extraction GPT-4: Extraction d'informations utilisant des prompts soigneusement conçus
  3. Nettoyage des données: Uniformisation des systèmes d'unités et des formats de données
  4. Validation de qualité: Vérification manuelle des points de données critiques

Cibles d'Extraction

  • Composition chimique et type de composé
  • Propriétés thermoélectriques (S, σ, κ, PF, ZT) et température de mesure
  • Informations structurales (structure cristalline, paramètres de réseau, groupe spatial)
  • Identification de la source de données (expérimentale/théorique)

Résultats Expérimentaux

Caractéristiques Statistiques de la Base de Données

Échelle et Contenu de la Base de Données

  • Nombre total de composés: 7 123 composés thermoélectriques
  • Proportion des sources de données: 66% de données expérimentales, 34% de données de calcul théorique
  • Degré de structuration: Format JSON complet, supportant les applications d'apprentissage automatique

Analyse de la Distribution des Propriétés

1. Distribution du Coefficient de Seebeck

  • Plage: -200 μV/K à 3 000 μV/K
  • Caractéristiques: Incluant les matériaux de type n (valeurs négatives) et de type p (valeurs positives)
  • Matériaux à haute valeur: Quelques composés atteignant 3 000 μV/K, provenant principalement d'études de calcul

2. Distribution de la Conductivité Électrique

  • Valeur moyenne: 58 980,63 S/m
  • Médiane: 20 900,00 S/m
  • Valeur maximale: Environ 500 000 S/m
  • Distribution: Distribution fortement asymétrique vers la droite, la plupart des matériaux ayant une conductivité électrique faible

3. Distribution de la Conductivité Thermique

  • Valeur moyenne: 2,17 W/mK
  • Médiane: 1,10 W/mK
  • Pic: Près de 1 W/mK
  • Caractéristiques: La plupart des matériaux possèdent une conductivité thermique faible adaptée aux applications thermoélectriques

4. Distribution du Facteur de Puissance

  • Formule de calcul: PF = S² × σ
  • Valeur moyenne: 1 165,54 μW/mK²
  • Médiane: 526,86 μW/mK²
  • Valeur maximale: Environ 7 000 μW/mK²

5. Distribution du Facteur de Mérite (ZT)

  • Valeur moyenne: 0,75
  • Médiane: 0,72
  • Plage principale: 0,5-1,0
  • Matériaux haute performance: Quelques-uns atteignant ZT ≈ 4,0

Analyse de la Complétude des Données

Selon la figure 2, les taux de couverture des différentes propriétés varient, reflétant l'incomplétude des propriétés rapportées dans la littérature, un phénomène courant dans la recherche pratique.

Travaux Connexes

Comparaison avec les Bases de Données Existantes

  1. Bases de données de calcul: Materials Project, JARVIS, etc., basées principalement sur des calculs DFT
  2. Bases de données expérimentales: Taille plus réduite, comme la base de données compilée manuellement par Gaultois et al.
  3. Extraction automatisée: Sierepeklis et Cole ont utilisé ChemDataExtractor pour construire une base de données de 10 641 composés

Avantages de ce Travail

  1. Qualité des données: Utilisation d'un LLM avancé pour améliorer la précision d'extraction
  2. Informations structurales: Première inclusion systématique de structure cristalline, groupe spatial et autres informations
  3. Identification des données: Distinction claire entre données expérimentales et théoriques
  4. Mise à jour continue: Établissement d'un processus automatisé extensible

Conclusions et Discussion

Conclusions Principales

  1. Construction réussie de l'une des bases de données de matériaux thermoélectriques les plus complètes à ce jour, contenant 7 123 composés
  2. GPTArticleExtractor a prouvé l'efficacité des LLM dans l'extraction de données scientifiques
  3. La base de données couvre une large gamme de matériaux, des performances faibles aux hautes performances (ZT~4)
  4. L'inclusion d'informations structurales jette les bases pour les futures applications d'apprentissage automatique

Limitations

  1. Complétude des données: Tous les composés ne disposent pas de données de propriétés complètes
  2. Limitation des sources: Limitée aux revues Elsevier, pouvant introduire des biais de publication
  3. Contrôle de qualité: Bien que l'utilisation de LLM améliore la précision, une vérification manuelle reste nécessaire
  4. Mise à jour dynamique: Nécessite une maintenance continue pour inclure les résultats de recherche les plus récents

Directions Futures

  1. Extension à d'autres revues et sources de données
  2. Développement de modèles d'apprentissage automatique basés sur cette base de données
  3. Intégration de réseaux de neurones graphiques exploitant les informations structurales
  4. Établissement de mécanismes de contribution communautaire

Évaluation Approfondie

Points Forts

  1. Innovation technologique: Application des LLM à l'extraction de données scientifiques, améliorant significativement l'automatisation et la précision
  2. Valeur des données: Comble le vide d'une base de données expérimentale à grande échelle dans le domaine des matériaux thermoélectriques
  3. Praticité: Accès libre et format standardisé, facilitant l'utilisation par la communauté de recherche
  4. Caractère prospectif: L'inclusion d'informations structurales prépare le terrain pour l'application de méthodes avancées d'apprentissage automatique
  5. Reproductibilité de la méthode: Description détaillée du flux de travail, avec bonne reproductibilité

Insuffisances

  1. Mécanisme de vérification: Absence de vérification systématique manuelle pour quantifier la précision d'extraction
  2. Problème de biais: L'utilisation exclusive de revues Elsevier peut introduire des biais de publication et de sélection
  3. Évaluation de la qualité des données: Absence de comparaison quantitative de la qualité des données provenant de différentes sources
  4. Mécanisme de mise à jour: Absence de description détaillée de la stratégie de maintenance et de mise à jour à long terme de la base de données

Impact

  1. Valeur académique: Fournit une ressource importante pour la recherche thermoélectrique pilotée par les données
  2. Démonstration méthodologique: Le flux de travail GPTArticleExtractor peut être étendu à d'autres domaines de la science des matériaux
  3. Application industrielle: Soutient le développement et l'optimisation industriels des dispositifs thermoélectriques
  4. Valeur éducative: Fournit un ensemble de données standardisé pour les cours et la recherche connexes

Scénarios d'Application

  1. Recherche en apprentissage automatique: Entraînement de modèles prédisant les propriétés thermoélectriques
  2. Sélection de matériaux: Identification rapide de matériaux candidats avec des propriétés spécifiques
  3. Étude des relations structure-propriété: Exploitation des informations structurales pour explorer les lois de conception
  4. Benchmarking: Fourniture de données de validation pour les nouvelles méthodes de calcul

Références Bibliographiques

L'article cite 40 références pertinentes, couvrant la théorie fondamentale des matériaux thermoélectriques, les méthodes de calcul, les bases de données existantes et les applications d'apprentissage automatique, fournissant une base théorique solide et une investigation de contexte suffisante pour la recherche.


Évaluation Globale: Ceci est un article de recherche interdisciplinaire de haute qualité qui applique avec succès la technologie de l'intelligence artificielle à la gestion des données en science des matériaux, fournissant une ressource précieuse à la communauté de recherche thermoélectrique. Bien que présentant certaines limitations, sa méthode innovante et ses contributions pratiques lui confèrent une valeur académique et pratique importante.