Thermoelectric materials provide a sustainable way to convert waste heat into electricity. However, data-driven discovery and optimization of these materials are challenging because of a lack of a reliable database. Here we developed a comprehensive database of 7,123 thermoelectric compounds, containing key information such as chemical composition, structural detail, seebeck coefficient, electrical and thermal conductivity, power factor, and figure of merit (ZT). We used the GPTArticleExtractor workflow, powered by large language models (LLM), to extract and curate data automatically from the scientific literature published in Elsevier journals. This process enabled the creation of a structured database that addresses the challenges of manual data collection. The open access database could stimulate data-driven research and advance thermoelectric material analysis and discovery.
- Papier-ID: 2501.00564
- Titel: Large Language Model-Driven Database for Thermoelectric Materials
- Autoren: Suman Itani, Yibo Zhang, Jiadong Zang (University of New Hampshire)
- Klassifizierung: cond-mat.mtrl-sci cs.DL
- Veröffentlichungsdatum: 3. Januar 2025 (Preprint)
- Papierlink: https://arxiv.org/abs/2501.00564
Thermoelektrische Materialien bieten einen nachhaltigen Weg zur Umwandlung von Abwärme in elektrische Energie. Allerdings wird die datengesteuerte Entdeckung und Optimierung dieser Materialien durch das Fehlen zuverlässiger Datenbanken behindert. Diese Studie entwickelt eine umfassende Datenbank mit 7.123 thermoelektrischen Verbindungen, die wichtige Informationen wie chemische Zusammensetzung, Strukturdetails, Seebeck-Koeffizient, elektrische Leitfähigkeit und Wärmeleitfähigkeit, Leistungsfaktor sowie Gütefaktor (ZT) enthält. Die Forschung nutzt den durch große Sprachmodelle angetriebenen GPTArticleExtractor-Workflow, um Daten automatisch aus in Elsevier-Zeitschriften veröffentlichter wissenschaftlicher Literatur zu extrahieren und zu organisieren. Dieser Prozess ermöglicht die Erstellung einer strukturierten Datenbank und löst die Herausforderungen der manuellen Datenerfassung. Diese Open-Access-Datenbank kann datengesteuerte Forschung fördern und die Analyse und Entdeckung thermoelektrischer Materialien vorantreiben.
- Energieumwandlungsbedarf: Mit zunehmenden globalen Energieherausforderungen und Umweltproblemen werden thermoelektrische Materialien als Schlüsseltechnologie zur direkten Umwandlung von Wärmeenergie in elektrische Energie immer wichtiger
- Datenmangel: Bestehende Datenbanken für thermoelektrische Materialien weisen erhebliche Einschränkungen auf:
- Die meisten basieren auf Berechnungen aus ersten Prinzipien, begrenzt auf ideale undotierte Kristallstrukturen
- Experimentelle Datenbanken sind klein und erfordern manuelle Bearbeitung
- Fehlende Strukturinformationen begrenzen die Untersuchung von Struktur-Eigenschafts-Beziehungen
Die Leistung thermoelektrischer Materialien wird durch den dimensionslosen Gütefaktor ZT quantifiziert:
wobei S der Seebeck-Koeffizient, σ die elektrische Leitfähigkeit, T die absolute Temperatur und κ die Wärmeleitfähigkeit ist. Die Optimierung von ZT erfordert die gleichzeitige Berücksichtigung dieser miteinander verbundenen Eigenschaften, was die Materialentwicklung äußerst herausfordernd macht.
- Traditionelle Methoden: Abhängig von experimentellem Versuch und Irrtum sowie theoretischen Simulationen (DFT, MD), zeitaufwändig und rechnerisch kostspielig
- Bestehende Datenbanken:
- Berechnungsdatenbanken können das tatsächliche Materialverhalten nicht vollständig widerspiegeln
- Experimentelle Datenbanken sind begrenzt
- Fehlende Strukturinformationen für Anwendungen des maschinellen Lernens
- Automatisierte Extraktion: Tools wie ChemDataExtractor zeigen bei der Verarbeitung von Artikeln mit mehreren Verbindungen reduzierte Genauigkeit
- Konstruktion einer großflächigen Datenbank: Erstellung einer umfassenden Datenbank mit 7.123 thermoelektrischen Verbindungen, die wichtige thermoelektrische Eigenschaften und Strukturinformationen abdeckt
- Automatisierte Datenextraktion: Einsatz des GPTArticleExtractor-Workflows, der große Sprachmodelle nutzt, um strukturierte Daten automatisch aus wissenschaftlicher Literatur zu extrahieren
- Qualitätssicherung: Kennzeichnung von experimentellen und theoretischen Daten, etwa 66% sind experimentelle Daten, was die Zuverlässigkeit erhöht
- Open-Access-Ressource: Verfügbar auf nemad.org, unterstützt datengesteuerte Forschung zu thermoelektrischen Materialien
- Struktur-Eigenschafts-Beziehungen: Erstmalige systematische Einbeziehung von Strukturinformationen in eine Datenbank für thermoelektrische Materialien, unterstützt fortschrittliche Methoden wie Graphenneuronale Netze
Automatische Extraktion von Eigenschaftsdaten und Strukturinformationen thermoelektrischer Materialien aus wissenschaftlicher Literatur zur Konstruktion einer standardisierten strukturierten Datenbank, einschließlich:
- Eingabe: In Elsevier-Zeitschriften veröffentlichte wissenschaftliche Literatur zu thermoelektrischen Materialien
- Ausgabe: Standardisierte Daten im JSON-Format mit chemischer Formel, thermoelektrischen Eigenschaften und Strukturparametern
- Einschränkungen: Gewährleistung von Datengenauigkeit und Einheitlichkeit der Maßeinheiten
- Verwendung von Schlüsselwörtern ("Thermoelectric", "Seebeck Coefficient", "Figure of Merit") zur Filterung relevanter Artikel
- Erfassung von etwa 20.000 DOIs durch Web-Scraping-Skripte aus der Elsevier-Zeitschriftendatenbank
- Download von Volltext im XML-Format unter Verwendung von Elsevier-API-Schlüsseln
- Entwicklung von benutzerdefinierten Text- und Tabellenparsing-Tools zur Umwandlung von XML in reines Text-CSV-Format
- Entfernung von verschachtelten Tags und überflüssigen Metadaten
- GPTArticleExtractor-Kerntechnologie:
- Nutzung des GPT-4-Modells durch OpenAI-API zur Datenextraktion
- Hochgradig anpassbare Prompt-Gestaltung für spezifische Informationsextraktionsanforderungen
- Ausgabe strukturierter JSON-Dateien in vordefiniertem Format
- Generierung von JSON-Objektlisten für Artikel mit mehreren Materialien
- LLM-gesteuerte Automatisierung: GPT-4 zeigt überlegene Leistung beim Verständnis komplexer wissenschaftlicher Texte im Vergleich zu traditionellen NLP-Tools
- Fähigkeit zur Verarbeitung mehrerer Materialien: Genaue Verarbeitung von Artikeln, die mehrere Verbindungen und deren Eigenschaften beschreiben
- Datenstandardisierung: Entwicklung von Datenbereinigungsskripten zur Vereinheitlichung von Maßeinheiten in verschiedenen Literaturquellen
- Qualitätskontrolle: Unterscheidung zwischen experimentellen und theoretischen Daten zur Verbesserung der Zuverlässigkeit der Datenbank
- Quelle: In Elsevier-Zeitschriften veröffentlichte wissenschaftliche Literatur
- Umfang: Verarbeitung von etwa 20.000 relevanten Artikeln
- Zeitspanne: Abdeckung historischer Forschungsliteratur zu thermoelektrischen Materialien
- Sprache: Englischsprachige wissenschaftliche Literatur
- XML-zu-CSV-Konvertierung: Beibehaltung des Kerninhalts der PDF-Version
- GPT-4-Extraktion: Verwendung sorgfältig gestalteter Prompts zur Informationsextraktion
- Datenbereinigung: Vereinheitlichung von Maßeinheiten und Datenformat
- Qualitätsvalidierung: Manuelle Überprüfung kritischer Datenpunkte
- Chemische Zusammensetzung und Verbindungstypen
- Thermoelektrische Eigenschaften (S, σ, κ, PF, ZT) und Mestemperatur
- Strukturinformationen (Kristallstruktur, Gitterparameter, Raumgruppe)
- Datenquellenkennzeichnung (experimentell/theoretisch)
- Gesamtzahl der Verbindungen: 7.123 thermoelektrische Verbindungen
- Verhältnis der Datenquellen: 66% experimentelle Daten, 34% theoretische Berechnungsdaten
- Strukturierungsgrad: Vollständiges JSON-Format, unterstützt Anwendungen des maschinellen Lernens
1. Seebeck-Koeffizient-Verteilung
- Bereich: -200 μV/K bis 3.000 μV/K
- Merkmale: Umfasst n-Typ (negative Werte) und p-Typ (positive Werte) Materialien
- Hochwertige Materialien: Wenige Verbindungen erreichen 3.000 μV/K, hauptsächlich aus Berechnungsstudien
2. Elektrische Leitfähigkeitsverteilung
- Durchschnittswert: 58.980,63 S/m
- Median: 20.900,00 S/m
- Maximalwert: etwa 500.000 S/m
- Verteilung: Stark rechtsgerichtete Verteilung, die meisten Materialien haben niedrigere Leitfähigkeit
3. Wärmeleitfähigkeitsverteilung
- Durchschnittswert: 2,17 W/mK
- Median: 1,10 W/mK
- Spitzenwert: in der Nähe von 1 W/mK
- Merkmale: Die meisten Materialien weisen für thermoelektrische Anwendungen geeignete niedrige Wärmeleitfähigkeit auf
4. Leistungsfaktor-Verteilung
- Berechnungsformel: PF = S² × σ
- Durchschnittswert: 1.165,54 μW/mK²
- Median: 526,86 μW/mK²
- Maximalwert: etwa 7.000 μW/mK²
5. Gütefaktor (ZT)-Verteilung
- Durchschnittswert: 0,75
- Median: 0,72
- Hauptbereich: 0,5–1,0
- Hochleistungsmaterialien: Wenige erreichen ZT ≈ 4,0
Wie in Abbildung 2 dargestellt, variiert die Abdeckungsrate verschiedener Eigenschaften und spiegelt die Unvollständigkeit der in der Literatur gemeldeten Eigenschaften wider, ein häufiges Phänomen in der praktischen Forschung.
- Berechnungsdatenbanken: Materials Project, JARVIS basieren hauptsächlich auf DFT-Berechnungen
- Experimentelle Datenbanken: Kleinerer Umfang, wie die manuell zusammengestellte Datenbank von Gaultois et al.
- Automatisierte Extraktion: Sierepeklis und Cole verwendeten ChemDataExtractor zur Konstruktion einer Datenbank mit 10.641 Verbindungen
- Datenqualität: Verwendung fortschrittlicher LLM zur Verbesserung der Extraktionsgenauigkeit
- Strukturinformationen: Erstmalige systematische Einbeziehung von Kristallstruktur, Raumgruppe und anderen Informationen
- Datenkennzeichnung: Klare Unterscheidung zwischen experimentellen und theoretischen Daten
- Kontinuierliche Aktualisierung: Etablierung eines erweiterbaren automatisierten Prozesses
- Erfolgreiche Konstruktion einer der umfassendsten Datenbanken für thermoelektrische Materialien mit 7.123 Verbindungen
- GPTArticleExtractor demonstriert die Wirksamkeit von LLM bei der wissenschaftlichen Datenextraktion
- Die Datenbank umfasst ein breites Spektrum von Materialien von niedriger bis hoher Leistung (ZT~4)
- Die Einbeziehung von Strukturinformationen legt den Grundstein für zukünftige Anwendungen des maschinellen Lernens
- Datenvollständigkeit: Nicht alle Verbindungen verfügen über vollständige Eigenschaftsdaten
- Quellenbeschränkung: Begrenzt auf Elsevier-Zeitschriften, möglicherweise Veröffentlichungsverzerrung vorhanden
- Qualitätskontrolle: Obwohl LLM die Genauigkeit verbessert, ist manuelle Validierung erforderlich
- Dynamische Aktualisierung: Erfordert kontinuierliche Wartung zur Einbeziehung neuester Forschungsergebnisse
- Erweiterung auf mehr Zeitschriften und Datenquellen
- Entwicklung von Modellen des maschinellen Lernens basierend auf dieser Datenbank
- Integration von Graphenneuronalen Netzen zur Nutzung von Strukturinformationen
- Etablierung von Community-Beitragsmechanismen
- Technische Innovation: Anwendung von LLM auf wissenschaftliche Datenextraktion, signifikante Verbesserung des Automatisierungsgrades und der Genauigkeit
- Datenwert: Schließt die Lücke des Mangels an großflächigen experimentellen Datenbanken im Bereich thermoelektrischer Materialien
- Praktikabilität: Open-Access und standardisiertes Format, leicht zu verwenden für die Forschungsgemeinschaft
- Zukunftsorientierung: Einbeziehung von Strukturinformationen ebnet den Weg für die Anwendung fortschrittlicher Methoden des maschinellen Lernens
- Reproduzierbarkeit der Methode: Detaillierte Beschreibung des Workflows mit guter Reproduzierbarkeit
- Validierungsmechanismus: Fehlende systematische manuelle Validierung zur Quantifizierung der Extraktionsgenauigkeit
- Bias-Probleme: Ausschließliche Verwendung von Elsevier-Zeitschriften kann Veröffentlichungs- und Auswahlverzerrung einführen
- Bewertung der Datenqualität: Keine quantitativen Vergleiche der Datenqualität aus verschiedenen Quellen
- Aktualisierungsmechanismus: Langzeitwartungs- und Aktualisierungsstrategie der Datenbank nicht detailliert beschrieben
- Akademischer Wert: Bietet wichtige Ressourcen für datengesteuerte Forschung zu thermoelektrischen Materialien
- Methodisches Vorbild: Der GPTArticleExtractor-Workflow kann auf andere Bereiche der Materialwissenschaften übertragen werden
- Industrielle Anwendung: Unterstützt die Industrialisierung und Optimierung thermoelektrischer Geräte
- Bildungswert: Bietet standardisierte Datensätze für relevante Kurse und Forschung
- Forschung zum maschinellen Lernen: Training von Modellen zur Vorhersage thermoelektrischer Eigenschaften
- Materialauswahl: Schnelle Identifikation von Kandidatenmaterialien mit spezifischen Eigenschaften
- Untersuchung von Struktur-Eigenschafts-Beziehungen: Nutzung von Strukturinformationen zur Erforschung von Designprinzipien
- Benchmark-Tests: Bereitstellung von Validierungsdatensätzen für neue Berechnungsmethoden
Das Papier zitiert 40 verwandte Arbeiten, die Grundlagentheorie thermoelektrischer Materialien, Berechnungsmethoden, bestehende Datenbanken und Anwendungen des maschinellen Lernens abdecken und eine solide theoretische Grundlage und umfassende Hintergrundforschung bieten.
Gesamtbewertung: Dies ist ein hochqualitatives interdisziplinäres Forschungspapier, das erfolgreich künstliche Intelligenz-Technologie auf die Datenverwaltung in der Materialwissenschaft anwendet und der Forschungsgemeinschaft für thermoelektrische Materialien eine wertvolle Ressource bietet. Trotz einiger Einschränkungen verleihen die innovative Methode und der praktische Beitrag dem Papier wichtige akademische und praktische Bedeutung.