Thermoelectric materials provide a sustainable way to convert waste heat into electricity. However, data-driven discovery and optimization of these materials are challenging because of a lack of a reliable database. Here we developed a comprehensive database of 7,123 thermoelectric compounds, containing key information such as chemical composition, structural detail, seebeck coefficient, electrical and thermal conductivity, power factor, and figure of merit (ZT). We used the GPTArticleExtractor workflow, powered by large language models (LLM), to extract and curate data automatically from the scientific literature published in Elsevier journals. This process enabled the creation of a structured database that addresses the challenges of manual data collection. The open access database could stimulate data-driven research and advance thermoelectric material analysis and discovery.
Base de Datos Impulsada por Modelo de Lenguaje Grande para Materiales Termoeléctricos
- ID del Artículo: 2501.00564
- Título: Large Language Model-Driven Database for Thermoelectric Materials
- Autores: Suman Itani, Yibo Zhang, Jiadong Zang (Universidad de New Hampshire)
- Clasificación: cond-mat.mtrl-sci cs.DL
- Fecha de Publicación: 3 de enero de 2025 (preimpresión)
- Enlace del Artículo: https://arxiv.org/abs/2501.00564
Los materiales termoeléctricos ofrecen una vía sostenible para convertir el calor residual en energía eléctrica. Sin embargo, el descubrimiento y la optimización impulsados por datos de estos materiales enfrentan desafíos debido a la falta de bases de datos confiables. Este estudio desarrolla una base de datos integral que contiene 7,123 compuestos termoeléctricos, incluyendo información clave como composición química, detalles estructurales, coeficiente de Seebeck, conductividad eléctrica y térmica, factor de potencia y figura de mérito (ZT). La investigación utiliza el flujo de trabajo GPTArticleExtractor impulsado por modelos de lenguaje grande para extraer y organizar automáticamente datos de la literatura científica publicada en revistas de Elsevier. Este proceso permite la creación de una base de datos estructurada, abordando los desafíos de la recopilación manual de datos. Esta base de datos de acceso abierto puede estimular la investigación impulsada por datos y avanzar en el análisis y descubrimiento de materiales termoeléctricos.
- Necesidad de Conversión de Energía: Con los crecientes desafíos energéticos globales y problemas ambientales, los materiales termoeléctricos como tecnología clave para convertir directamente energía térmica en energía eléctrica reciben considerable atención
- Problema de Escasez de Datos: Las bases de datos existentes de materiales termoeléctricos presentan limitaciones significativas:
- La mayoría se basan en cálculos de primeros principios, limitados a estructuras cristalinas ideales sin dopaje
- Las bases de datos experimentales tienen escala pequeña y requieren compilación manual
- Carecen de información de propiedades estructurales, limitando la investigación de relaciones estructura-propiedad
El desempeño de los materiales termoeléctricos se cuantifica mediante la figura de mérito adimensional ZT:
donde S es el coeficiente de Seebeck, σ es la conductividad eléctrica, T es la temperatura absoluta y κ es la conductividad térmica. La optimización de ZT requiere considerar simultáneamente estas propiedades interrelacionadas, lo que hace que el diseño de materiales sea extremadamente desafiante.
- Métodos Tradicionales: Dependen de prueba y error experimental y simulación teórica (DFT, MD), consumiendo tiempo y con alto costo computacional
- Bases de Datos Existentes:
- Las bases de datos computacionales no reflejan completamente el comportamiento real de los materiales
- Las bases de datos experimentales tienen escala limitada
- Carecen de información estructural para aplicaciones de aprendizaje automático
- Extracción Automatizada: Herramientas como ChemDataExtractor muestran precisión reducida al procesar artículos con múltiples compuestos
- Construcción de Base de Datos a Gran Escala: Creación de una base de datos integral que contiene 7,123 compuestos termoeléctricos, abarcando propiedades termoeléctricos clave e información estructural
- Extracción Automatizada de Datos: Adopción del flujo de trabajo GPTArticleExtractor, utilizando modelos de lenguaje grande para extraer automáticamente datos estructurados de la literatura científica
- Garantía de Calidad de Datos: Incluye identificación de datos experimentales y teóricos, aproximadamente 66% son datos experimentales, mejorando la confiabilidad de los datos
- Recurso de Acceso Abierto: Disponible en nemad.org para acceso abierto, apoyando la investigación de materiales termoeléctricos impulsada por datos
- Relaciones Estructura-Propiedad: Primera inclusión sistemática de información estructural en una base de datos de materiales termoeléctricos, apoyando métodos avanzados como redes neuronales gráficas
Extracción automática de datos de propiedades de materiales termoeléctricos e información estructural de la literatura científica, construyendo una base de datos estructurada normalizada que incluya:
- Entrada: Literatura científica relacionada con termoeléctricos publicada en revistas de Elsevier
- Salida: Datos normalizados en formato JSON que incluyen fórmula química, propiedades termoeléctricos y parámetros estructurales
- Restricciones: Garantizar precisión de datos y uniformidad de unidades
- Uso de palabras clave ("Thermoelectric", "Seebeck Coefficient", "Figure of Merit") para filtrar artículos relevantes
- Recopilación de aproximadamente 20,000 DOI de la base de datos de revistas de Elsevier mediante scripts de web scraping
- Descarga de textos completos en formato XML utilizando claves API de Elsevier
- Desarrollo de herramientas personalizadas de análisis de texto y tablas, convirtiendo XML a formato CSV de texto puro
- Eliminación de etiquetas anidadas y metadatos innecesarios
- Tecnología Principal de GPTArticleExtractor:
- Utilización del modelo GPT-4 a través de la API de OpenAI para extracción de datos
- Diseño de indicaciones altamente personalizables dirigidas a necesidades específicas de extracción de información
- Salida de archivos JSON estructurados conformes a formato predefinido
- Generación de listas de objetos JSON para artículos con múltiples materiales
- Automatización Impulsada por LLM: GPT-4 muestra un desempeño superior en la comprensión de textos científicos complejos en comparación con herramientas NLP tradicionales
- Capacidad de Procesamiento Multiaterial: Capacidad para procesar con precisión artículos que describen múltiples compuestos y sus propiedades
- Normalización de Datos: Desarrollo de scripts de limpieza de datos para unificar sistemas de unidades en diferentes literaturas
- Control de Calidad: Distinción entre datos experimentales y teóricos, mejorando la confiabilidad de la base de datos
- Origen: Literatura científica publicada en revistas de Elsevier
- Escala: Procesamiento de aproximadamente 20,000 artículos relevantes
- Rango Temporal: Abarca literatura de investigación de materiales termoeléctricos publicada históricamente
- Idioma: Literatura científica en inglés
- Conversión de XML a CSV: Retención del contenido central de versiones PDF
- Extracción GPT-4: Extracción de información utilizando indicaciones cuidadosamente diseñadas
- Limpieza de Datos: Unificación de sistemas de unidades y formato de datos
- Validación de Calidad: Verificación manual de puntos de datos críticos
- Composición química y tipo de compuesto
- Propiedades termoeléctricos (S, σ, κ, PF, ZT) y temperatura de medición
- Información estructural (estructura cristalina, parámetros de red, grupo espacial)
- Identificación de fuente de datos (experimental/teórico)
- Número Total de Compuestos: 7,123 compuestos termoeléctricos
- Proporción de Fuentes de Datos: 66% datos experimentales, 34% datos de cálculo teórico
- Grado de Estructuración: Formato JSON completo, compatible con aplicaciones de aprendizaje automático
1. Distribución del Coeficiente de Seebeck
- Rango: -200 μV/K a 3,000 μV/K
- Características: Incluye materiales tipo n (valores negativos) y tipo p (valores positivos)
- Materiales de Alto Valor: Algunos compuestos alcanzan 3,000 μV/K, principalmente de estudios computacionales
2. Distribución de Conductividad Eléctrica
- Valor Promedio: 58,980.63 S/m
- Mediana: 20,900.00 S/m
- Valor Máximo: Aproximadamente 500,000 S/m
- Distribución: Distribución fuertemente sesgada a la derecha, la mayoría de materiales tienen conductividad eléctrica baja
3. Distribución de Conductividad Térmica
- Valor Promedio: 2.17 W/mK
- Mediana: 1.10 W/mK
- Pico: Cerca de 1 W/mK
- Características: La mayoría de materiales poseen baja conductividad térmica adecuada para aplicaciones termoeléctricos
4. Distribución del Factor de Potencia
- Fórmula de Cálculo: PF = S² × σ
- Valor Promedio: 1,165.54 μW/mK²
- Mediana: 526.86 μW/mK²
- Valor Máximo: Aproximadamente 7,000 μW/mK²
5. Distribución de la Figura de Mérito (ZT)
- Valor Promedio: 0.75
- Mediana: 0.72
- Rango Principal: 0.5-1.0
- Materiales de Alto Desempeño: Algunos alcanzan ZT ≈ 4.0
Según se muestra en la Figura 2, existe variación en la cobertura de datos de diferentes propiedades, reflejando la incompletitud de propiedades reportadas en la literatura, un fenómeno común en la investigación científica práctica.
- Bases de Datos Computacionales: Materials Project, JARVIS, etc., principalmente basadas en cálculos DFT
- Bases de Datos Experimentales: Escala más pequeña, como la base de datos compilada manualmente por Gaultois et al.
- Extracción Automatizada: Sierepeklis y Cole utilizaron ChemDataExtractor para construir una base de datos de 10,641 compuestos
- Calidad de Datos: Uso de LLM avanzado para mejorar la precisión de extracción
- Información Estructural: Primera inclusión sistemática de estructura cristalina, grupo espacial y otra información
- Identificación de Datos: Distinción clara entre datos experimentales y teóricos
- Actualización Continua: Establecimiento de un proceso automatizado escalable
- Construcción exitosa de una de las bases de datos de materiales termoeléctricos más completas hasta la fecha, que contiene 7,123 compuestos
- GPTArticleExtractor demuestra la efectividad de LLM en la extracción de datos científicos
- La base de datos abarca un amplio rango de materiales, desde bajo desempeño hasta alto desempeño (ZT~4)
- La inclusión de información estructural sienta las bases para futuras aplicaciones de aprendizaje automático
- Integridad de Datos: No todos los compuestos poseen datos completos de propiedades
- Restricción de Fuentes: Limitado a revistas de Elsevier, puede existir sesgo de publicación
- Control de Calidad: Aunque el uso de LLM mejora la precisión, aún se requiere verificación manual
- Actualización Dinámica: Requiere mantenimiento continuo para incluir resultados de investigación más recientes
- Expansión a más revistas y fuentes de datos
- Desarrollo de modelos de aprendizaje automático basados en esta base de datos
- Integración de redes neuronales gráficas para utilizar información estructural
- Establecimiento de mecanismos de contribución comunitaria
- Innovación Técnica: Aplicación de LLM a la extracción de datos científicos, mejorando significativamente el grado de automatización y precisión
- Valor de Datos: Llena el vacío de falta de bases de datos experimentales a gran escala en el campo de materiales termoeléctricos
- Practicidad: Acceso abierto y formato normalizado, facilitando el uso por parte de la comunidad investigadora
- Visión de Futuro: La inclusión de información estructural allana el camino para la aplicación de métodos avanzados de aprendizaje automático
- Reproducibilidad de Métodos: Descripción detallada del flujo de trabajo con buena reproducibilidad
- Mecanismo de Verificación: Falta de verificación manual sistemática para cuantificar la precisión de extracción
- Problema de Sesgo: El uso exclusivo de revistas de Elsevier puede introducir sesgo de publicación y selección
- Evaluación de Calidad de Datos: No proporciona comparación cuantitativa de calidad de datos de diferentes fuentes
- Mecanismo de Actualización: No detalla claramente la estrategia de mantenimiento y actualización a largo plazo de la base de datos
- Valor Académico: Proporciona recurso importante para investigación de materiales termoeléctricos impulsada por datos
- Demostración de Método: El flujo de trabajo GPTArticleExtractor puede generalizarse a otros campos de ciencia de materiales
- Aplicación Industrial: Apoya el desarrollo e optimización industrial de dispositivos termoeléctricos
- Valor Educativo: Proporciona conjunto de datos normalizado para cursos y investigación relacionada
- Investigación de Aprendizaje Automático: Entrenamiento de modelos para predecir propiedades termoeléctricos
- Cribado de Materiales: Identificación rápida de materiales candidatos con propiedades específicas
- Investigación de Relaciones Estructura-Propiedad: Utilización de información estructural para explorar leyes de diseño
- Pruebas de Referencia: Proporciona conjunto de datos de validación para nuevos métodos computacionales
El artículo cita 40 referencias relacionadas, abarcando teoría fundamental de materiales termoeléctricos, métodos computacionales, bases de datos existentes y aplicaciones de aprendizaje automático, proporcionando una base teórica sólida e investigación de antecedentes suficiente.
Evaluación General: Este es un artículo de investigación de alta calidad interdisciplinaria que aplica exitosamente tecnología de inteligencia artificial a la gestión de datos de ciencia de materiales, proporcionando un recurso valioso para la comunidad investigadora de materiales termoeléctricos. Aunque presenta algunas limitaciones, su método innovador y contribuciones prácticas le confieren importante valor académico y práctico.