Thermoelectric materials provide a sustainable way to convert waste heat into electricity. However, data-driven discovery and optimization of these materials are challenging because of a lack of a reliable database. Here we developed a comprehensive database of 7,123 thermoelectric compounds, containing key information such as chemical composition, structural detail, seebeck coefficient, electrical and thermal conductivity, power factor, and figure of merit (ZT). We used the GPTArticleExtractor workflow, powered by large language models (LLM), to extract and curate data automatically from the scientific literature published in Elsevier journals. This process enabled the creation of a structured database that addresses the challenges of manual data collection. The open access database could stimulate data-driven research and advance thermoelectric material analysis and discovery.
- पेपर ID: 2501.00564
- शीर्षक: Large Language Model-Driven Database for Thermoelectric Materials
- लेखक: Suman Itani, Yibo Zhang, Jiadong Zang (University of New Hampshire)
- वर्गीकरण: cond-mat.mtrl-sci cs.DL
- प्रकाशन तिथि: 3 जनवरी 2025 (प्रीप्रिंट)
- पेपर लिंक: https://arxiv.org/abs/2501.00564
थर्मोइलेक्ट्रिक सामग्री अपशिष्ट ऊष्मा को विद्युत ऊर्जा में परिवर्तित करने के लिए एक टिकाऊ मार्ग प्रदान करती है। हालांकि, विश्वसनीय डेटाबेस की कमी के कारण, इन सामग्रियों की डेटा-संचालित खोज और अनुकूलन को चुनौतियों का सामना करना पड़ता है। यह अनुसंधान 7,123 थर्मोइलेक्ट्रिक यौगिकों वाला एक व्यापक डेटाबेस विकसित करता है, जिसमें रासायनिक संरचना, संरचनात्मक विवरण, सीबेक गुणांक, विद्युत चालकता और तापीय चालकता, शक्ति कारक और गुणवत्ता कारक (ZT) जैसी महत्वपूर्ण जानकारी शामिल है। अनुसंधान बड़े भाषा मॉडल द्वारा संचालित GPTArticleExtractor वर्कफ़्लो का उपयोग करता है, जो Elsevier पत्रिकाओं में प्रकाशित वैज्ञानिक साहित्य से स्वचालित रूप से डेटा निकालता है और व्यवस्थित करता है। यह प्रक्रिया संरचित डेटाबेस के निर्माण को सक्षम करती है, जो मैनुअल डेटा संग्रह की चुनौतियों को संबोधित करती है। यह खुली पहुंच वाला डेटाबेस डेटा-संचालित अनुसंधान को प्रोत्साहित कर सकता है और थर्मोइलेक्ट्रिक सामग्री विश्लेषण और खोज को आगे बढ़ा सकता है।
- ऊर्जा रूपांतरण आवश्यकता: वैश्विक ऊर्जा चुनौतियों और पर्यावरणीय समस्याओं के बढ़ते साथ, थर्मोइलेक्ट्रिक सामग्री ऊष्मा को विद्युत ऊर्जा में सीधे परिवर्तित करने की प्रमुख तकनीक के रूप में ध्यान आकर्षित कर रही है
- डेटा की कमी की समस्या: मौजूदा थर्मोइलेक्ट्रिक सामग्री डेटाबेस में महत्वपूर्ण सीमाएं हैं:
- अधिकांश प्रथम-सिद्धांत गणना पर आधारित हैं, आदर्श अनुपचारित क्रिस्टल संरचनाओं तक सीमित
- प्रायोगिक डेटाबेस छोटे आकार के हैं और मैनुअल संपादन की आवश्यकता है
- संरचनात्मक संपत्ति जानकारी की कमी, संरचना-संपत्ति संबंध अनुसंधान को सीमित करती है
थर्मोइलेक्ट्रिक सामग्री के प्रदर्शन को आयामहीन गुणवत्ता कारक ZT द्वारा परिमाणित किया जाता है:
जहां S सीबेक गुणांक है, σ विद्युत चालकता है, T निरपेक्ष तापमान है, और κ तापीय चालकता है। ZT को अनुकूलित करने के लिए इन परस्पर संबंधित गुणों पर एक साथ विचार करने की आवश्यकता है, जो सामग्री डिजाइन को अत्यंत चुनौतीपूर्ण बनाता है।
- पारंपरिक विधि: प्रायोगिक परीक्षण और त्रुटि और सैद्धांतिक सिमुलेशन (DFT, MD) पर निर्भर, समय लेने वाली और कम्प्यूटेशनल रूप से महंगी
- मौजूदा डेटाबेस:
- कम्प्यूटेशनल डेटाबेस वास्तविक सामग्री व्यवहार को पूरी तरह से प्रतिबिंबित नहीं कर सकते
- प्रायोगिक डेटाबेस सीमित आकार के हैं
- मशीन लर्निंग अनुप्रयोगों के लिए संरचनात्मक जानकारी की कमी
- स्वचालित निष्कर्षण: ChemDataExtractor जैसे उपकरण बहु-यौगिक लेखों को संभालते समय सटीकता में कमी करते हैं
- बड़े पैमाने पर डेटाबेस निर्माण: 7,123 थर्मोइलेक्ट्रिक यौगिकों वाला एक व्यापक डेटाबेस बनाया गया, जिसमें प्रमुख थर्मोइलेक्ट्रिक गुण और संरचनात्मक जानकारी शामिल है
- स्वचालित डेटा निष्कर्षण: GPTArticleExtractor वर्कफ़्लो को अपनाया गया, जो बड़े भाषा मॉडल का उपयोग करके वैज्ञानिक साहित्य से स्वचालित रूप से संरचित डेटा निकालता है
- डेटा गुणवत्ता आश्वासन: प्रायोगिक और सैद्धांतिक डेटा पहचान शामिल है, लगभग 66% प्रायोगिक डेटा है, जो डेटा विश्वसनीयता को बढ़ाता है
- खुली पहुंच संसाधन: nemad.org पर खुली पहुंच प्रदान की जाती है, जो थर्मोइलेक्ट्रिक सामग्री के डेटा-संचालित अनुसंधान का समर्थन करता है
- संरचना-संपत्ति संबंध: थर्मोइलेक्ट्रिक सामग्री डेटाबेस में पहली बार संरचनात्मक जानकारी को व्यवस्थित रूप से शामिल किया गया है, जो ग्राफ न्यूरल नेटवर्क जैसी उन्नत विधियों का समर्थन करता है
वैज्ञानिक साहित्य से थर्मोइलेक्ट्रिक सामग्री के गुण डेटा और संरचनात्मक जानकारी को स्वचालित रूप से निकालना, मानकीकृत संरचित डेटाबेस बनाना, जिसमें शामिल हैं:
- इनपुट: Elsevier पत्रिकाओं में प्रकाशित थर्मोइलेक्ट्रिक संबंधित वैज्ञानिक साहित्य
- आउटपुट: रासायनिक सूत्र, थर्मोइलेक्ट्रिक गुण, संरचनात्मक पैरामीटर युक्त मानकीकृत JSON प्रारूप डेटा
- बाधाएं: डेटा सटीकता और इकाई एकरूपता सुनिश्चित करना
- कीवर्ड ("Thermoelectric", "Seebeck Coefficient", "Figure of Merit") का उपयोग करके संबंधित लेखों को फ़िल्टर करना
- Elsevier पत्रिका डेटाबेस से वेब स्क्रैपिंग स्क्रिप्ट के माध्यम से लगभग 20,000 DOI संग्रहित करना
- Elsevier API कुंजी का उपयोग करके XML प्रारूप में पूर्ण पाठ डाउनलोड करना
- XML को शुद्ध पाठ CSV प्रारूप में परिवर्तित करने के लिए अनुकूलित पाठ और तालिका पार्सिंग उपकरण विकसित करना
- नेस्टेड टैग और अतिरिक्त मेटाडेटा को हटाना
- GPTArticleExtractor मुख्य तकनीक:
- OpenAI API के माध्यम से डेटा निष्कर्षण के लिए GPT-4 मॉडल का उपयोग करना
- विशिष्ट सूचना निष्कर्षण आवश्यकताओं के लिए अत्यधिक अनुकूलन योग्य प्रॉम्प्ट डिजाइन
- पूर्वनिर्धारित प्रारूप के अनुसार संरचित JSON फ़ाइल आउटपुट
- बहु-सामग्री लेखों के लिए JSON ऑब्जेक्ट सूची उत्पन्न करना
- LLM-संचालित स्वचालन: पारंपरिक NLP उपकरणों की तुलना में, GPT-4 जटिल वैज्ञानिक पाठ को समझने में बेहतर प्रदर्शन करता है
- बहु-सामग्री प्रसंस्करण क्षमता: कई यौगिकों और उनके गुणों का वर्णन करने वाले लेखों को सटीक रूप से संभालने में सक्षम
- डेटा मानकीकरण: डेटा सफाई स्क्रिप्ट विकसित करना, विभिन्न साहित्य में इकाइयों को एकीकृत करना
- गुणवत्ता नियंत्रण: प्रायोगिक और सैद्धांतिक डेटा को अलग करना, डेटाबेस विश्वसनीयता बढ़ाना
- स्रोत: Elsevier पत्रिकाओं में प्रकाशित वैज्ञानिक साहित्य
- पैमाना: लगभग 20,000 संबंधित साहित्य को संसाधित करना
- समय अवधि: थर्मोइलेक्ट्रिक सामग्री अनुसंधान साहित्य को ऐतिहासिक रूप से प्रकाशित करना
- भाषा: अंग्रेजी वैज्ञानिक साहित्य
- XML से CSV रूपांतरण: PDF संस्करण की मुख्य सामग्री को संरक्षित करना
- GPT-4 निष्कर्षण: सावधानीपूर्वक डिजाइन किए गए प्रॉम्प्ट का उपयोग करके सूचना निष्कर्षण
- डेटा सफाई: इकाइयों और डेटा प्रारूप को एकीकृत करना
- गुणवत्ता सत्यापन: महत्वपूर्ण डेटा बिंदुओं की मैनुअल जांच
- रासायनिक संरचना और यौगिक प्रकार
- थर्मोइलेक्ट्रिक गुण (S, σ, κ, PF, ZT) और माप तापमान
- संरचनात्मक जानकारी (क्रिस्टल संरचना, जाली पैरामीटर, अंतरिक्ष समूह)
- डेटा स्रोत पहचान (प्रायोगिक/सैद्धांतिक)
- कुल यौगिक संख्या: 7,123 थर्मोइलेक्ट्रिक यौगिक
- डेटा स्रोत अनुपात: 66% प्रायोगिक डेटा, 34% सैद्धांतिक गणना डेटा
- संरचित स्तर: पूर्ण JSON प्रारूप, मशीन लर्निंग अनुप्रयोग का समर्थन करता है
1. सीबेक गुणांक वितरण
- श्रेणी: -200 μV/K से 3,000 μV/K
- विशेषता: n-प्रकार (नकारात्मक मान) और p-प्रकार (सकारात्मक मान) सामग्री शामिल
- उच्च मान सामग्री: कुछ यौगिक 3,000 μV/K तक पहुंचते हैं, मुख्य रूप से गणनात्मक अनुसंधान से
2. विद्युत चालकता वितरण
- औसत मान: 58,980.63 S/m
- माध्यिका: 20,900.00 S/m
- अधिकतम मान: लगभग 500,000 S/m
- वितरण: मजबूत दाहिनी ओर विषमता, अधिकांश सामग्री में कम विद्युत चालकता
3. तापीय चालकता वितरण
- औसत मान: 2.17 W/mK
- माध्यिका: 1.10 W/mK
- शिखर मान: 1 W/mK के पास
- विशेषता: अधिकांश सामग्री में थर्मोइलेक्ट्रिक अनुप्रयोगों के लिए उपयुक्त कम तापीय चालकता
4. शक्ति कारक वितरण
- गणना सूत्र: PF = S² × σ
- औसत मान: 1,165.54 μW/mK²
- माध्यिका: 526.86 μW/mK²
- अधिकतम मान: लगभग 7,000 μW/mK²
5. गुणवत्ता कारक (ZT) वितरण
- औसत मान: 0.75
- माध्यिका: 0.72
- मुख्य श्रेणी: 0.5-1.0
- उच्च-प्रदर्शन सामग्री: कुछ ZT ≈ 4.0 तक पहुंचते हैं
चित्र 2 के अनुसार, विभिन्न गुणों के डेटा कवरेज में अंतर है, जो साहित्य में रिपोर्ट किए गए गुणों की अधूरापन को दर्शाता है, यह वास्तविक वैज्ञानिक अनुसंधान में एक सामान्य घटना है।
- कम्प्यूटेशनल डेटाबेस: Materials Project, JARVIS आदि मुख्य रूप से DFT गणना पर आधारित हैं
- प्रायोगिक डेटाबेस: छोटे आकार के, जैसे Gaultois आदि द्वारा हस्तनिर्मित डेटाबेस
- स्वचालित निष्कर्षण: Sierepeklis और Cole ने ChemDataExtractor का उपयोग करके 10,641 यौगिकों का डेटाबेस बनाया
- डेटा गुणवत्ता: उन्नत LLM का उपयोग करके निष्कर्षण सटीकता में सुधार
- संरचनात्मक जानकारी: पहली बार क्रिस्टल संरचना, अंतरिक्ष समूह आदि को व्यवस्थित रूप से शामिल किया गया
- डेटा पहचान: प्रायोगिक और सैद्धांतिक डेटा को स्पष्ट रूप से अलग करना
- निरंतर अपडेट: एक विस्तारणीय स्वचालित प्रवाह स्थापित करना
- सफलतापूर्वक वर्तमान में सबसे व्यापक थर्मोइलेक्ट्रिक सामग्री डेटाबेस में से एक बनाया गया है, जिसमें 7,123 यौगिक शामिल हैं
- GPTArticleExtractor ने वैज्ञानिक डेटा निष्कर्षण में LLM की प्रभावशीलता को साबित किया है
- डेटाबेस कम प्रदर्शन से उच्च प्रदर्शन (ZT~4) तक सामग्रियों की विस्तृत श्रेणी को कवर करता है
- संरचनात्मक जानकारी का समावेश भविष्य के मशीन लर्निंग अनुप्रयोगों के लिए आधार तैयार करता है
- डेटा पूर्णता: सभी यौगिकों के पास संपूर्ण गुण डेटा नहीं है
- स्रोत प्रतिबंध: केवल Elsevier पत्रिकाओं तक सीमित, प्रकाशन पूर्वाग्रह हो सकता है
- गुणवत्ता नियंत्रण: हालांकि LLM का उपयोग सटीकता में सुधार करता है, फिर भी मैनुअल सत्यापन की आवश्यकता है
- गतिशील अपडेट: नवीनतम अनुसंधान परिणामों को शामिल करने के लिए निरंतर रखरखाव की आवश्यकता है
- अधिक पत्रिकाओं और डेटा स्रोतों तक विस्तार करना
- इस डेटाबेस के आधार पर मशीन लर्निंग मॉडल विकसित करना
- संरचनात्मक जानकारी का उपयोग करने के लिए ग्राफ न्यूरल नेटवर्क को एकीकृत करना
- सामुदायिक योगदान तंत्र स्थापित करना
- तकनीकी नवाचार: वैज्ञानिक डेटा निष्कर्षण के लिए LLM का अनुप्रयोग, स्वचालन की डिग्री और सटीकता में महत्वपूर्ण सुधार
- डेटा मूल्य: थर्मोइलेक्ट्रिक सामग्री क्षेत्र में बड़े पैमाने पर प्रायोगिक डेटाबेस की कमी को भरना
- व्यावहारिकता: खुली पहुंच और मानकीकृत प्रारूप, अनुसंधान समुदाय के उपयोग के लिए सुविधाजनक
- दूरदर्शिता: संरचनात्मक जानकारी का समावेश उन्नत मशीन लर्निंग विधियों के अनुप्रयोग के लिए मार्ग प्रशस्त करता है
- विधि पुनरुत्पादनीयता: वर्कफ़्लो प्रक्रिया का विस्तृत विवरण, अच्छी पुनरुत्पादनीयता
- सत्यापन तंत्र: निष्कर्षण सटीकता को परिमाणित करने के लिए व्यवस्थित मैनुअल सत्यापन की कमी
- पूर्वाग्रह समस्या: केवल Elsevier पत्रिकाओं का उपयोग प्रकाशन और चयन पूर्वाग्रह का परिचय दे सकता है
- डेटा गुणवत्ता मूल्यांकन: विभिन्न स्रोतों के डेटा गुणवत्ता की मात्रात्मक तुलना प्रदान नहीं की गई
- अपडेट तंत्र: डेटाबेस के दीर्घकालीन रखरखाव और अपडेट रणनीति का विस्तार से वर्णन नहीं किया गया
- शैक्षणिक मूल्य: थर्मोइलेक्ट्रिक सामग्री के डेटा-संचालित अनुसंधान के लिए महत्वपूर्ण संसाधन प्रदान करता है
- विधि प्रदर्शन: GPTArticleExtractor वर्कफ़्लो को अन्य सामग्री विज्ञान क्षेत्रों में सामान्यीकृत किया जा सकता है
- औद्योगिक अनुप्रयोग: थर्मोइलेक्ट्रिक उपकरणों के औद्योगिकीकरण और अनुकूलन का समर्थन करता है
- शैक्षिक मूल्य: संबंधित पाठ्यक्रमों और अनुसंधान के लिए मानकीकृत डेटासेट प्रदान करता है
- मशीन लर्निंग अनुसंधान: थर्मोइलेक्ट्रिक गुणों की भविष्यवाणी करने वाले मॉडल को प्रशिक्षित करना
- सामग्री चयन: विशिष्ट गुणों वाली उम्मीदवार सामग्रियों की तेजी से पहचान करना
- संरचना-संपत्ति संबंध अनुसंधान: डिजाइन नियमों की खोज के लिए संरचनात्मक जानकारी का उपयोग करना
- बेंचमार्क परीक्षण: नई कम्प्यूटेशनल विधियों के लिए सत्यापन डेटासेट प्रदान करना
पेपर में 40 संबंधित संदर्भ हैं, जिनमें थर्मोइलेक्ट्रिक सामग्री मौलिक सिद्धांत, कम्प्यूटेशनल विधियां, मौजूदा डेटाबेस और मशीन लर्निंग अनुप्रयोग शामिल हैं, जो अनुसंधान के लिए एक मजबूत सैद्धांतिक आधार और पर्याप्त पृष्ठभूमि अनुसंधान प्रदान करते हैं।
समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला अंतःविषय अनुसंधान पत्र है, जो कृत्रिम बुद्धिमत्ता तकनीक को सामग्री विज्ञान डेटा प्रबंधन में सफलतापूर्वक लागू करता है, थर्मोइलेक्ट्रिक सामग्री अनुसंधान समुदाय को मूल्यवान संसाधन प्रदान करता है। हालांकि कुछ सीमाएं हैं, लेकिन इसकी नवीन विधि और व्यावहारिक योगदान इसे महत्वपूर्ण शैक्षणिक और व्यावहारिक मूल्य प्रदान करते हैं।