2025-11-18T10:22:13.240299

Large Language Model-Driven Database for Thermoelectric Materials

Itani, Zhang, Zang
Thermoelectric materials provide a sustainable way to convert waste heat into electricity. However, data-driven discovery and optimization of these materials are challenging because of a lack of a reliable database. Here we developed a comprehensive database of 7,123 thermoelectric compounds, containing key information such as chemical composition, structural detail, seebeck coefficient, electrical and thermal conductivity, power factor, and figure of merit (ZT). We used the GPTArticleExtractor workflow, powered by large language models (LLM), to extract and curate data automatically from the scientific literature published in Elsevier journals. This process enabled the creation of a structured database that addresses the challenges of manual data collection. The open access database could stimulate data-driven research and advance thermoelectric material analysis and discovery.
academic

قاعدة بيانات مدفوعة بنماذج اللغة الكبيرة للمواد الكهروحرارية

المعلومات الأساسية

  • معرّف الورقة: 2501.00564
  • العنوان: قاعدة بيانات مدفوعة بنماذج اللغة الكبيرة للمواد الكهروحرارية
  • المؤلفون: سومان إيتاني، ييبو تشانج، جيادونج زانج (جامعة نيو هامبشاير)
  • التصنيف: cond-mat.mtrl-sci cs.DL
  • تاريخ النشر: 3 يناير 2025 (نسخة أولية)
  • رابط الورقة: https://arxiv.org/abs/2501.00564

الملخص

توفر المواد الكهروحرارية طريقة مستدامة لتحويل الحرارة المهدرة إلى طاقة كهربائية. ومع ذلك، يواجه الاكتشاف والتحسين المدفوع بالبيانات لهذه المواد تحديات بسبب نقص قواعد البيانات الموثوقة. يطور هذا البحث قاعدة بيانات شاملة تحتوي على 7,123 مركباً كهروحرارياً، تتضمن التركيب الكيميائي والتفاصيل الهيكلية ومعامل سيبيك والموصلية الكهربائية والموصلية الحرارية وعامل القدرة وعامل الجودة (ZT). يستخدم البحث سير عمل GPTArticleExtractor مدفوع بنماذج اللغة الكبيرة لاستخراج وتنظيم البيانات تلقائياً من الأدبيات العلمية المنشورة في مجلات Elsevier. حقق هذا الإجراء إنشاء قاعدة بيانات منظمة، مما يعالج تحديات جمع البيانات اليدوي. يمكن لقاعدة البيانات المفتوحة الوصول هذه أن تحفز البحث المدفوع بالبيانات وتعزز تحليل واكتشاف المواد الكهروحرارية.

الخلفية البحثية والدافع

تعريف المشكلة

  1. احتياجات تحويل الطاقة: مع تفاقم التحديات الطاقية العالمية والمشاكل البيئية، تحظى المواد الكهروحرارية باهتمام متزايد كتكنولوجيا رئيسية لتحويل الطاقة الحرارية مباشرة إلى طاقة كهربائية
  2. مشكلة ندرة البيانات: تواجه قواعد البيانات الحالية للمواد الكهروحرارية قيوداً كبيرة:
    • معظمها يعتمد على حسابات المبادئ الأولى، مقتصراً على البنى البلورية المثالية غير الم掺بة
    • قواعد البيانات التجريبية صغيرة الحجم وتتطلب تنظيماً يدوياً
    • تفتقر إلى معلومات الخصائص الهيكلية، مما يحد من دراسات العلاقة بين الهيكل والخصائص

أهمية البحث

يتم تحديد أداء المواد الكهروحرارية بواسطة عامل الجودة اللابعدي ZT:

ZT = S²σT/κ

حيث S هو معامل سيبيك، σ هو الموصلية الكهربائية، T هي درجة الحرارة المطلقة، و κ هي الموصلية الحرارية. يتطلب تحسين ZT النظر المتزامن في هذه الخصائص المترابطة، مما يجعل تصميم المواد صعباً للغاية.

قيود الطرق الموجودة

  1. الطرق التقليدية: تعتمد على التجربة والخطأ التجريبي والمحاكاة النظرية (DFT، MD)، وهي مستهلكة للوقت وذات تكاليف حسابية عالية
  2. قواعس البيانات الموجودة:
    • لا تعكس قواعد البيانات الحسابية سلوك المواد الفعلي بشكل كامل
    • قواعد البيانات التجريبية محدودة الحجم
    • تفتقر إلى معلومات هيكلية لتطبيقات التعلم الآلي
  3. الاستخراج الآلي: تنخفض دقة أدوات مثل ChemDataExtractor عند التعامل مع المقالات متعددة المركبات

المساهمات الأساسية

  1. بناء قاعدة بيانات واسعة النطاق: إنشاء قاعدة بيانات شاملة تحتوي على 7,123 مركباً كهروحرارياً، تغطي الخصائص الكهروحرارية الرئيسية والمعلومات الهيكلية
  2. استخراج البيانات الآلي: اعتماد سير عمل GPTArticleExtractor، مستفيداً من نماذج اللغة الكبيرة لاستخراج البيانات المنظمة تلقائياً من الأدبيات العلمية
  3. ضمان جودة البيانات: يتضمن تحديد البيانات التجريبية والنظرية، حوالي 66% بيانات تجريبية، مما يعزز موثوقية البيانات
  4. مورد مفتوح الوصول: متاح على nemad.org، يدعم البحث المدفوع بالبيانات في المواد الكهروحرارية
  5. العلاقة بين الهيكل والخصائص: أول مرة يتم تضمين المعلومات الهيكلية بشكل منهجي في قاعدة بيانات المواد الكهروحرارية، مما يدعم الطرق المتقدمة مثل الشبكات العصبية الرسومية

شرح الطريقة

تعريف المهمة

استخراج تلقائي لبيانات خصائص المواد الكهروحرارية والمعلومات الهيكلية من الأدبيات العلمية، وبناء قاعدة بيانات منظمة ومعيارية، تتضمن:

  • المدخلات: الأدبيات العلمية المتعلقة بالمواد الكهروحرارية المنشورة في مجلات Elsevier
  • المخرجات: بيانات معيارية بصيغة JSON تتضمن الصيغة الكيميائية والخصائص الكهروحرارية والمعاملات الهيكلية
  • القيود: ضمان دقة البيانات وتوحيد الوحدات

معمارية سير العمل

1. مرحلة جمع DOI

  • استخدام كلمات مفتاحية ("Thermoelectric"، "Seebeck Coefficient"، "Figure of Merit") لتصفية المقالات ذات الصلة
  • جمع حوالي 20,000 DOI من قاعدة بيانات مجلات Elsevier من خلال نصوص الويب

2. مرحلة الحصول على المقالات

  • تحميل النصوص الكاملة بصيغة XML باستخدام مفاتيح API من Elsevier
  • تطوير أدوات تحليل نصوص وجداول مخصصة، تحويل XML إلى صيغة CSV نصية نقية
  • إزالة الوسوم المتداخلة والبيانات الوصفية الزائدة

3. مرحلة استخراج البيانات والتجميع

  • تكنولوجيا GPTArticleExtractor الأساسية:
    • الاستفادة من نموذج GPT-4 لاستخراج البيانات من خلال OpenAI API
    • تصميم موجهات قابلة للتخصيص بدرجة عالية، موجهة نحو احتياجات استخراج المعلومات المحددة
    • إخراج ملفات JSON منظمة، متوافقة مع الصيغة المحددة مسبقاً
    • توليد قوائم كائنات JSON للمقالات متعددة المواد

نقاط الابتكار التقني

  1. الأتمتة المدفوعة بـ LLM: مقارنة بأدوات معالجة اللغة الطبيعية التقليدية، يُظهر GPT-4 أداءً أفضل في فهم النصوص العلمية المعقدة
  2. قدرة معالجة المواد المتعددة: القدرة على معالجة المقالات التي تصف مركبات وخصائص متعددة بدقة
  3. توحيد البيانات: تطوير نصوص تنظيف البيانات، توحيد الوحدات عبر الأدبيات المختلفة
  4. مراقبة الجودة: التمييز بين البيانات التجريبية والنظرية، تحسين موثوقية قاعدة البيانات

الإعداد التجريبي

مصادر البيانات

  • المصدر: الأدبيات العلمية المنشورة في مجلات Elsevier
  • الحجم: معالجة حوالي 20,000 مقالة ذات صلة
  • الفترة الزمنية: تغطي الأدبيات البحثية التاريخية للمواد الكهروحرارية
  • اللغة: الأدبيات العلمية باللغة الإنجليزية

عملية معالجة البيانات

  1. تحويل XML إلى CSV: الاحتفاظ بالمحتوى الأساسي من نسخة PDF
  2. استخراج GPT-4: استخدام موجهات مصممة بعناية لاستخراج المعلومات
  3. تنظيف البيانات: توحيد الوحدات وصيغ البيانات
  4. التحقق من الجودة: الفحص اليدوي لنقاط البيانات الحرجة

أهداف الاستخراج

  • التركيب الكيميائي وأنواع المركبات
  • الخصائص الكهروحرارية (S، σ، κ، PF، ZT) ودرجات الحرارة المقاسة
  • المعلومات الهيكلية (البنية البلورية، معاملات الشبكة، المجموعة الفضائية)
  • تحديد مصدر البيانات (تجريبي/نظري)

نتائج التجارب

الخصائص الإحصائية لقاعدة البيانات

حجم وحتويات قاعدة البيانات

  • إجمالي عدد المركبات: 7,123 مركباً كهروحرارياً
  • نسبة مصادر البيانات: 66% بيانات تجريبية، 34% بيانات حسابية نظرية
  • درجة التنظيم: صيغة JSON كاملة، تدعم تطبيقات التعلم الآلي

تحليل توزيع الخصائص

1. توزيع معامل سيبيك

  • النطاق: من -200 μV/K إلى 3,000 μV/K
  • الخصائص: يتضمن مواد من النوع n (قيم سالبة) والنوع p (قيم موجبة)
  • المواد عالية القيمة: عدد قليل من المركبات يصل إلى 3,000 μV/K، تأتي بشكل أساسي من الدراسات الحسابية

2. توزيع الموصلية الكهربائية

  • المتوسط: 58,980.63 S/m
  • الوسيط: 20,900.00 S/m
  • القيمة القصوى: حوالي 500,000 S/m
  • التوزيع: توزيع منحرف بقوة نحو اليمين، معظم المواد لها موصلية كهربائية منخفضة

3. توزيع الموصلية الحرارية

  • المتوسط: 2.17 W/mK
  • الوسيط: 1.10 W/mK
  • القمة: بالقرب من 1 W/mK
  • الخصائص: معظم المواد لها موصلية حرارية منخفضة مناسبة للتطبيقات الكهروحرارية

4. توزيع عامل القدرة

  • صيغة الحساب: PF = S² × σ
  • المتوسط: 1,165.54 μW/mK²
  • الوسيط: 526.86 μW/mK²
  • القيمة القصوى: حوالي 7,000 μW/mK²

5. توزيع عامل الجودة (ZT)

  • المتوسط: 0.75
  • الوسيط: 0.72
  • النطاق الرئيسي: 0.5-1.0
  • المواد عالية الأداء: عدد قليل يصل إلى ZT ≈ 4.0

تحليل اكتمال البيانات

كما هو موضح في الشكل 2، توجد فروقات في معدل التغطية لخصائص مختلفة، مما يعكس عدم اكتمال الخصائص المبلغ عنها في الأدبيات، وهي ظاهرة شائعة في البحث العملي الفعلي.

الأعمال ذات الصلة

مقارنة قواعس البيانات الموجودة

  1. قواعس البيانات الحسابية: Materials Project، JARVIS وغيرها تعتمد بشكل أساسي على حسابات DFT
  2. قواعس البيانات التجريبية: حجم أصغر، مثل قاعدة البيانات المجمعة يدوياً من قبل Gaultois وآخرين
  3. الاستخراج الآلي: استخدم Sierepeklis و Cole ChemDataExtractor لبناء قاعدة بيانات تحتوي على 10,641 مركباً

مزايا هذا العمل

  1. جودة البيانات: استخدام نماذج لغة متقدمة لتحسين دقة الاستخراج
  2. المعلومات الهيكلية: أول مرة يتم تضمين البنية البلورية والمجموعة الفضائية وغيرها بشكل منهجي
  3. تحديد البيانات: التمييز الواضح بين البيانات التجريبية والنظرية
  4. التحديث المستمر: إنشاء عملية آلية قابلة للتوسع

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. بناء بنجاح واحدة من أشمل قواعس البيانات للمواد الكهروحرارية، تحتوي على 7,123 مركباً
  2. أثبت GPTArticleExtractor فعالية نماذج اللغة الكبيرة في استخراج البيانات العلمية
  3. تغطي قاعدة البيانات نطاقاً واسعاً من المواد من الأداء المنخفض إلى الأداء العالي (ZT~4)
  4. يضع تضمين المعلومات الهيكلية الأساس لتطبيقات التعلم الآلي المستقبلية

القيود

  1. اكتمال البيانات: ليس جميع المركبات لديها بيانات خصائص كاملة
  2. قيود المصدر: مقتصرة على مجلات Elsevier، قد يكون هناك انحياز في النشر
  3. مراقبة الجودة: على الرغم من استخدام نماذج اللغة الكبيرة لتحسين الدقة، لا تزال هناك حاجة للتحقق اليدوي
  4. التحديث الديناميكي: تتطلب صيانة مستمرة لتضمين أحدث نتائج البحث

الاتجاهات المستقبلية

  1. التوسع إلى مجلات ومصادر بيانات أكثر
  2. تطوير نماذج التعلم الآلي بناءً على قاعدة البيانات هذه
  3. دمج الشبكات العصبية الرسومية للاستفادة من المعلومات الهيكلية
  4. إنشاء آلية لمساهمة المجتمع

التقييم المتعمق

المزايا

  1. الابتكار التقني: تطبيق نماذج اللغة الكبيرة على استخراج البيانات العلمية، تحسين كبير في درجة الأتمتة والدقة
  2. قيمة البيانات: ملء الفراغ في نقص قواعس البيانات التجريبية واسعة النطاق في مجال المواد الكهروحرارية
  3. الفائدة العملية: مفتوح الوصول وموحد الصيغة، يسهل استخدام مجتمع البحث
  4. الرؤية المستقبلية: تضمين المعلومات الهيكلية يمهد الطريق لتطبيق طرق التعلم الآلي المتقدمة
  5. قابلية إعادة الإنتاج: وصف مفصل لسير العمل، قابلية جيدة للإعادة

أوجه القصور

  1. آلية التحقق: نقص التحقق المنهجي اليدوي لتحديد دقة الاستخراج
  2. مشكلة الانحياز: استخدام مجلات Elsevier فقط قد يدخل انحياز النشر والاختيار
  3. تقييم جودة البيانات: عدم توفير مقارنة كمية لجودة البيانات من مصادر مختلفة
  4. آلية التحديث: عدم شرح تفصيلي لاستراتيجية الصيانة والتحديث طويلة الأجل لقاعدة البيانات

التأثير

  1. القيمة الأكاديمية: توفير مورد مهم للبحث المدفوع بالبيانات في المواد الكهروحرارية
  2. نموذج الطريقة: يمكن توسيع سير عمل GPTArticleExtractor إلى مجالات أخرى في علوم المواد
  3. التطبيق الصناعي: دعم التطوير الصناعي والتحسين لأجهزة كهروحرارية
  4. القيمة التعليمية: توفير مجموعة بيانات معيارية للدورات والأبحاث ذات الصلة

السيناريوهات المعمول بها

  1. بحث التعلم الآلي: تدريب نماذج للتنبؤ بالخصائص الكهروحرارية
  2. فحص المواد: تحديد سريع للمواد المرشحة ذات الخصائص المحددة
  3. دراسة العلاقة بين الهيكل والخصائص: الاستفادة من المعلومات الهيكلية لاستكشاف قوانين التصميم
  4. اختبار المعايير: توفير مجموعة بيانات التحقق لطرق حسابية جديدة

المراجع

تستشهد الورقة بـ 40 مرجعاً ذا صلة، تغطي النظرية الأساسية للمواد الكهروحرارية والطرق الحسابية وقواعس البيانات الموجودة وتطبيقات التعلم الآلي وغيرها، مما يوفر أساساً نظرياً متيناً وبحثاً خلفياً كافياً.


التقييم الشامل: هذه ورقة بحثية عالية الجودة متعددة التخصصات، تطبق بنجاح تكنولوجيا الذكاء الاصطناعي على إدارة البيانات في علوم المواد، وتوفر موارد قيمة لمجتمع بحث المواد الكهروحرارية. على الرغم من وجود بعض القيود، فإن طريقتها المبتكرة ومساهماتها العملية تمنحها قيمة أكاديمية وعملية مهمة.