2025-11-10T02:45:09.159666

ProtoTopic: Prototypical Network for Few-Shot Medical Topic Modeling

Licht, Ketabi, Khalvati
Topic modeling is a useful tool for analyzing large corpora of written documents, particularly academic papers. Despite a wide variety of proposed topic modeling techniques, these techniques do not perform well when applied to medical texts. This can be due to the low number of documents available for some topics in the healthcare domain. In this paper, we propose ProtoTopic, a prototypical network-based topic model used for topic generation for a set of medical paper abstracts. Prototypical networks are efficient, explainable models that make predictions by computing distances between input datapoints and a set of prototype representations, making them particularly effective in low-data or few-shot learning scenarios. With ProtoTopic, we demonstrate improved topic coherence and diversity compared to two topic modeling baselines used in the literature, demonstrating the ability of our model to generate medically relevant topics even with limited data.
academic

ProtoTopic: شبكة نموذجية لنمذجة المواضيع الطبية بالتعلم القليل العينات

المعلومات الأساسية

  • معرّف الورقة: 2510.13542
  • العنوان: ProtoTopic: شبكة نموذجية لنمذجة المواضيع الطبية بالتعلم القليل العينات
  • المؤلفون: Martin Licht, Sara Ketabi, Farzad Khalvati
  • التصنيف: cs.LG (التعلم الآلي)
  • تاريخ النشر: 15 أكتوبر 2025
  • رابط الورقة: https://arxiv.org/abs/2510.13542v1

الملخص

تعتبر نمذجة المواضيع أداة مفيدة لتحليل مجموعات المستندات الكبيرة، خاصة الأوراق الأكاديمية. على الرغم من وجود تقنيات متعددة لنمذجة المواضيع، إلا أن أدائها ضعيف عند تطبيقها على النصوص الطبية، وقد يعود ذلك إلى قلة عدد المستندات المتاحة لبعض المواضيع في مجال الرعاية الصحية. تقترح هذه الورقة ProtoTopic، وهو نموذج مواضيع قائم على الشبكات النموذجية لتوليد المواضيع من ملخصات الأوراق الطبية. تتميز الشبكات النموذجية بكونها نماذج فعالة وقابلة للتفسير، حيث تقوم بالتنبؤ من خلال حساب المسافة بين نقاط البيانات المدخلة ومجموعة من التمثيلات النموذجية، وهي فعالة بشكل خاص في سيناريوهات التعلم بالبيانات القليلة أو القليلة العينات. من خلال ProtoTopic، يوضح المؤلفون تحسناً في اتساق المواضيع وتنوعها مقارنة بخطين أساسيين من نمذجة المواضيع في الأدبيات، مما يثبت قدرة النموذج على توليد مواضيع ذات صلة طبية حتى مع البيانات المحدودة.

خلفية البحث والدافع

تعريف المشكلة

  1. المشكلة الأساسية: تقنيات نمذجة المواضيع الحالية تؤدي بشكل سيء على النصوص الطبية، خاصة في حالات ندرة البيانات
  2. الأهمية: النمو السريع للأدبيات الطبية يتطلب أدوات فعالة لنمذجة المواضيع لمساعدة الباحثين والأطباء على الفحص السريع والعثور على المعلومات ذات الصلة
  3. قيود الطرق الموجودة:
    • نقص بيانات التدريب: البيانات التدريبية عالية الجودة نادرة في البيئات السريرية
    • نقص القابلية للتفسير: معظم نماذج الحالة الفنية الحديثة هي نماذج صندوق أسود
    • خصوصية المصطلحات الطبية: النصوص الطبية تتميز بمصطلحات محددة واختلافات في الصيغة

دافع البحث

تواجه تطبيقات معالجة اللغة الطبيعية في مجال الرعاية الصحية ثلاثة تحديات رئيسية: ندرة البيانات، نقص القابلية للتفسير، وخصوصية المصطلحات الطبية. تتمتع الشبكات النموذجية بالقدرة على التعلم الفعال في سيناريوهات القليل من العينات، مع توفير قابلية التفسير، مما يجعلها الخيار المثالي لنمذجة المواضيع الطبية.

المساهمات الأساسية

  1. تطبيق أول للشبكات النموذجية على مهمة نمذجة المواضيع: تطوير ProtoTopic، مصمم خصيصاً لنمذجة المواضيع من الملخصات الطبية
  2. تقييم الأداء الشامل: مقارنة شاملة مع نموذجي الحالة الفنية الحديثة (LDA و BERTopic)
  3. تحليل عدد المواضيع المتعددة: دراسة تأثير أعداد مواضيع مختلفة (25، 50، 100) على أداء النموذج
  4. التحقق من الدلالة الإحصائية: إثبات الأفضلية الكبيرة لـ ProtoTopic على الخطوط الأساسية من خلال اختبار t

شرح الطريقة

تعريف المهمة

المدخلات: مجموعة من ملخصات الأوراق الطبية المخرجات: نتائج تجميع المواضيع والكلمات الرئيسية التمثيلية لكل موضوع الهدف: توليد مواضيع طبية عالية الاتساق والتنوع في سيناريوهات القليل من العينات

معمارية النموذج

1. توليد تضمينات النصوص

استخدام نموذجي Transformer لتوليد تضمينات النصوص:

  • PubMedBERT: متغير BERT مدرب خصيصاً على الأوراق الطبية، ينتج متجهات بـ 768 بُعد
  • all-MiniLM-L6-v2: محول جملة عام، ينتج متجهات بـ 384 بُعد

2. تجميع K-means

تطبيق تجميع K-means على متجهات التضمين لتوليد تسميات وهمية:

  • تخصيص المستندات إلى K مجموعة
  • مراكز المجموعات تعمل كتسميات وهمية لتدريب الشبكة النموذجية

3. تدريب الشبكة النموذجية

الخوارزمية الأساسية مستندة إلى الشبكات النموذجية من Snell وآخرون:

حساب النموذج الأولي: ck=1Sk(xi,yi)Skfϕ(xi)c_k = \frac{1}{|S_k|} \sum_{(x_i,y_i) \in S_k} f_\phi(x_i)

حيث SkS_k هي مجموعة الدعم للفئة k، و fϕf_\phi هي دالة التضمين.

احتمالية التصنيف: pϕ(y=kx)=exp(d(fϕ(x),ck))kexp(d(fϕ(x),ck))p_\phi(y=k|x) = \frac{\exp(-d(f_\phi(x), c_k))}{\sum_{k'} \exp(-d(f_\phi(x), c_{k'}))}

دالة الخسارة: J(ϕ)=logpϕ(y=kx)J(\phi) = -\log p_\phi(y=k|x)

4. استخراج الكلمات الرئيسية

استخدام TF-IDF المستند إلى الفئة (c-TF-IDF) لاستخراج الكلمات الرئيسية التمثيلية لكل موضوع، حيث تعيد هذه الطريقة تعريف تكرار الكلمات كنسبة مئوية من ظهور الكلمة في جميع المجموعات، بدلاً من نسبة المجموعات التي تحتوي على الكلمة.

نقاط الابتكار التقني

  1. قدرة التعلم بالقليل من العينات: تحقيق تعلم تمثيلات مواضيع فعالة بعدد قليل من العينات فقط من خلال الشبكات النموذجية
  2. القابلية للتفسير: توفير تفسيرات من خلال عرض حالات النموذج الأولي الأكثر تشابهاً
  3. التكيف مع المجال: دمج التضمينات المتخصصة الطبية (PubMedBERT) والتضمينات العامة للمقارنة
  4. التدريب الحلقي: يحتوي كل حلقة على 5 فئات، مع 5 عينات دعم و 5 نقاط استعلام لكل فئة

إعداد التجارب

مجموعة البيانات

  • مجموعة البيانات: PubMed200k RCT
  • الحجم: 200,000 ملخص من التجارب المعشاة ذات الشواهد، 2.3 مليون جملة
  • المعالجة المسبقة:
    • إزالة الأحرف غير الأبجدية
    • تحويل إلى أحرف صغيرة
    • تقسيم النصوص إلى كلمات
    • إزالة الكلمات عالية التكرار (مثل "the"، "and"، "of" وغيرها)

مؤشرات التقييم

  1. اتساق المواضيع (Topic Coherence): استخدام مؤشر CV، تحليل التعايش المشترك للكلمات الرئيسية للموضوع في مجموعة النصوص
  2. تنوع المواضيع (Topic Diversity): استخراج أفضل 25 كلمة رئيسية لكل موضوع، حساب نسبة الكلمات الفريدة من بين جميع كلمات المواضيع

طرق المقارنة

  1. LDA (تخصيص ديريشليه الكامن): نموذج مواضيع احتمالي كلاسيكي
  2. BERTopic: نموذج مواضيع عصبي قائم على تضمينات BERT

تفاصيل التنفيذ

  • محسّن: ADAM، معدل التعلم 0.00005
  • إعدادات التدريب: 50 حلقة/حقبة، إجمالي 10 حقب
  • الأجهزة: وحدة معالجة الرسومات T4 من Google Colab (15 جيجابايت ذاكرة وصول عشوائي)
  • تجميد المعاملات: تجميد جميع طبقات Transformer المدربة مسبقاً باستثناء آخر طبقتين

نتائج التجارب

النتائج الرئيسية

النتائج الكمية

25 موضوع:

النموذجدرجة الاتساقتنوع المواضيع
LDA0.491040.8%
BERTopic0.513749.6%
ProtoTopic (all-MiniLM)0.539684.5%
ProtoTopic (PubMedBERT)0.575486.1%

50 موضوع:

النموذجدرجة الاتساقتنوع المواضيع
LDA0.501743.8%
BERTopic0.539454.5%
ProtoTopic (all-MiniLM)0.678973.5%
ProtoTopic (PubMedBERT)0.673475.9%

100 موضوع:

النموذجدرجة الاتساقتنوع المواضيع
LDA0.509055.6%
BERTopic0.617358.0%
ProtoTopic (all-MiniLM)0.717358.6%
ProtoTopic (PubMedBERT)0.711761.2%

الدلالة الإحصائية

تم إثبات تفوق ProtoTopic بشكل كبير على BERTopic في مؤشرات الاتساق والتنوع من خلال اختبار t (p < 0.00001).

تحليل النتائج النوعية

مقارنة خصوصية المواضيع

  • BERTopic: يولد كلمات رئيسية عامة جداً (مثل "patients"، "median"، "overall")، تفتقر إلى القوة التمييزية
  • ProtoTopic: يولد كلمات رئيسية عالية التخصص، يتجنب الكلمات العامة، مثل المصطلحات المحددة لإصابات الأطراف السفلية

تحليل الاتجاهات

  1. اتجاه الاتساق: اتساق المواضيع لجميع النماذج يزداد مع زيادة عدد المواضيع
  2. اتجاه التنوع:
    • النماذج الأساسية: يزداد التنوع مع زيادة عدد المواضيع
    • ProtoTopic: ينخفض التنوع مع زيادة عدد المواضيع (من 86.1% إلى 61.2%)

الأعمال ذات الصلة

تطور نمذجة المواضيع

  1. النماذج الاحتمالية: LDA يستخدم افتراض كيس الكلمات، يتجاهل ترتيب الكلمات
  2. النماذج العصبية:
    • LDA2VEC: يجمع بين تضمينات Word2Vec
    • ETM: يستخدم تضمينات CBOW
    • BERTopic: قائم على تضمينات BERT

التعلم بالقليل من العينات

  1. طرق التحسين: خوارزميات التعلم الفوقي مثل MAML
  2. طرق القياس:
    • شبكات Siamese
    • شبكات المطابقة
    • شبكات العلاقات
    • الشبكات النموذجية

تطبيقات الشبكات النموذجية

  • رؤية الحاسوب: مهام تصنيف الصور
  • مجال معالجة اللغة الطبيعية: ProSeNet، ProtoryNet، ProtoSeq وتطبيقات تصنيف النصوص الأخرى

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. ProtoTopic يتفوق على النماذج الأساسية في جميع مؤشرات التقييم
  2. حتى مع استخدام التضمينات العامة (all-MiniLM-L6-v2)، يمكن تحقيق أداء ممتازة
  3. النموذج قادر على توليد مواضيع ذات صلة طبية وقابلة للتفسير

القيود

  1. دالة الخسارة: استخدام خسارة الشبكة النموذجية الأساسية فقط، عدم الأخذ في الاعتبار إحكام التجميع ومسافة النموذج الأولي
  2. خوارزمية التجميع: استخدام K-means فقط، عدم استكشاف طرق أخرى مثل HDBSCAN
  3. تقليل الأبعاد: عدم استكشاف تأثير تقليل أبعاد التضمينات عالية الأبعاد
  4. التقييم من قبل المستخدمين: نقص التقييم الذاتي من قبل الأطباء السريريين

الاتجاهات المستقبلية

  1. تحسين تصميم دالة الخسارة
  2. استكشاف تقنيات تجميع مختلفة
  3. دراسة تأثير تقليل الأبعاد
  4. إجراء دراسات بحثية مع المستخدمين السريريين

التقييم المتعمق

المميزات

  1. ابتكار قوي: تطبيق أول للشبكات النموذجية على مهمة نمذجة المواضيع
  2. تجارب شاملة: مقارنة شاملة مع نماذج تضمين متعددة وأعداد مواضيع مختلفة
  3. صرامة إحصائية: توفير اختبارات الدلالة الإحصائية
  4. قيمة عملية عالية: حل مشكلة ندرة البيانات في المجال الطبي
  5. قابلية تفسير جيدة: الشبكات النموذجية توفر آلية تفسير بديهية

أوجه القصور

  1. مجموعة بيانات واحدة: التحقق فقط على مجموعة بيانات PubMed200k
  2. أبعاد تقييم محدودة: نقص التقييم اليدوي وتقييم المهام اللاحقة
  3. عدم تحليل التعقيد الحسابي: عدم توفير مقارنة الكفاءة الحسابية مع الخطوط الأساسية
  4. حساسية المعاملات الفائقة: عدم تحليل كافٍ لتأثير المعاملات الفائقة الرئيسية

التأثير

  1. المساهمة الأكاديمية: توفير نموذج جديد لنمذجة المواضيع في مجال معالجة اللغة الطبيعية الطبية
  2. القيمة العملية: يمكن تطبيقها على تحليل الأدبيات الطبية ودعم القرارات السريرية
  3. قابلية التكرار: استخدام مجموعة بيانات عامة، إعدادات تجريبية مفصلة

السيناريوهات القابلة للتطبيق

  1. تحليل الأدبيات الطبية: مساعدة الباحثين على فهم سريع لعدد كبير من الأوراق الطبية
  2. اكتشاف المعرفة السريرية: اكتشاف أنماط الأمراض من عدد قليل من الحالات
  3. التوسع عبر المجالات: يمكن تعميمها على مجالات متخصصة أخرى تعاني من ندرة البيانات

المراجع

تستشهد هذه الورقة بـ 45 مرجعاً ذا صلة، تغطي نمذجة المواضيع والتعلم بالقليل من العينات والشبكات النموذجية وغيرها من المجالات الرئيسية، مما يوفر أساساً نظرياً متيناً للبحث. تشمل المراجع الرئيسية:

  • Snell et al. (2017): الشبكات النموذجية للتعلم بالقليل من العينات
  • Grootendorst (2022): نمذجة المواضيع العصبية BERTopic
  • Blei et al. (2003): تخصيص ديريشليه الكامن

التقييم الإجمالي: تقترح هذه الورقة طريقة مبتكرة وعملية لنمذجة المواضيع الطبية، وتتمتع بقيمة مهمة في حل مشكلة ندرة البيانات. يتمتع التصميم التجريبي بعقلانية، والنتائج مقنعة، وتقدم مساهمة ذات مغزى لمجال معالجة اللغة الطبيعية الطبية.