Topic modeling is a useful tool for analyzing large corpora of written documents, particularly academic papers. Despite a wide variety of proposed topic modeling techniques, these techniques do not perform well when applied to medical texts. This can be due to the low number of documents available for some topics in the healthcare domain. In this paper, we propose ProtoTopic, a prototypical network-based topic model used for topic generation for a set of medical paper abstracts. Prototypical networks are efficient, explainable models that make predictions by computing distances between input datapoints and a set of prototype representations, making them particularly effective in low-data or few-shot learning scenarios. With ProtoTopic, we demonstrate improved topic coherence and diversity compared to two topic modeling baselines used in the literature, demonstrating the ability of our model to generate medically relevant topics even with limited data.
- معرّف الورقة: 2510.13542
- العنوان: ProtoTopic: شبكة نموذجية لنمذجة المواضيع الطبية بالتعلم القليل العينات
- المؤلفون: Martin Licht, Sara Ketabi, Farzad Khalvati
- التصنيف: cs.LG (التعلم الآلي)
- تاريخ النشر: 15 أكتوبر 2025
- رابط الورقة: https://arxiv.org/abs/2510.13542v1
تعتبر نمذجة المواضيع أداة مفيدة لتحليل مجموعات المستندات الكبيرة، خاصة الأوراق الأكاديمية. على الرغم من وجود تقنيات متعددة لنمذجة المواضيع، إلا أن أدائها ضعيف عند تطبيقها على النصوص الطبية، وقد يعود ذلك إلى قلة عدد المستندات المتاحة لبعض المواضيع في مجال الرعاية الصحية. تقترح هذه الورقة ProtoTopic، وهو نموذج مواضيع قائم على الشبكات النموذجية لتوليد المواضيع من ملخصات الأوراق الطبية. تتميز الشبكات النموذجية بكونها نماذج فعالة وقابلة للتفسير، حيث تقوم بالتنبؤ من خلال حساب المسافة بين نقاط البيانات المدخلة ومجموعة من التمثيلات النموذجية، وهي فعالة بشكل خاص في سيناريوهات التعلم بالبيانات القليلة أو القليلة العينات. من خلال ProtoTopic، يوضح المؤلفون تحسناً في اتساق المواضيع وتنوعها مقارنة بخطين أساسيين من نمذجة المواضيع في الأدبيات، مما يثبت قدرة النموذج على توليد مواضيع ذات صلة طبية حتى مع البيانات المحدودة.
- المشكلة الأساسية: تقنيات نمذجة المواضيع الحالية تؤدي بشكل سيء على النصوص الطبية، خاصة في حالات ندرة البيانات
- الأهمية: النمو السريع للأدبيات الطبية يتطلب أدوات فعالة لنمذجة المواضيع لمساعدة الباحثين والأطباء على الفحص السريع والعثور على المعلومات ذات الصلة
- قيود الطرق الموجودة:
- نقص بيانات التدريب: البيانات التدريبية عالية الجودة نادرة في البيئات السريرية
- نقص القابلية للتفسير: معظم نماذج الحالة الفنية الحديثة هي نماذج صندوق أسود
- خصوصية المصطلحات الطبية: النصوص الطبية تتميز بمصطلحات محددة واختلافات في الصيغة
تواجه تطبيقات معالجة اللغة الطبيعية في مجال الرعاية الصحية ثلاثة تحديات رئيسية: ندرة البيانات، نقص القابلية للتفسير، وخصوصية المصطلحات الطبية. تتمتع الشبكات النموذجية بالقدرة على التعلم الفعال في سيناريوهات القليل من العينات، مع توفير قابلية التفسير، مما يجعلها الخيار المثالي لنمذجة المواضيع الطبية.
- تطبيق أول للشبكات النموذجية على مهمة نمذجة المواضيع: تطوير ProtoTopic، مصمم خصيصاً لنمذجة المواضيع من الملخصات الطبية
- تقييم الأداء الشامل: مقارنة شاملة مع نموذجي الحالة الفنية الحديثة (LDA و BERTopic)
- تحليل عدد المواضيع المتعددة: دراسة تأثير أعداد مواضيع مختلفة (25، 50، 100) على أداء النموذج
- التحقق من الدلالة الإحصائية: إثبات الأفضلية الكبيرة لـ ProtoTopic على الخطوط الأساسية من خلال اختبار t
المدخلات: مجموعة من ملخصات الأوراق الطبية
المخرجات: نتائج تجميع المواضيع والكلمات الرئيسية التمثيلية لكل موضوع
الهدف: توليد مواضيع طبية عالية الاتساق والتنوع في سيناريوهات القليل من العينات
استخدام نموذجي Transformer لتوليد تضمينات النصوص:
- PubMedBERT: متغير BERT مدرب خصيصاً على الأوراق الطبية، ينتج متجهات بـ 768 بُعد
- all-MiniLM-L6-v2: محول جملة عام، ينتج متجهات بـ 384 بُعد
تطبيق تجميع K-means على متجهات التضمين لتوليد تسميات وهمية:
- تخصيص المستندات إلى K مجموعة
- مراكز المجموعات تعمل كتسميات وهمية لتدريب الشبكة النموذجية
الخوارزمية الأساسية مستندة إلى الشبكات النموذجية من Snell وآخرون:
حساب النموذج الأولي:
ck=∣Sk∣1∑(xi,yi)∈Skfϕ(xi)
حيث Sk هي مجموعة الدعم للفئة k، و fϕ هي دالة التضمين.
احتمالية التصنيف:
pϕ(y=k∣x)=∑k′exp(−d(fϕ(x),ck′))exp(−d(fϕ(x),ck))
دالة الخسارة:
J(ϕ)=−logpϕ(y=k∣x)
استخدام TF-IDF المستند إلى الفئة (c-TF-IDF) لاستخراج الكلمات الرئيسية التمثيلية لكل موضوع، حيث تعيد هذه الطريقة تعريف تكرار الكلمات كنسبة مئوية من ظهور الكلمة في جميع المجموعات، بدلاً من نسبة المجموعات التي تحتوي على الكلمة.
- قدرة التعلم بالقليل من العينات: تحقيق تعلم تمثيلات مواضيع فعالة بعدد قليل من العينات فقط من خلال الشبكات النموذجية
- القابلية للتفسير: توفير تفسيرات من خلال عرض حالات النموذج الأولي الأكثر تشابهاً
- التكيف مع المجال: دمج التضمينات المتخصصة الطبية (PubMedBERT) والتضمينات العامة للمقارنة
- التدريب الحلقي: يحتوي كل حلقة على 5 فئات، مع 5 عينات دعم و 5 نقاط استعلام لكل فئة
- مجموعة البيانات: PubMed200k RCT
- الحجم: 200,000 ملخص من التجارب المعشاة ذات الشواهد، 2.3 مليون جملة
- المعالجة المسبقة:
- إزالة الأحرف غير الأبجدية
- تحويل إلى أحرف صغيرة
- تقسيم النصوص إلى كلمات
- إزالة الكلمات عالية التكرار (مثل "the"، "and"، "of" وغيرها)
- اتساق المواضيع (Topic Coherence): استخدام مؤشر CV، تحليل التعايش المشترك للكلمات الرئيسية للموضوع في مجموعة النصوص
- تنوع المواضيع (Topic Diversity): استخراج أفضل 25 كلمة رئيسية لكل موضوع، حساب نسبة الكلمات الفريدة من بين جميع كلمات المواضيع
- LDA (تخصيص ديريشليه الكامن): نموذج مواضيع احتمالي كلاسيكي
- BERTopic: نموذج مواضيع عصبي قائم على تضمينات BERT
- محسّن: ADAM، معدل التعلم 0.00005
- إعدادات التدريب: 50 حلقة/حقبة، إجمالي 10 حقب
- الأجهزة: وحدة معالجة الرسومات T4 من Google Colab (15 جيجابايت ذاكرة وصول عشوائي)
- تجميد المعاملات: تجميد جميع طبقات Transformer المدربة مسبقاً باستثناء آخر طبقتين
25 موضوع:
| النموذج | درجة الاتساق | تنوع المواضيع |
|---|
| LDA | 0.4910 | 40.8% |
| BERTopic | 0.5137 | 49.6% |
| ProtoTopic (all-MiniLM) | 0.5396 | 84.5% |
| ProtoTopic (PubMedBERT) | 0.5754 | 86.1% |
50 موضوع:
| النموذج | درجة الاتساق | تنوع المواضيع |
|---|
| LDA | 0.5017 | 43.8% |
| BERTopic | 0.5394 | 54.5% |
| ProtoTopic (all-MiniLM) | 0.6789 | 73.5% |
| ProtoTopic (PubMedBERT) | 0.6734 | 75.9% |
100 موضوع:
| النموذج | درجة الاتساق | تنوع المواضيع |
|---|
| LDA | 0.5090 | 55.6% |
| BERTopic | 0.6173 | 58.0% |
| ProtoTopic (all-MiniLM) | 0.7173 | 58.6% |
| ProtoTopic (PubMedBERT) | 0.7117 | 61.2% |
تم إثبات تفوق ProtoTopic بشكل كبير على BERTopic في مؤشرات الاتساق والتنوع من خلال اختبار t (p < 0.00001).
- BERTopic: يولد كلمات رئيسية عامة جداً (مثل "patients"، "median"، "overall")، تفتقر إلى القوة التمييزية
- ProtoTopic: يولد كلمات رئيسية عالية التخصص، يتجنب الكلمات العامة، مثل المصطلحات المحددة لإصابات الأطراف السفلية
- اتجاه الاتساق: اتساق المواضيع لجميع النماذج يزداد مع زيادة عدد المواضيع
- اتجاه التنوع:
- النماذج الأساسية: يزداد التنوع مع زيادة عدد المواضيع
- ProtoTopic: ينخفض التنوع مع زيادة عدد المواضيع (من 86.1% إلى 61.2%)
- النماذج الاحتمالية: LDA يستخدم افتراض كيس الكلمات، يتجاهل ترتيب الكلمات
- النماذج العصبية:
- LDA2VEC: يجمع بين تضمينات Word2Vec
- ETM: يستخدم تضمينات CBOW
- BERTopic: قائم على تضمينات BERT
- طرق التحسين: خوارزميات التعلم الفوقي مثل MAML
- طرق القياس:
- شبكات Siamese
- شبكات المطابقة
- شبكات العلاقات
- الشبكات النموذجية
- رؤية الحاسوب: مهام تصنيف الصور
- مجال معالجة اللغة الطبيعية: ProSeNet، ProtoryNet، ProtoSeq وتطبيقات تصنيف النصوص الأخرى
- ProtoTopic يتفوق على النماذج الأساسية في جميع مؤشرات التقييم
- حتى مع استخدام التضمينات العامة (all-MiniLM-L6-v2)، يمكن تحقيق أداء ممتازة
- النموذج قادر على توليد مواضيع ذات صلة طبية وقابلة للتفسير
- دالة الخسارة: استخدام خسارة الشبكة النموذجية الأساسية فقط، عدم الأخذ في الاعتبار إحكام التجميع ومسافة النموذج الأولي
- خوارزمية التجميع: استخدام K-means فقط، عدم استكشاف طرق أخرى مثل HDBSCAN
- تقليل الأبعاد: عدم استكشاف تأثير تقليل أبعاد التضمينات عالية الأبعاد
- التقييم من قبل المستخدمين: نقص التقييم الذاتي من قبل الأطباء السريريين
- تحسين تصميم دالة الخسارة
- استكشاف تقنيات تجميع مختلفة
- دراسة تأثير تقليل الأبعاد
- إجراء دراسات بحثية مع المستخدمين السريريين
- ابتكار قوي: تطبيق أول للشبكات النموذجية على مهمة نمذجة المواضيع
- تجارب شاملة: مقارنة شاملة مع نماذج تضمين متعددة وأعداد مواضيع مختلفة
- صرامة إحصائية: توفير اختبارات الدلالة الإحصائية
- قيمة عملية عالية: حل مشكلة ندرة البيانات في المجال الطبي
- قابلية تفسير جيدة: الشبكات النموذجية توفر آلية تفسير بديهية
- مجموعة بيانات واحدة: التحقق فقط على مجموعة بيانات PubMed200k
- أبعاد تقييم محدودة: نقص التقييم اليدوي وتقييم المهام اللاحقة
- عدم تحليل التعقيد الحسابي: عدم توفير مقارنة الكفاءة الحسابية مع الخطوط الأساسية
- حساسية المعاملات الفائقة: عدم تحليل كافٍ لتأثير المعاملات الفائقة الرئيسية
- المساهمة الأكاديمية: توفير نموذج جديد لنمذجة المواضيع في مجال معالجة اللغة الطبيعية الطبية
- القيمة العملية: يمكن تطبيقها على تحليل الأدبيات الطبية ودعم القرارات السريرية
- قابلية التكرار: استخدام مجموعة بيانات عامة، إعدادات تجريبية مفصلة
- تحليل الأدبيات الطبية: مساعدة الباحثين على فهم سريع لعدد كبير من الأوراق الطبية
- اكتشاف المعرفة السريرية: اكتشاف أنماط الأمراض من عدد قليل من الحالات
- التوسع عبر المجالات: يمكن تعميمها على مجالات متخصصة أخرى تعاني من ندرة البيانات
تستشهد هذه الورقة بـ 45 مرجعاً ذا صلة، تغطي نمذجة المواضيع والتعلم بالقليل من العينات والشبكات النموذجية وغيرها من المجالات الرئيسية، مما يوفر أساساً نظرياً متيناً للبحث. تشمل المراجع الرئيسية:
- Snell et al. (2017): الشبكات النموذجية للتعلم بالقليل من العينات
- Grootendorst (2022): نمذجة المواضيع العصبية BERTopic
- Blei et al. (2003): تخصيص ديريشليه الكامن
التقييم الإجمالي: تقترح هذه الورقة طريقة مبتكرة وعملية لنمذجة المواضيع الطبية، وتتمتع بقيمة مهمة في حل مشكلة ندرة البيانات. يتمتع التصميم التجريبي بعقلانية، والنتائج مقنعة، وتقدم مساهمة ذات مغزى لمجال معالجة اللغة الطبيعية الطبية.