2025-11-17T06:22:13.355563

Survey in Characterization of Semantic Change

de Sá, Da Silveira, Pruski
Live languages continuously evolve to integrate the cultural change of human societies. This evolution manifests through neologisms (new words) or \textbf{semantic changes} of words (new meaning to existing words). Understanding the meaning of words is vital for interpreting texts coming from different cultures (regionalism or slang), domains (e.g., technical terms), or periods. In computer science, these words are relevant to computational linguistics algorithms such as translation, information retrieval, question answering, etc. Semantic changes can potentially impact the quality of the outcomes of these algorithms. Therefore, it is important to understand and characterize these changes formally. The study of this impact is a recent problem that has attracted the attention of the computational linguistics community. Several approaches propose methods to detect semantic changes with good precision, but more effort is needed to characterize how the meaning of words changes and to reason about how to reduce the impact of semantic change. This survey provides an understandable overview of existing approaches to the \textit{characterization of semantic changes} and also formally defines three classes of characterizations: if the meaning of a word becomes more general or narrow (change in dimension) if the word is used in a more pejorative or positive/ameliorated sense (change in orientation), and if there is a trend to use the word in a, for instance, metaphoric or metonymic context (change in relation). We summarized the main aspects of the selected publications in a table and discussed the needs and trends in the research activities on semantic change characterization.
academic

مسح في توصيف التغيير الدلالي

المعلومات الأساسية

  • معرّف الورقة: 2402.19088
  • العنوان: مسح في توصيف التغيير الدلالي
  • المؤلفون: Jader Martins Camboim de Sá, Marcos Da Silveira, Cédric Pruski (معهد لوكسمبرغ للعلوم والتكنولوجيا وجامعة لوكسمبرغ)
  • التصنيف: cs.CL (اللسانيات الحاسوبية)، cs.AI
  • تاريخ النشر: ما قبل الطباعة، 17 نوفمبر 2025 (arXiv v4)
  • رابط الورقة: https://arxiv.org/abs/2402.19088

الملخص

اللغة تتطور بشكل ديناميكي، حيث تعكس التغييرات الاجتماعية والثقافية من خلال الكلمات الجديدة (neologisms) أو التغييرات الدلالية في الكلمات الموجودة. يعتبر فهم معاني الكلمات أمراً حاسماً لتفسير النصوص من ثقافات أو مجالات أو فترات زمنية مختلفة، كما يؤثر بشكل مباشر على أداء تطبيقات معالجة اللغات الطبيعية مثل الترجمة الآلية واسترجاع المعلومات وأنظمة الإجابة على الأسئلة. على الرغم من أن الطرق الموجودة قد حققت دقة جيدة في كشف التغيير الدلالي، إلا أن كيفية توصيف (characterize) أنواع التغيير الدلالي تفتقر إلى دراسة منهجية. يقدم هذا المسح أول مراجعة شاملة للطرق الموجودة في توصيف التغيير الدلالي، ويقدم تعريفات رسمية لثلاثة أنواع من التغييرات: التغيير البُعدي (توسع أو تضييق معنى الكلمة)، التغيير التوجهي (أصبح معنى الكلمة أكثر سلبية أو إيجابية)، التغيير العلائقي (تحول معنى الكلمة من خلال الأساليب البلاغية مثل الاستعارة والكناية). تلخص الورقة النتائج البحثية الرئيسية، وتحلل القيود الحالية، وتشير إلى الاتجاهات البحثية المستقبلية.

السياق البحثي والدافع

1. المشكلة الأساسية

التغيير الدلالي للمفردات (Lexical Semantic Change, LSC) هو ظاهرة أساسية في تطور اللغة الطبيعية. يركز البحث الموجود بشكل أساسي على الكشف (detection) عما إذا حدث تغيير دلالي، لكن البحث في توصيف كيفية حدوث التغيير (how it changed) يعاني من نقص شديد. على سبيل المثال:

  • "gay" تحول من "سعيد" إلى "مثلي الجنس" (تضييق بُعدي + تحييد توجهي)
  • "heart" توسع من "عضو القلب" إلى معاني استعارية مثل "الشجاعة" و"الجوهر" (تغيير علائقي)
  • "awful" تحول من "مثير للإعجاب" إلى "سيء" (تغيير توجهي نحو السلبية)

2. الأهمية

  • القيمة اللسانية: فهم قوانين تطور اللغة، والكشف عن تأثير الثقافة والمجتمع والتكنولوجيا على اللغة
  • تطبيقات معالجة اللغات الطبيعية:
    • فهم النصوص التاريخية (مثل أبحاث العلوم الإنسانية الرقمية)
    • صيانة الرسوم البيانية للمعرفة (مثل اتساق السلاسل الزمنية في Wikidata)
    • استرجاع المعلومات عبر الفترات الزمنية (مثل الانجراف الدلالي لكلمة "cloud" في الأدبيات التقنية)
    • تحليل المشاعر (مثل تحول كلمة "sick" نحو المعنى الإيجابي في اللغة العامية)

3. قيود الطرق الموجودة

  • غياب إطار عمل موحد: تستخدم الدراسات المختلفة مصطلحات وتعريفات مختلفة، مما يصعب المقارنة
  • معايير تقييم غير متسقة: نقص المجموعات البيانية القياسية والمؤشرات التقييمية
  • التركيز على الكشف بدلاً من التوصيف: 90% من الأبحاث تركز على "هل حدث التغيير"، بينما فقط 10% تدرس "كيف حدث التغيير"
  • ندرة البيانات: مجموعات اللغة التاريخية أصغر بكثير من ما تتطلبه معالجة اللغات الطبيعية الحديثة (مستوى المليون مقابل مستوى التريليون من الرموز)

4. الدافع البحثي

هذه الورقة هي أول مسح منهجي لتوصيف التغيير الدلالي، وتهدف إلى:

  1. تحديد القيود في الطرق والتصنيفات الموجودة
  2. تقييم مزايا الطرق المختلفة
  3. توفير تعريفات رسمية بناءً على المنطق من الدرجة الأولى
  4. عرض توضيحي مفاهيمي لمهمة توصيف التغيير الدلالي

المساهمات الأساسية

  1. أول مسح موجه نحو التوصيف للتغيير الدلالي: يختلف عن المسوحات الموجودة (Tahmasebi et al. 2018, Kutuzov et al. 2018) التي تركز على الكشف، وتركز هذه الورقة على التوصيف
  2. تصنيف ثلاثي الأقطاب (Three-Pole Taxonomy):
    • البُعد (Dimension): توسع/تضييق (تغيير في عدد معاني الكلمة)
    • التوجه (Orientation): تحسن/تدهور (تغيير في الميل العاطفي)
    • العلاقة (Relation): استعارة/كناية (تغيير في العلاقات البلاغية)
  3. إطار عمل رسمي: يوفر تعريفات رياضية بناءً على نظرية المجموعات (القسم 5)، يميز بين التحديد والتوصيف
  4. تصنيف منهجي للطرق: بناء مصفوفة تصنيف ثنائية الأبعاد حسب طريقة التمثيل (تكرار/موضوع/رسم بياني/تضمين) × قطب التغيير (D/R/O) (الجدول 3)
  5. عرض توضيحي تجريبي: استخدام مجموعات بيانات SEMCOR و MASC للتحقق من جدوى الإطار
  6. تحديد الفجوات البحثية: الإشارة إلى ندرة البحث في القطب العلائقي (R) والتوصيف المتعدد الأقطاب

شرح الطرق

تعريف المهمة

كشف التغيير الدلالي (Identification)

بالنظر إلى كلمة ww وتمثيلاتها R(w,t1),R(w,t2)R(w, t_1), R(w, t_2) في مجموعتي نصوص t1,t2t_1, t_2، تحديد ما إذا حدث تغيير: fC(R(w,t1),R(w,t2))yf_C(R(w, t_1), R(w, t_2)) \rightarrow y حيث y{0,1}y \in \{0,1\} (تصنيف ثنائي) أو yRy \in \mathbb{R} (مسافة مستمرة)

توصيف التغيير الدلالي (Characterization) ★الابتكار الأساسي

بناءً على الكشف، تصنيف إضافي لنوع التغيير: fx(R(w,t1),R(w,t2))y,x{D,R,O}f_x(R(w, t_1), R(w, t_2)) \rightarrow y, \quad x \in \{D, R, O\}

الإطار الرسمي (جوهر القسم 5)

التعريفات الأساسية

  • الكون الدلالي: STS_T هي مجموعة جميع معاني الكلمات الممكنة
  • دالة المعنى: S:V×T(St)S: V \times T \rightarrow \wp(S_t)، تعيين كلمة ww في مجموعة نصوص tt إلى مجموعة معاني الكلمة S(w,t)={s1,s2,...,sk}S(w, t) = \{s_1, s_2, ..., s_k\}

تحديد التغيير الدلالي

تحدث كلمة ww تغييراً بين t1,t2t_1, t_2 إذا وفقط إذا:

\text{صحيح} & S(w, t_1) \neq S(w, t_2) \\ \text{خاطئ} & \text{خلاف ذلك} \end{cases}$$ #### تعريفات الأقطاب الثلاثة **1. التغيير البُعدي (Dimension)** $$|S(w, t_1)| \neq |S(w, t_2)|$$ - التوسع: $|S(w, t_1)| < |S(w, t_2)|$ (إضافة معاني) - التضييق: $|S(w, t_1)| > |S(w, t_2)|$ (فقدان معاني) **مثال**: - كلمة "plane" لها 5 معاني في SEMCOR (مستوى، طائرة، منجرة، إلخ)، وتبقى معنيان فقط في MASC → تضييق **2. التغيير التوجهي (Orientation)** تعريف دالة المشاعر $f: V \times T \rightarrow \{-1, 0, +1\}$، إذاً: $$f(w, t_1) \neq f(w, t_2)$$ - التحسن: $f(w, t_1) < f(w, t_2)$ (تحول نحو الإيجابية) - التدهور: $f(w, t_1) > f(w, t_2)$ (تحول نحو السلبية) **التنفيذ**: مجموع مرجح لدرجات SentiWordNet $$f(w, t) = \frac{1}{N}\sum_{i=1}^{N} p(s_i) \cdot \text{positive}(s_i)$$ **مثال**: - كلمة "heart" لها $f=0.15$ في SEMCOR و $f=0.97$ في MASC → تحول نحو الإيجابية **3. التغيير العلائقي (Relation)** تعريف تشابه العلاقة $l: S \times S \rightarrow \mathbb{R}$، القوة العلائقية الإجمالية: $$R(w, t) = \sum_{i=1}^{N-1}\sum_{j=i+1}^{N} l(s_i, s_j), \quad s_i, s_j \in S(w, t)$$ - الزيادة: $R(w, t_1) < R(w, t_2)$ (المزيد من الاستخدامات الاستعارية/الكنائية) **مثال**: - كلمة "heart" توسعت من المعنى الحرفي "القلب" إلى معاني استعارية "الجوهر" و"الشجاعة" → تعزيز العلاقة ### نقاط الابتكار التقني 1. **الصيغة الرسمية بنظرية المجموعات**: أول استخدام لغة رياضية صارمة لتعريف توصيف التغيير الدلالي، مما يزيل الغموض 2. **تماثل الأقطاب**: الأقطاب الثلاثة تتشكل بشكل طبيعي في أزواج (توسع/تضييق يشتركان في قياس البُعد)، مما يبسط إطار العمل الحسابي 3. **القابلية للتطبيق**: يمكن تحويل التعريفات مباشرة إلى خوارزميات (مثل عد معاني الكلمات، تسجيل المشاعر، تحليل الرسم البياني للعلاقات) 4. **منظور كامبريدج**: اعتماد المقارنة الثابتة (مقارنة مجموعتي نصوص) بدلاً من التتبع الديناميكي لـ McTaggart، وهو أنسب للطرق الحسابية ## إعداد التجارب ### تصنيف مجموعات البيانات #### مجموعات النصوص التاريخية (الجدول 2) | مجموعة البيانات | اللغة | الفترة الزمنية | الحجم | الخصائص | |--------|------|----------|------|------| | **COHA** | الإنجليزية | 1810s-2000s | 400 مليون كلمة | الأكثر استخداماً، متوازنة متعددة الأنواع | | **Google N-Gram** | لغات متعددة | 1600-2009 | 300 مليار كلمة | أكبر حجم، لكن بها الكثير من الضوضاء | | **DTA** | الألمانية | 1741-1900 | 1022 نص | جودة عالية، اختيار يدوي | | **CLMET** | الإنجليزية | 1710-1920 | 34 مليون كلمة | أعمال أدبية بشكل أساسي | #### مجموعات البيانات التوضيحية - **SEMCOR** (1993): 200 ألف كلمة، معلمات معاني WordNet - **MASC** (2013): 500 ألف كلمة، اللغة الإنجليزية الأمريكية الحديثة - **مصادر التعليقات التوضيحية**: - معاني الكلمات: WordNet - العلاقات: ChainNet (روابط الاستعارة/الكناية) - التوجه: SentiWordNet (درجات إيجابية وسلبية) ### أبعاد التقييم الورقة نفسها كمسح لا توفر مؤشرات تقييم موحدة، لكنها تحلل طرق التقييم الموجودة: #### القطب البُعدي (D) - **المؤشرات**: تغيير عدد معاني الكلمات، كثافة التجميع، عدد المواضيع - **مصادر البيانات**: القواميس، تجميع استحثاث معاني الكلمات، نماذج المواضيع #### القطب التوجهي (O) - **المؤشرات**: المسافة من كلمات البذور، درجات إطار VAD (Valence-Arousal-Dominance) - **التحديات**: افتراض استقرار كلمات البذور، معالجة السخرية والنفي #### القطب العلائقي (R) - **المؤشرات**: زيادة الإنتروبيا (Schlechtweg 2017)، عدد حواف الرسم البياني للعلاقات - **المشاكل**: صعوبة التمييز بين الاستعارة مقابل الكناية مقابل الكلمات المتجانسة الجديدة ### تصنيف الطرق (جوهر الجدول 3) | الطريقة | D | R | O | طريقة التمثيل | |------|---|---|---|----------| | Biemann 2006 | ✓ | - | - | Rسم بياني | | Tang et al. 2013 | ✓ | ✓ | - | تكرار | | Hamilton et al. 2016a | - | - | ✓ | رسم بياني (SentiProp) | | Inoue et al. 2022 | ✓ | - | - | مواضيع (InfiniteSCAN) | | Giulianelli et al. 2020 | ✓ | - | - | تضمينات (BERT) | | Fonteyn & Manjavacas 2021 | - | ✓ | ✓ | تضمينات | **النتائج الرئيسية**: - **لا توجد طريقة تغطي الأقطاب الثلاثة**: التعقيد العالي للتوصيف - **دراسة القطب البُعدي الأكثر**: 18/23 طريقة - **القطب العلائقي الأضعف**: فقط 3 طرق - **هيمنة طرق التضمين**: الاتجاه الحديث ## نتائج التجارب ### التحقق من الإطار (القسم 5.7) #### الحالة 1: التغييرات متعددة الأقطاب لكلمة "heart" **البيانات** (SEMCOR → MASC): ``` تغيير توزيع المعاني: - heart.n.02 (عضو، حرفي): 34.8% → 0% - heart.n.03 (شجاعة، استعارة+): 12.1% → 90.1% - heart.n.10 (بدلة الورق، جديد): 0% → 2.8% ``` **نتائج الحساب**: 1. **البُعد**: $|S|: 5 \rightarrow 3$، تضييق 2. **التوجه**: $f: 0.15 \rightarrow 0.97$، تحول قوي نحو الإيجابية 3. **العلاقة**: الاستخدام الاستعاري مهيمن (90.1%)، تعزيز العلاقة **التفسير**: اختفاء المعنى الحرفي "القلب"، أصبح المعنى الاستعاري "الشجاعة/الجوهر" هو المعنى الأساسي #### الحالة 2: تضييق كلمة "plane" **البيانات**: ``` SEMCOR: 5 معاني (طائرة 48.8%، مستوى 37.2%، منجرة 4.7%، إلخ) MASC: معنيان (طائرة 90.9%، مستوى 9.1%) ``` **نتائج الحساب**: 1. **البُعد**: $5 \rightarrow 2$، تضييق ملحوظ 2. **التوجه**: فقدان المعاني الإيجابية (flat.s.01, +0.375) → تحول طفيف نحو السلبية 3. **العلاقة**: $R: 1 \rightarrow 0$ (اختفاء العلاقة الكنائية بين plane.n.03 و plane.n.02) ### تحليل مقارنة الطرق (الجدول 4) #### طرق التكرار **المزايا**: - بسيطة وقابلة للتفسير - مناسبة لكشف الكلمات الجديدة (neologisms) - متطلبات بيانات قليلة **العيوب**: - لا يمكن التمييز بين معاني الكلمات (مشكلة تعدد المعاني) - صعوبة التقاط التشابه الدلالي - حساسة للسخرية والنفي **السيناريوهات المناسبة**: إحصائيات التعايش المشترك لكلمات البذور للقطب التوجهي #### نماذج المواضيع **المزايا**: - اكتشاف غير موجه للمعاني الجديدة - تصور تطور المواضيع - InfiniteSCAN يعدل عدد المواضيع بشكل ديناميكي **العيوب**: - تفسير المواضيع يدوي - صعوبة التحكم في حبيبية المواضيع - فجوات بحثية في القطب العلائقي والتوجهي **الأعمال الممثلة**: - SCAN (Frermann & Lapata 2016) - InfiniteSCAN (Inoue et al. 2022): كشف تلقائي لعدد معاني الكلمات #### طرق الرسم البياني **المزايا**: - تمثيل طبيعي لعلاقات الكلمات - تصور شجرة تطور معاني الكلمات (Ehmüller et al. 2020) - مناسبة لنشر المشاعر (SentiProp) **العيوب**: - تعتمد على جودة بناء الرسم البياني - التعقيد الحسابي العالي - نقص شديد في استكشاف القطب العلائقي **الأعمال الممثلة**: - تجميع Chinese Whispers (Biemann 2006) - Ego-network + تصفية PMI (Ehmüller et al. 2020) #### طرق التضمين **المزايا**: - التقاط التغييرات الدلالية الدقيقة - تضمينات BERT وما شابهها تحسن الأداء - تضمينات الكثافة (word2gauss) تصمم تعدد المعاني **العيوب**: - **نقص دمج المعنى (Meaning Conflation Deficiency)**: متجه واحد لا يمكنه التمييز بين معاني دقيقة - عدم الاستقرار للكلمات منخفضة التكرار - الإفراط في السياق للتضمينات السياقية → إيجابيات كاذبة **الأعمال الممثلة**: - تضمينات تاريخية (Hamilton et al. 2016b) - تضمينات غاوسية (Moss 2020, Yüksel et al. 2021) - XL-LEXEME (Cassotti et al. 2023): تدريب مسبق متعدد اللغات لتوضيح معاني الكلمات ### النتائج المهمة 1. **التوصيف أصعب من الكشف**: يُظهر SemEval-2020 أن تضمينات السياق لم تتجاوز التضمينات الثابتة في كشف التغيير الدلالي، والتوصيف يتطلب تصميماً متخصصاً 2. **اختناق البيانات**: مجموعات النصوص التاريخية بحجم المليون مقابل احتياجات نماذج اللغة الحديثة من التريليون → الحاجة إلى التعلم بعينات قليلة 3. **نقص تعدد اللغات**: 90% من الأبحاث باللغة الإنجليزية فقط 4. **فجوة القطب العلائقي**: فقط 3 أوراق بحثية، لا توجد مجموعة بيانات قياسية 5. **صعوبة التقييم**: غياب المعايير الذهبية، معظم التحليلات نوعية ## الأعمال ذات الصلة ### مقارنة المسوحات الموجودة | المسح | السنة | التركيز | الفرق عن هذه الورقة | |------|------|--------|----------| | **Tang 2018** | 2018 | إطار العمل الرباعي (نصوص → معاني → نمذجة → التحقق) | يركز على الكشف، التوصيف موجز فقط | | **Tahmasebi et al. 2018** | 2018 | التمييز بين مستوى الكلمة/المعنى، استبدال المفردات | يقترح دراسة التوصيف بعمق | | **Kutuzov et al. 2018** | 2018 | نماذج تمثيل الكلمات والبيانات | يشير إلى عدم كفاية التحقق من خطط التصنيف | | **Montanelli & Periti 2023** | 2023 | طرق التضمين السياقي | يدعو لدراسة "قوانين التحول الدلالي" | | **هذه الورقة** | 2025 | **توصيف الأقطاب الثلاثة + الصيغة الرسمية** | أول مسح منهجي للتوصيف | ### الأسس النظرية #### التصنيف اللساني (Traugott 2017) - **التوسع/التضييق**: تغيير نطاق معنى الكلمة - **التحسن/التدهور**: تغيير القيمة العاطفية - **الاستعارة/الكناية**: تغيير الآليات البلاغية #### منظور حسابي للتصنيف - **منظور كامبريدج**: مقارنة ثابتة لمجموعتي نصوص (تعتمده هذه الورقة) - **منظور McTaggart**: تتبع ديناميكي للعملية التطورية (يتطلب معرفة تاريخية) ### تطور تمثيل معاني الكلمات 1. **المرحلة المبكرة**: مصفوفات التكرار والتعايش (Sagi et al. 2009) 2. **2010s**: نماذج المواضيع (Lau et al. 2012)، تجميع الرسوم البيانية (Biemann 2006) 3. **2016+**: التضمينات الثابتة (Hamilton et al. 2016b) 4. **2019+**: تضمينات BERT وما شابهها السياقية (Giulianelli et al. 2020) 5. **المستقبل**: طرق توليدية لنماذج اللغة الكبيرة (Cassotti et al. 2024) ## الخلاصات والمناقشة ### الخلاصات الرئيسية 1. **نقص شديد في بحث التوصيف**: نسبة أوراق الكشف إلى التوصيف حوالي 9:1 2. **عدم التوازن بين الأقطاب الثلاثة**: دراسة القطب البُعدي (D) كافية، القطب العلائقي (R) شبه فارغ 3. **تجزئة الطرق**: غياب إطار عمل موحد ومعايير تقييم 4. **ضرورة الصيغة الرسمية**: يمكن لتعريفات نظرية المجموعات أن تزيل الغموض وتعزز مقارنة الطرق 5. **تحديات البيانات**: حجم مجموعات النصوص التاريخية يحد من تطبيق التعلم العميق ### القيود #### قيود منهجية 1. **افتراضات مبسطة**: الموضوعية الحسية (sense objectivism) تتجاهل الاعتماد على السياق 2. **حدود الثنائية**: لا يمكن لـ broadening/narrowing وصف تغييرات intension (المحتوى الداخلي) للكلمة 3. **غموض تعريف القطب العلائقي**: صعوبة التمييز بين الاستعارة والكناية والكلمات المتجانسة الجديدة #### قيود البيانات 1. **انحياز مجموعات النصوص**: - مجموعات النصوص المتوازنة مثل COHA لا تزال لديها انحياز نوعي - Google N-Gram بها الكثير من الضوضاء (أخطاء OCR) 2. **تأخر التعليقات التوضيحية**: تأخر قواميس اللغة في تسجيل المعاني الجديدة بـ 5-10 سنوات 3. **نقص تعدد اللغات**: أقل من 10% من الأبحاث غير إنجليزية #### قيود التقييم 1. **غياب المعايير الذهبية**: معظم الأعمال تحليل نوعي 2. **استقرار كلمات البذور**: يفترض القطب التوجهي عدم تغير كلمات البذور (في الواقع تتغير) 3. **ذاتية الحدود**: عدم وجود إجماع على حدود التغيير للتصنيف الثنائي ### الاتجاهات المستقبلية #### قصيرة الأجل (1-2 سنة) 1. **اختراق القطب العلائقي**: - بناء مجموعات بيانات معلمة للاستعارة/الكناية - استخدام الرسوم البيانية للمعرفة (Wikidata) لنمذجة العلاقات المفاهيمية 2. **نمذجة متعددة الأقطاب**: نموذج واحد يوصف D+R+O في نفس الوقت 3. **تقييم قياسي**: إنشاء معيار لتوصيف التغيير الدلالي #### متوسطة الأجل (3-5 سنوات) 1. **تطبيقات نماذج اللغة الكبيرة**: - التعلم بعينات قليلة لتخفيف ندرة البيانات - طرق توليدية لتوليف مجموعات نصوص تاريخية (Cassotti et al. 2024) 2. **بحث متعدد اللغات**: - التحقق من القوانين العامة للتغيير الدلالي - استخدام نماذج التدريب المسبق متعددة اللغات 3. **تحليل السببية**: من "كيف يتغير" إلى "لماذا يتغير" (العوامل الاجتماعية والثقافية) #### طويلة الأجل (5+ سنوات) 1. **قوانين التغيير الدلالي**: - أي أنواع الكلمات تميل للتوسع؟ - العلاقة بين التكرار وسرعة التغيير 2. **التطبيقات المدفوعة**: - ترجمة آلية للنصوص التاريخية - صيانة الرسوم البيانية للمعرفة الديناميكية - نمذجة تطور الثقافة ## التقييم المتعمق ### المزايا #### المساهمات الأكاديمية 1. **ملء الفجوة**: أول مسح منهجي للتوصيف، توضيح الفرق بين identification و characterization 2. **الابتكار النظري**: - تصنيف ثلاثي الأقطاب يدمج منظور اللسانيات والحسابات - إطار عمل رسمي (القسم 5) يمكن أن يوجه تصميم الخوارزميات مباشرة 3. **الشمولية**: - الفترة الزمنية: 2006-2024 - تغطية الطرق: 4 أنواع تمثيل × 3 أنواع تغيير = تحليل 12 بُعد - تحليل عميق لـ 23 ورقة أساسية #### مزايا منهجية 1. **البحث الدلالي**: استخدام أداة Research Rabbit لتوسيع الأدبيات بشكل متكرر (11 → 151 ورقة) 2. **التحقق التجريبي**: أمثلة SEMCOR/MASC توضح قابلية تطبيق الإطار 3. **التصور**: الشكل 1 شجرة التصنيف، الشكل 11 الفضاء ثلاثي الأبعاد يعرض بشكل حدسي #### جودة الكتابة 1. **وضوح البنية**: المنطق من الخلفية → الطرق → الصيغة الرسمية → المناقشة منطقي 2. **توحيد المصطلحات**: تعريفات واضحة للمفاهيم الأساسية مثل LSC و D/R/O 3. **جداول غنية بالمعلومات**: الجداول 2-4 تركز كمية كبيرة من المعلومات ### أوجه القصور #### المستوى النظري 1. **جدل الموضوعية الحسية**: - يفترض أن معاني الكلمات يمكن تعدادها بشكل منفصل ($S(w,t)=\{s_1,...,s_k\}$) - يتجاهل "التشابه العائلي" لـ Wittgenstein ونظرية الاستخدام - الرد: يعترف المؤلفون بـ "الموقف العملي"، لكن لم يناقشوا نظرية النموذج الأولي بشكل كافٍ 2. **تعريف القطب العلائقي غير كافٍ**: - الصيغة (6) لـ $l(s_i, s_j)$ كيفية حسابها غير واضحة - التمييز بين الاستعارة والكناية يعتمد على موارد خارجية مثل ChainNet 3. **تبسيط القطب التوجهي**: - يعتبر فقط الإيجابية والسلبية، يتجاهل تعدد الأبعاد العاطفية (بخلاف VAD) - مشكلة الحجة الدائرية في اختيار كلمات البذور #### المستوى التجريبي 1. **التحقق غير كافٍ**: - القسم 5.7 فقط حالتان لكلمات، الدلالة الإحصائية غير كافية - الفترة الزمنية بين SEMCOR/MASC فقط 20 سنة، غير كافية لإظهار التغيير التاريخي - لا مقارنة مع التعليقات التوضيحية البشرية للتحقق 2. **مقارنة الطرق مفقودة**: - الجدول 3 فقط تصنيف، لا مقارنة كمية للدقة - نقص تجارب المقارنة لطرق التمثيل المختلفة على نفس المهمة 3. **قيود مجموعات البيانات**: - تعتمد على معلمات WordNet، لكن WordNet لا تغطي كل شيء (مثل اللغة العامية والكلمات الجديدة) - لم تناقش الضوضاء في ChainNet/SentiWordNet #### نطاق التغطية 1. **طرق عصر نماذج اللغة الكبيرة غير كافية**: - فقط ذكر بسيط لتطبيقات GPT/BERT في التغيير الدلالي - لم تناقش هندسة الأوامر (prompt engineering)، التعلم السياقي (in-context learning) وغيرها من الأنماط الجديدة 2. **نقص متعدد الأنماط**: يمكن لنمذجة الصور والنصوص المشتركة أن تساعد في فهم معاني الكلمات 3. **ضعف منظور اللسانيات المعرفية**: لم تدرج نماذج حسابية لنظرية الاستعارة المفاهيمية (Lakoff & Johnson) ### تقييم التأثير #### المساهمة المتوقعة للمجال 1. **تحول النموذج**: دفع بحث التغيير الدلالي من الكشف نحو التوصيف 2. **إرشادات الطرق**: يمكن لإطار العمل الرسمي أن يتحول مباشرة إلى خوارزميات (مثل الكود الزائف Algorithm 1) 3. **احتياجات مجموعات البيانات**: الدعوة لبناء بيانات معلمة ثلاثية الأقطاب، قد تحفز معايير جديدة #### القيمة العملية 1. **العلوم الإنسانية الرقمية**: تحسين فهم تطور الكلمات الرئيسية في الأعمال الأدبية (مثل أعمال شكسبير) 2. **هندسة المعرفة**: توجيه صيانة الرسوم البيانية للمعرفة الزمنية مثل Wikidata 3. **الحوسبة الاجتماعية**: تتبع تطور معاني الكلمات في وسائل التواصل الاجتماعي (مثل تسييس كلمة "feminism") 4. **اللغات منخفضة الموارد**: يمكن نقل إطار العمل الرسمي إلى لغات غير إنجليزية #### قابلية الاستنساخ - **عالية**: التعريفات الرسمية واضحة، SEMCOR/MASC متاحة للجمهور - **متوسطة**: بعض الطرق (مثل ChainNet) يصعب الحصول على الموارد - **منخفضة**: غياب مستودع الأكواد، يحتاج القراء لتنفيذ الطرق بأنفسهم ### السيناريوهات المناسبة #### التطبيقات المناسبة 1. **العلوم الإنسانية الرقمية**: تحليل تطور الكلمات الرئيسية في الأعمال الأدبية 2. **تحرير القواموس**: اكتشاف تلقائي للمدخلات التي تحتاج تحديث 3. **اللسانيات الاجتماعية**: دراسة تطور الخطاب في الحركات الاجتماعية (مثل "feminism") 4. **اللغات منخفضة الموارد**: يمكن نقل إطار العمل الرسمي إلى لغات غير إنجليزية #### السيناريوهات غير المناسبة 1. **الأنظمة الفورية**: يتطلب التحليل التاريخي كمية كبيرة من البيانات التاريخية، غير مناسب للتطبيقات عبر الإنترنت 2. **توضيح معاني الكلمات الدقيقة**: حبيبية التصنيف الثلاثي أقل دقة، لا يمكنه التعامل مع الفروقات الدلالية الدقيقة 3. **الاستدلال السببي**: فقط يصف "كيف يتغير"، لا يمكنه شرح "لماذا يتغير" (العوامل الاجتماعية والثقافية) ## المراجع (اختيار المراجع الرئيسية) ### الأسس النظرية 1. **Traugott (2017)**: Semantic change - مصدر السلطة لتصنيف اللسانيات 2. **Koch (2016)**: Meaning change and semantic shifts - شرح تفصيلي للآليات البلاغية 3. **Blank (2012)**: Prinzipien des lexikalischen Bedeutungswandels - بحث التغيير الدلالي الألماني ### طرق الكشف 4. **Hamilton et al. (2016b)**: Diachronic word embeddings reveal statistical laws - علامة فارقة في التضمينات الثابتة 5. **Giulianelli et al. (2020)**: Analysing lexical semantic change with contextualised word representations - تطبيق BERT 6. **Schlechtweg et al. (2020)**: SemEval-2020 Task 1 - مهمة تقييم قياسية ### طرق التوصيف 7. **Inoue et al. (2022)**: Infinite SCAN - نموذج موضوع ديناميكي لكشف عدد معاني الكلمات 8. **Fonteyn & Manjavacas (2021)**: Adjusting scope - مثال على التحليل متعدد الأقطاب 9. **Ehmüller et al. (2020)**: Sense tree discovery - طريقة الرسم البياني للتصور ### مقارنة المسوحات 10. **Tahmasebi et al. (2018)**: Survey of computational approaches to LSC - أشمل مسح للكشف 11. **Kutuzov et al. (2018)**: Diachronic word embeddings and semantic shifts - مسح نماذج تمثيل الكلمات --- ## الخلاصة هذه الورقة هي **مسح علامة فارقة** في مجال بحث التغيير الدلالي، وهي أول من يصيغ مشكلة التوصيف بشكل منهجي، وتقدم إطار عمل ثلاثي الأقطاب (D/R/O) وتعريفات رسمية توفر أساساً نظرياً لأبحاث لاحقة. أعظم قيمة لها تكمن في: 1. **توضيح الاتجاهات البحثية**: الإشارة إلى الفجوات في القطب العلائقي والنمذجة متعددة الأقطاب 2. **توحيد المصطلحات**: إزالة الالتباس حول الكشف مقابل التوصيف، التوسع مقابل التعميم، إلخ 3. **القابلية للتطبيق**: يمكن تحويل التعريفات بنظرية المجموعات مباشرة إلى خوارزميات ومع ذلك، لا تزال الورقة بحاجة إلى تحسينات في التحقق التجريبي، دمج طرق عصر نماذج اللغة الكبيرة، والعمق في منظور اللسانيات المعرفية. نقترح أن تركز الأعمال المستقبلية على: - بناء مجموعات بيانات معلمة كبيرة الحجم ثلاثية الأقطاب (مثل معلمة 1000 كلمة في COHA لتغييرات D/R/O) - تطوير نماذج توصيف شاملة (مثل التعلم متعدد المهام للتنبؤ بالأقطاب الثلاثة في نفس الوقت) - استكشاف قدرات نماذج اللغة الكبيرة على التوصيف بدون أمثلة (مثل استخدام GPT-4 للحكم على ما إذا كان معنى الكلمة استعاري) بالنسبة لباحثي معالجة اللغات الطبيعية، هذه الورقة **قراءة أساسية** للدخول إلى مجال التغيير الدلالي؛ وبالنسبة لمطوري التطبيقات، يوفر إطار العمل الرسمي **دليلاً نظرياً** لبناء أنظمة فهم النصوص التاريخية.