2025-11-17T03:07:13.875020

Simple stochastic processes behind Menzerath's Law

Milička
This paper revisits Menzerath's Law, also known as the Menzerath-Altmann Law, which models a relationship between the length of a linguistic construct and the average length of its constituents. Recent findings indicate that simple stochastic processes can display Menzerathian behaviour, though existing models fail to accurately reflect real-world data. If we adopt the basic principle that a word can change its length in both syllables and phonemes, where the correlation between these variables is not perfect and these changes are of a multiplicative nature, we get bivariate log-normal distribution. The present paper shows, that from this very simple principle, we obtain the classic Altmann model of the Menzerath-Altmann Law. If we model the joint distribution separately and independently from the marginal distributions, we can obtain an even more accurate model by using a Gaussian copula. The models are confronted with empirical data, and alternative approaches are discussed.
academic

মেনজেরাথের নিয়মের পিছনে সরল স্টোকাস্টিক প্রক্রিয়া

মৌলিক তথ্য

  • পেপার আইডি: 2409.00279
  • শিরোনাম: Simple stochastic processes behind Menzerath's Law
  • লেখক: Jiří Milička (চার্লস বিশ্ববিদ্যালয়, প্রাগ, চেক প্রজাতন্ত্র)
  • শ্রেণীবিভাগ: cs.CL (কম্পিউটেশনাল ভাষাবিজ্ঞান)
  • প্রকাশনা সময়/সম্মেলন: QUALICO 2023, লজান
  • পেপার লিংক: https://arxiv.org/abs/2409.00279

সারসংক্ষেপ

এই পেপারটি মেনজেরাথের নিয়ম (যা মেনজেরাথ-অল্টম্যান নিয়ম নামেও পরিচিত) পুনর্বিবেচনা করে, যা ভাষাগত নির্মাণের দৈর্ঘ্য এবং এর উপাদান গড় দৈর্ঘ্যের মধ্যে সম্পর্ক বর্ণনা করে। সাম্প্রতিক গবেষণা দেখায় যে সরল স্টোকাস্টিক প্রক্রিয়া মেনজেরাথ আচরণ প্রদর্শন করতে পারে, কিন্তু বিদ্যমান মডেলগুলি বাস্তব-বিশ্বের ডেটা সঠিকভাবে প্রতিফলিত করতে পারে না। যদি আমরা এই মৌলিক নীতি গ্রহণ করি যে শব্দভাণ্ডার সিলেবল এবং ফোনিম উভয় মাত্রায় দৈর্ঘ্য পরিবর্তন করতে পারে, যেখানে এই চলকগুলির মধ্যে সম্পর্ক অপূর্ণ এবং পরিবর্তনগুলি গুণনীয় প্রকৃতির, আমরা দ্বিচলক লগ-সাধারণ বিতরণ পাই। এই পেপারটি দেখায় যে এই অত্যন্ত সরল নীতি থেকে শুরু করে, আমরা ক্লাসিক্যাল অল্টম্যান মডেল পেতে পারি। যদি যৌথ বিতরণকে প্রান্তিক বিতরণ থেকে স্বাধীনভাবে মডেল করা হয়, তবে গাউসিয়ান কপুলা ব্যবহার করে আরও নির্ভুল মডেল পাওয়া যায়।

গবেষণা পটভূমি এবং প্রেরণা

  1. সমাধানযোগ্য সমস্যা: মেনজেরাথের নিয়ম ভাষাবিজ্ঞানে একটি গুরুত্বপূর্ণ নিয়ম, যা ভাষাগত নির্মাণ (যেমন শব্দভাণ্ডার) এর দৈর্ঘ্য এবং এর উপাদান গড় দৈর্ঘ্যের মধ্যে বিপরীত সম্পর্ক বর্ণনা করে। যদিও এই নিয়মটি অভিজ্ঞতামূলকভাবে ব্যাপকভাবে যাচাই করা হয়েছে, এটি সন্তোষজনক তাত্ত্বিক ব্যাখ্যা এবং স্টোকাস্টিক প্রক্রিয়ার ভিত্তি অভাব করে।
  2. সমস্যার গুরুত্ব: মেনজেরাথের নিয়ম এর সার্বজনীনতা এবং বিভিন্ন বিভাজন স্তরকে একটি একীভূত কাঠামোতে একীভূত করার ক্ষমতার কারণে পরিমাণগত ভাষাবিজ্ঞান সম্প্রদায়ে ব্যাপক মনোযোগ আকর্ষণ করে। এর পিছনের স্টোকাস্টিক প্রক্রিয়া বোঝা ভাষা বিবর্তন তত্ত্ব এবং পরিমাণগত ভাষাবিজ্ঞানের জন্য গুরুত্বপূর্ণ।
  3. বিদ্যমান পদ্ধতির সীমাবদ্ধতা:
    • টোরে এবং অন্যান্য (২০২১) এর গবেষণা দেখায় যে সরল স্টোকাস্টিক প্রক্রিয়া মেনজেরাথ আচরণ প্রদর্শন করতে পারে, কিন্তু মডেল বাস্তব ডেটার সাথে সামঞ্জস্যপূর্ণ নয়
    • ক্লাসিক্যাল অল্টম্যান মডেল (১৯৮০) স্টোকাস্টিক প্রক্রিয়া অনুমান এবং পরামিতি ব্যাখ্যা অভাব করে
    • বিদ্যমান মডেলগুলি প্রধানত পাঠ্য উৎপাদন প্রক্রিয়ার উপর ফোকাস করে, যখন শব্দভাণ্ডার দৈর্ঘ্যের নির্ধারণ প্রক্রিয়া ভাষা বিবর্তনে উপেক্ষা করে
  4. গবেষণা প্রেরণা: লেখক বিশ্বাস করেন যে মেনজেরাথের নিয়ম পাঠ্য উৎপাদনের দৃষ্টিকোণ থেকে নয় বরং ভাষা বিবর্তনের দৃষ্টিকোণ থেকে বোঝা উচিত, এবং যৌথ বিতরণ মডেলিংয়ের মাধ্যমে এই নিয়মের স্টোকাস্টিক প্রক্রিয়া ভিত্তি ব্যাখ্যা করার প্রস্তাব করেন।

মূল অবদান

  1. তাত্ত্বিক অবদান: দ্বিচলক লগ-সাধারণ বিতরণ থেকে ক্লাসিক্যাল অল্টম্যান মডেল অনুমান করা, পরামিতির স্পষ্ট ব্যাখ্যা প্রদান করা
  2. পদ্ধতিগত উদ্ভাবন: যৌথ বিতরণ এবং প্রান্তিক বিতরণ আলাদাভাবে মডেল করতে গাউসিয়ান কপুলা ব্যবহার করার প্রস্তাব, আরও নির্ভুল মডেল প্রাপ্ত করা
  3. অভিজ্ঞতামূলক যাচাইকরণ: একাধিক ডেটাসেটে প্রস্তাবিত মডেলের কার্যকারিতা যাচাই করা, বিভিন্ন ভাষা এবং ভাষাগত স্তর সহ
  4. তাত্ত্বিক অন্তর্দৃষ্টি: মেনজেরাথের নিয়মে পরামিতি b এর নেতিবাচক মান (বৃদ্ধির প্রবণতা) ব্যাখ্যা করা

পদ্ধতির বিস্তারিত বর্ণনা

কাজের সংজ্ঞা

ভাষাগত নির্মাণের দৈর্ঘ্য (যেমন শব্দভাণ্ডারের সিলেবল সংখ্যা x) এবং এর উপাদান দৈর্ঘ্য (যেমন ফোনিম সংখ্যা y) এর মধ্যে যৌথ বিতরণ অধ্যয়ন করা, এবং এটি থেকে মেনজেরাথের নিয়মের রূপ অনুমান করা।

মডেল স্থাপত্য

১. দ্বিচলক লগ-সাধারণ বিতরণ মডেল

মৌলিক নীতি: শব্দভাণ্ডার দৈর্ঘ্য পরিবর্তন গুণনীয় প্রকৃতির, অর্থাৎ দীর্ঘ শব্দগুলি ছোট শব্দের চেয়ে দৈর্ঘ্য পরিবর্তনের জন্য আরও সংবেদনশীল।

গাণিতিক অনুমান:

  • লগ-রূপান্তরিত রৈখিক প্রতিগমন থেকে শুরু করা:
log z = α + β log x

যেখানে z = xy

  • পরামিতি ব্যাখ্যা:
β = ρ_log x,log z × (s_log z / s_log x)
α = log z̅ - β log x̅
  • ক্লাসিক্যাল অল্টম্যান মডেল অনুমান করা:
y = ax^(-b)

যেখানে:

b = 1 - β = 1 - ρ_log x,log xy × (s_log xy / s_log x)
a = log xy̅ - (1-b) log x̅

২. গাউসিয়ান কপুলা মডেল

ডিজাইন চিন্তাভাবনা: যৌথ বিতরণকে প্রান্তিক বিতরণ থেকে আলাদা করা, চলকগুলির মধ্যে সম্পর্ক মডেলিংয়ে ফোকাস করা।

বাস্তবায়ন পদ্ধতি:

  • প্রান্তিক বিতরণ সংযুক্ত করতে কপুলা ফাংশন ব্যবহার করা
  • শুধুমাত্র প্রান্তিক বিতরণ এবং সম্পর্ক সহগ প্রয়োজন
  • বৃদ্ধি এবং হ্রাস প্রবণতা পরিচালনা করতে পারে

३. বিভাজিত সীমানা মডেল

প্রেরণা: যৌথ বিতরণে খালি অঞ্চল পরিচালনা করা (যেমন ৩ সিলেবল ২ ফোনিমের শব্দ অসম্ভব)

রূপান্তর সূত্র:

x' = x - 1  (সিলেবল সীমানা সংখ্যা)
y' = y - x  (অ-সিলেবল ফোনিম সীমানা সংখ্যা)

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

  1. গুণনীয় প্রক্রিয়া অনুমান: ঐতিহ্যবাহী যোজক মডেলের বিপরীতে, শব্দভাণ্ডার দৈর্ঘ্য পরিবর্তন গুণনীয় নিয়ম অনুসরণ করে এই প্রস্তাব
  2. যৌথ বিতরণ দৃষ্টিভঙ্গি: শর্তসাপেক্ষ প্রত্যাশার পরিবর্তে যৌথ বিতরণ থেকে মেনজেরাথের নিয়ম বোঝা
  3. পরামিতি ব্যাখ্যাযোগ্যতা: ক্লাসিক্যাল অল্টম্যান মডেলের পরামিতির জন্য স্পষ্ট পরিসংখ্যানগত ব্যাখ্যা প্রদান করা
  4. মডেল নমনীয়তা: ইতিবাচক এবং নেতিবাচক প্রবণতা পরিচালনা করতে পারে, ঐতিহ্যবাহী মডেলের সীমাবদ্ধতা সমাধান করা

পরীক্ষামূলক সেটআপ

ডেটাসেট

  1. মেনজেরাথ মূল ডেটা (১৯৫৪): জার্মান শব্দভাণ্ডারের সিলেবল-ফোনিম সম্পর্ক
  2. গ্রীক ডেটা (মিক্রোস এবং মিলিচকা ২০১৪): ফোনিম-সিলেবল-শব্দভাণ্ডার স্তর
  3. চেক ডেটা (মিলিচকা ২০১৫):
    • ফোনিম-মরফিম-শব্দভাণ্ডার স্তর
    • মরফিম-শব্দভাণ্ডার-ধারা স্তর
    • শব্দভাণ্ডার-ধারা-বাক্য স্তর
  4. আরবি ডেটা (মিলিচকা ২০১৫):
    • ফোনিম-মরফিম-শব্দভাণ্ডার স্তর
    • মরফিম-শব্দভাণ্ডার-ধারা স্তর

মূল্যায়ন মেট্রিক্স

  • অবশিষ্ট বর্গ সমষ্টি (RSS): সমান দৈর্ঘ্যের ডেটাসেটে ফিটিং প্রভাব তুলনা করতে ব্যবহৃত
  • ভিজ্যুয়াল ফিটিং ডিগ্রি: গ্রাফিক তুলনার মাধ্যমে মডেল এবং অভিজ্ঞতামূলক ডেটার মিল

তুলনা পদ্ধতি

  • ক্লাসিক্যাল অল্টম্যান মডেল: y = ax^(-b)
  • হাইপারবোলিক মডেল: y = a/x + b
  • দ্বিচলক সাধারণ বিতরণ মডেল

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

  1. দ্বিচলক লগ-সাধারণ বিতরণ:
    • ক্লাসিক্যাল অল্টম্যান মডেলের রূপ সফলভাবে অনুমান করা
    • পরামিতির পরিসংখ্যানগত ব্যাখ্যা প্রদান করা
    • অভিজ্ঞতামূলক ডেটার সাথে ভিজ্যুয়ালি ভালভাবে ফিট করা
  2. গাউসিয়ান কপুলা মডেল:
    • একাধিক ডেটাসেটে উৎকৃষ্ট কর্মক্ষমতা
    • বৃদ্ধি এবং হ্রাস প্রবণতা পরিচালনা করতে পারে
    • RSS সূচক ভাল ফিটিং প্রভাব দেখায়
  3. ক্রস-ভাষা যাচাইকরণ:
    • জার্মান, গ্রীক, চেক, আরবিতে কার্যকর
    • বিভিন্ন ভাষাগত স্তরে প্রযোজ্য (ফোনিম, সিলেবল, মরফিম, শব্দভাণ্ডার, ধারা, বাক্য)

গুরুত্বপূর্ণ আবিষ্কার

  1. নেতিবাচক পরামিতি ব্যাখ্যা: যখন β > ১, পরামিতি b নেতিবাচক হয়, বৃদ্ধি প্রবণতা সৃষ্টি করে, যা অভিজ্ঞতামূলক ডেটায় সত্যিই বিদ্যমান
  2. বিভাজিত সীমানা পদ্ধতির সীমাবদ্ধতা: যদিও তাত্ত্বিকভাবে পরিষ্কার, বাস্তব প্রভাব মূল বিভাজিত পদ্ধতির চেয়ে ভাল নয়
  3. লগ রূপান্তর প্রভাব: কপুলায় লগ রূপান্তর প্রয়োগ করা উন্নতি আনেনি

কেস বিশ্লেষণ

পেপারটি ৮টি বিভিন্ন ডেটাসেটের ফিটিং ফলাফল প্রদর্শন করে, যার মধ্যে রয়েছে:

  • সম্পূর্ণ যৌথ বিতরণের ভিজ্যুয়ালাইজেশন
  • মেনজেরাথ নিয়ম বক্ররেখা তুলনা
  • ক্লাসিক্যাল মডেলের সাথে RSS তুলনা

সম্পর্কিত কাজ

প্রধান গবেষণা প্রবাহ

  1. মেনজেরাথ (১৯৫৪): প্রাথমিকভাবে নিয়ম প্রস্তাব করা, যৌথ বিতরণ পরিমাপ করা
  2. অল্টম্যান (১৯৮০): নিয়ম আনুষ্ঠানিকীকরণ এবং ক্লাসিক্যাল সূত্র প্রস্তাব করা
  3. টোরে এবং অন্যান্য (২০২১): সরল স্টোকাস্টিক প্রক্রিয়া মেনজেরাথ আচরণ প্রদর্শন করতে পারে প্রমাণ করা
  4. মিলিচকা (२०२३): প্রতিগমন গড়ের দিকে ব্যাখ্যা প্রস্তাব করা

এই পেপারের আপেক্ষিক সুবিধা

  1. ক্লাসিক্যাল মডেলের স্টোকাস্টিক প্রক্রিয়া ভিত্তি প্রদান করা
  2. পরামিতি স্পষ্ট পরিসংখ্যানগত অর্থ রাখে
  3. মডেল আরও নমনীয়, বিভিন্ন প্রবণতা পরিচালনা করতে পারে
  4. একাধিক ডেটাসেটে যাচাই করা

উপসংহার এবং আলোচনা

প্রধান উপসংহার

  1. দ্বিচলক লগ-সাধারণ বিতরণ ভাষাগতভাবে যুক্তিসঙ্গত স্টোকাস্টিক নীতি প্রতিনিধিত্ব করে, যা নির্মাণ এবং উপাদান ও উপ-উপাদানে দৈর্ঘ্য মডেল করতে পারে
  2. গাউসিয়ান কপুলা যৌথ বিতরণ মডেলিংয়ের কার্যকর সরঞ্জাম, যৌথ বিতরণে ফোকাস করার সময় উৎকৃষ্ট কর্মক্ষমতা প্রদর্শন করে
  3. যৌথ বিতরণ মডেলিং গড় মডেলিংয়ের চেয়ে অগ্রাধিকার দেওয়া উচিত, আরও তথ্য প্রদান করে
  4. বাস্তব প্রয়োগে, প্রান্তিক বিতরণের শক্তিশালী মডেল পরামিতি এবং সম্পর্ক সহগ ব্যবহার বিবেচনা করা উচিত

সীমাবদ্ধতা

  1. স্তর-নির্দিষ্টতা: বিভিন্ন ভাষাগত স্তরের জন্য বিভিন্ন স্টোকাস্টিক প্রক্রিয়া মডেল প্রয়োজন হতে পারে
  2. সময় স্কেল সমস্যা: শব্দভাণ্ডার স্তরের প্রক্রিয়া ভাষা বিবর্তন প্রক্রিয়ায় ঘটে, যখন ধারা/বাক্য স্তর যোগাযোগ প্রক্রিয়ায় ঘটতে পারে
  3. মডেল নির্বাচন: যদিও একাধিক পদ্ধতি প্রদান করা হয়েছে, স্পষ্ট নির্বাচন মানদণ্ড অভাব রয়েছে
  4. অভিজ্ঞতামূলক যাচাইকরণ সীমিত: প্রধানত ভিজ্যুয়াল ফিটিং এবং RSS এর উপর ভিত্তি করে, আরও কঠোর পরিসংখ্যানগত পরীক্ষা অভাব

ভবিষ্যত দিকনির্দেশনা

  1. একীভূত তত্ত্ব: সমস্ত ভাষাগত স্তর অন্তর্ভুক্ত করতে পারে এমন যুক্তিসঙ্গত স্টোকাস্টিক প্রক্রিয়া খোঁজা
  2. অন্যান্য কপুলা: গুম্বেল বা ক্লেটন কপুলা অন্বেষণ করা, কিন্তু ভাষাগত ব্যাখ্যা প্রয়োজন
  3. পয়সন বিতরণ: দ্বিচলক পয়সন বিতরণের প্রয়োগ অন্বেষণ করা
  4. বাস্তব প্রয়োগ: শৈলীবিজ্ঞান বা পাঠ্য বিশ্লেষণে মডেল প্রয়োগ করা

গভীর মূল্যায়ন

শক্তি

  1. উল্লেখযোগ্য তাত্ত্বিক অবদান: প্রথমবারের মতো ক্লাসিক্যাল অল্টম্যান মডেলের জন্য কঠোর স্টোকাস্টিক প্রক্রিয়া অনুমান প্রদান করা
  2. শক্তিশালী পদ্ধতি উদ্ভাবনীতা: ভাষাবিজ্ঞানে কপুলা পদ্ধতির প্রয়োগ অগ্রগামী
  3. পর্যাপ্ত অভিজ্ঞতামূলক যাচাইকরণ: বহুভাষিক, বহু-স্তরীয় ডেটায় মডেল কার্যকারিতা যাচাই করা
  4. পরামিতি ব্যাখ্যাযোগ্যতা: দীর্ঘস্থায়ী পরামিতি অর্থ সমস্যা সমাধান করা
  5. স্পষ্ট লেখা: গাণিতিক অনুমান কঠোর, যুক্তি স্পষ্ট

অপূর্ণতা

  1. অপর্যাপ্ত পরিসংখ্যানগত পরীক্ষা: প্রধানত ভিজ্যুয়াল বিচার এবং RSS এর উপর নির্ভর করে, আনুষ্ঠানিক পরিসংখ্যানগত তাৎপর্য পরীক্ষা অভাব
  2. সীমিত মডেল তুলনা: আরও উন্নত পরিসংখ্যানগত মডেলের সাথে তুলনা করা হয়নি
  3. অপর্যাপ্ত তাত্ত্বিক যাচাইকরণ: গুণনীয় প্রক্রিয়া অনুমান সরাসরি ভাষাগত প্রমাণ অভাব করে
  4. বাস্তব প্রয়োগ মূল্যায়ন অপর্যাপ্ত: বাস্তব প্রয়োগে মডেলের সুবিধা সম্পূর্ণভাবে আলোচনা করা হয়নি

প্রভাব

  1. উচ্চ তাত্ত্বিক মূল্য: পরিমাণগত ভাষাবিজ্ঞানের গুরুত্বপূর্ণ নিয়মের জন্য তাত্ত্বিক ভিত্তি প্রদান করা
  2. পদ্ধতিগত অবদান: নতুন পরিসংখ্যানগত মডেলিং পদ্ধতি প্রবর্তন করা
  3. আন্তঃশৃঙ্খলাগত অর্থ: পরিসংখ্যান এবং ভাষাবিজ্ঞান সংযুক্ত করা
  4. ভাল পুনরুৎপাদনযোগ্যতা: পদ্ধতি বর্ণনা বিস্তারিত, সহজে পুনরুৎপাদনযোগ্য

প্রযোজ্য পরিস্থিতি

  1. পরিমাণগত ভাষাবিজ্ঞান গবেষণা: ভাষাগত কাঠামো বিশ্লেষণের জন্য নতুন সরঞ্জাম প্রদান করা
  2. ভাষা বিবর্তন গবেষণা: ভাষা পরিবর্তনের স্টোকাস্টিক প্রক্রিয়া বোঝা
  3. পাঠ্য বিশ্লেষণ: শৈলীবিজ্ঞান এবং লেখক সনাক্তকরণে ব্যবহার করা যেতে পারে
  4. ক্রস-ভাষা তুলনা: মানক বিশ্লেষণ কাঠামো প্রদান করা

তথ্যসূত্র

মূল তথ্যসূত্রগুলির মধ্যে রয়েছে:

  1. Altmann, G. (1980). Prolegomena to Menzerath's law
  2. Menzerath, P. (1954). Die Architektonik des deutschen Wortschatzes
  3. Torre, I. G., et al. (2021). Can Menzerath's law be a criterion of complexity in communication?
  4. Milička, J. (2023). Menzerath's law: Is it just regression toward the mean?

এই পেপারটি মেনজেরাথের নিয়ম গবেষণায় গুরুত্বপূর্ণ তাত্ত্বিক অবদান করেছে, স্টোকাস্টিক প্রক্রিয়া মডেলিংয়ের মাধ্যমে ক্লাসিক্যাল নিয়মের জন্য নতুন বোঝার দৃষ্টিভঙ্গি প্রদান করেছে, এবং উচ্চ একাডেমিক মূল্য এবং ব্যবহারিক তাৎপর্য রাখে।