Simple stochastic processes behind Menzerath's Law
MiliÄka
This paper revisits Menzerath's Law, also known as the Menzerath-Altmann Law, which models a relationship between the length of a linguistic construct and the average length of its constituents. Recent findings indicate that simple stochastic processes can display Menzerathian behaviour, though existing models fail to accurately reflect real-world data. If we adopt the basic principle that a word can change its length in both syllables and phonemes, where the correlation between these variables is not perfect and these changes are of a multiplicative nature, we get bivariate log-normal distribution. The present paper shows, that from this very simple principle, we obtain the classic Altmann model of the Menzerath-Altmann Law. If we model the joint distribution separately and independently from the marginal distributions, we can obtain an even more accurate model by using a Gaussian copula. The models are confronted with empirical data, and alternative approaches are discussed.
academic
Простые стохастические процессы, лежащие в основе закона Мензерата
В данной работе пересматривается закон Мензерата (также известный как закон Мензерата-Альтманна), который описывает взаимосвязь между длиной языковых конструкций и средней длиной их составляющих компонентов. Последние исследования показывают, что простые стохастические процессы могут демонстрировать поведение Мензерата, однако существующие модели не могут точно отражать реальные данные. Если принять основной принцип, что словарный запас может изменять длину в двух измерениях — слогов и фонем, где корреляция между этими переменными несовершенна и изменения носят мультипликативный характер, мы получаем двумерное логнормальное распределение. В статье показано, что исходя из этого очень простого принципа, можно получить классическую модель Альтманна. Если моделировать совместное распределение и маргинальные распределения независимо, можно использовать гауссову копулу для получения более точной модели.
Проблема, которую необходимо решить: Закон Мензерата является важным законом в лингвистике, описывающим обратную зависимость между длиной языковой конструкции (например, слова) и средней длиной её составляющих компонентов. Хотя этот закон получил широкое эмпирическое подтверждение, ему не хватает удовлетворительного теоретического объяснения и основы в виде стохастических процессов.
Значимость проблемы: Закон Мензерата привлекает внимание в области количественной лингвистики благодаря его универсальности и способности интегрировать различные уровни членения в единую концептуальную схему. Понимание лежащих в его основе стохастических процессов имеет важное значение для теории языковой эволюции и количественной лингвистики.
Ограничения существующих методов:
Исследование Torre et al. (2021) показало, что простые стохастические процессы могут демонстрировать поведение Мензерата, но модели не соответствуют реальным данным
Классическая модель Альтманна (1980) лишена вывода из стохастических процессов и интерпретации параметров
Существующие модели в основном сосредоточены на процессе создания текста, игнорируя механизмы определения длины слова в языковой эволюции
Исследовательская мотивация: Автор считает, что закон Мензерата следует понимать с точки зрения языковой эволюции, а не создания текста, и предлагает объяснить стохастическую основу этого закона посредством моделирования совместного распределения.
Теоретический вклад: Вывод классической модели Альтманна из двумерного логнормального распределения с явной интерпретацией параметров
Методологическое новшество: Предложение использования гауссовой копулы для отдельного моделирования совместного и маргинальных распределений, получение более точной модели
Эмпирическая верификация: Проверка эффективности предложенной модели на множественных наборах данных, включая различные языки и языковые уровни
Теоретические выводы: Объяснение явления отрицательного значения параметра b (тенденция роста) в законе Мензерата
Исследование совместного распределения между длиной языковой конструкции (например, количество слогов в слове x) и длиной её составляющих компонентов (например, количество фонем y), а также вывод формы закона Мензерата из этого распределения.
Основной принцип: Предположение, что изменения длины слова носят мультипликативный характер, то есть длинные слова более подвержены изменениям длины, чем короткие.
Математический вывод:
Начинаем с линейной регрессии логарифмических преобразований:
log z = α + β log x
где z = xy
Интерпретация параметров:
β = ρ_log x,log z × (s_log z / s_log x)
α = log z̅ - β log x̅
Предположение о мультипликативном процессе: В отличие от традиционных аддитивных моделей, предложено, что изменения длины слова подчиняются мультипликативному закону
Перспектива совместного распределения: Понимание закона Мензерата с точки зрения совместного распределения, а не условного математического ожидания
Интерпретируемость параметров: Обеспечение явной статистической интерпретации параметров классической модели Альтманна
Гибкость модели: Способность обрабатывать положительные и отрицательные тенденции, преодоление ограничений традиционных моделей
Интерпретация отрицательного параметра: Когда β > 1, параметр b принимает отрицательное значение, приводя к тенденции роста, что действительно наблюдается в эмпирических данных
Ограничения метода сегментированных границ: Хотя теоретически более чистый, практический результат не превосходит исходный метод сегментирования
Эффект логарифмического преобразования: Применение логарифмического преобразования к копуле не привело к улучшениям
Двумерное логнормальное распределение представляет лингвистически обоснованный стохастический принцип, способный моделировать длину конструкций в составляющих и подсоставляющих компонентах
Гауссова копула является эффективным инструментом для моделирования совместного распределения, демонстрируя превосходную производительность при сосредоточении на совместном распределении
Моделирование совместного распределения должно быть приоритизировано перед моделированием среднего значения, обеспечивая больше информации
На практике следует рассмотреть использование робастных параметров маргинальных распределений и коэффициента корреляции
Специфичность уровней: Различные языковые уровни могут требовать различных моделей стохастических процессов
Проблема временной шкалы: Процессы на уровне словаря происходят в ходе языковой эволюции, тогда как процессы на уровне предложения/фразы могут происходить в процессе коммуникации
Выбор модели: Хотя предоставлены различные методы, отсутствуют явные критерии выбора
Ограниченная эмпирическая верификация: Основана главным образом на визуальной подгонке и RSS, не хватает более строгих статистических тестов
Altmann, G. (1980). Prolegomena to Menzerath's law
Menzerath, P. (1954). Die Architektonik des deutschen Wortschatzes
Torre, I. G., et al. (2021). Can Menzerath's law be a criterion of complexity in communication?
Milička, J. (2023). Menzerath's law: Is it just regression toward the mean?
Данная статья вносит важный теоретический вклад в исследование закона Мензерата, обеспечивая новую перспективу понимания классического закона посредством моделирования стохастических процессов, обладая высокой академической ценностью и практической значимостью.