2025-11-17T03:07:13.875020

Simple stochastic processes behind Menzerath's Law

MiliÄka

This paper revisits Menzerath's Law, also known as the Menzerath-Altmann Law, which models a relationship between the length of a linguistic construct and the average length of its constituents. Recent findings indicate that simple stochastic processes can display Menzerathian behaviour, though existing models fail to accurately reflect real-world data. If we adopt the basic principle that a word can change its length in both syllables and phonemes, where the correlation between these variables is not perfect and these changes are of a multiplicative nature, we get bivariate log-normal distribution. The present paper shows, that from this very simple principle, we obtain the classic Altmann model of the Menzerath-Altmann Law. If we model the joint distribution separately and independently from the marginal distributions, we can obtain an even more accurate model by using a Gaussian copula. The models are confronted with empirical data, and alternative approaches are discussed.

academic

Простые стохастические процессы, лежащие в основе закона Мензерата

Основная информация

ID статьи: 2409.00279
Название: Simple stochastic processes behind Menzerath's Law
Автор: Jiří Milička (Карлов университет, Прага, Чешская Республика)
Классификация: cs.CL (Вычислительная лингвистика)
Время публикации/конференция: QUALICO 2023, Лозанна
Ссылка на статью: https://arxiv.org/abs/2409.00279

Аннотация

В данной работе пересматривается закон Мензерата (также известный как закон Мензерата-Альтманна), который описывает взаимосвязь между длиной языковых конструкций и средней длиной их составляющих компонентов. Последние исследования показывают, что простые стохастические процессы могут демонстрировать поведение Мензерата, однако существующие модели не могут точно отражать реальные данные. Если принять основной принцип, что словарный запас может изменять длину в двух измерениях — слогов и фонем, где корреляция между этими переменными несовершенна и изменения носят мультипликативный характер, мы получаем двумерное логнормальное распределение. В статье показано, что исходя из этого очень простого принципа, можно получить классическую модель Альтманна. Если моделировать совместное распределение и маргинальные распределения независимо, можно использовать гауссову копулу для получения более точной модели.

Исследовательский контекст и мотивация

Проблема, которую необходимо решить: Закон Мензерата является важным законом в лингвистике, описывающим обратную зависимость между длиной языковой конструкции (например, слова) и средней длиной её составляющих компонентов. Хотя этот закон получил широкое эмпирическое подтверждение, ему не хватает удовлетворительного теоретического объяснения и основы в виде стохастических процессов.
Значимость проблемы: Закон Мензерата привлекает внимание в области количественной лингвистики благодаря его универсальности и способности интегрировать различные уровни членения в единую концептуальную схему. Понимание лежащих в его основе стохастических процессов имеет важное значение для теории языковой эволюции и количественной лингвистики.
Ограничения существующих методов:
- Исследование Torre et al. (2021) показало, что простые стохастические процессы могут демонстрировать поведение Мензерата, но модели не соответствуют реальным данным
- Классическая модель Альтманна (1980) лишена вывода из стохастических процессов и интерпретации параметров
- Существующие модели в основном сосредоточены на процессе создания текста, игнорируя механизмы определения длины слова в языковой эволюции
Исследовательская мотивация: Автор считает, что закон Мензерата следует понимать с точки зрения языковой эволюции, а не создания текста, и предлагает объяснить стохастическую основу этого закона посредством моделирования совместного распределения.

Основные вклады

Теоретический вклад: Вывод классической модели Альтманна из двумерного логнормального распределения с явной интерпретацией параметров
Методологическое новшество: Предложение использования гауссовой копулы для отдельного моделирования совместного и маргинальных распределений, получение более точной модели
Эмпирическая верификация: Проверка эффективности предложенной модели на множественных наборах данных, включая различные языки и языковые уровни
Теоретические выводы: Объяснение явления отрицательного значения параметра b (тенденция роста) в законе Мензерата

Подробное описание методологии

Определение задачи

Исследование совместного распределения между длиной языковой конструкции (например, количество слогов в слове x) и длиной её составляющих компонентов (например, количество фонем y), а также вывод формы закона Мензерата из этого распределения.

Архитектура модели

1. Модель двумерного логнормального распределения

Основной принцип: Предположение, что изменения длины слова носят мультипликативный характер, то есть длинные слова более подвержены изменениям длины, чем короткие.

Математический вывод:

Начинаем с линейной регрессии логарифмических преобразований:

log z = α + β log x

где z = xy

Интерпретация параметров:

β = ρ_log x,log z × (s_log z / s_log x)
α = log z̅ - β log x̅

Вывод классической модели Альтманна:

y = ax^(-b)

где:

b = 1 - β = 1 - ρ_log x,log xy × (s_log xy / s_log x)
a = log xy̅ - (1-b) log x̅

2. Модель гауссовой копулы

Концептуальный подход: Разделение совместного и маргинальных распределений, сосредоточение на моделировании корреляции между переменными.

Метод реализации:

Использование функции копулы для связи маргинальных распределений
Требуются только маргинальные распределения и коэффициент корреляции для подгонки
Способность обрабатывать тенденции роста и снижения

3. Модель сегментированных границ

Мотивация: Обработка пустых областей в совместном распределении (например, слово с 3 слогами и 2 фонемами невозможно)

Формула преобразования:

x' = x - 1  (количество границ слогов)
y' = y - x  (количество границ фонем вне слогов)

Технологические инновационные моменты

Предположение о мультипликативном процессе: В отличие от традиционных аддитивных моделей, предложено, что изменения длины слова подчиняются мультипликативному закону
Перспектива совместного распределения: Понимание закона Мензерата с точки зрения совместного распределения, а не условного математического ожидания
Интерпретируемость параметров: Обеспечение явной статистической интерпретации параметров классической модели Альтманна
Гибкость модели: Способность обрабатывать положительные и отрицательные тенденции, преодоление ограничений традиционных моделей

Экспериментальная установка

Наборы данных

Исходные данные Мензерата (1954): Соотношение слогов и фонем в немецких словах
Греческие данные (Mikros & Milička 2014): Уровни фонема-слог-слово
Чешские данные (Milička 2015):
- Уровни фонема-морфема-слово
- Уровни морфема-слово-предложение
- Уровни слово-предложение-фраза
Арабские данные (Milička 2015):
- Уровни фонема-морфема-слово
- Уровни морфема-слово-предложение

Метрики оценки

Сумма квадратов остатков (RSS): Используется для сравнения качества подгонки на наборах данных одинаковой длины
Визуальное соответствие: Сравнение модели и эмпирических данных посредством графического анализа

Методы сравнения

Классическая модель Альтманна: y = ax^(-b)
Гиперболическая модель: y = a/x + b
Модель двумерного нормального распределения

Результаты экспериментов

Основные результаты

Двумерное логнормальное распределение:
- Успешный вывод формы классической модели Альтманна
- Обеспечение статистической интерпретации параметров
- Хорошее визуальное соответствие эмпирическим данным
Модель гауссовой копулы:
- Превосходная производительность на множественных наборах данных
- Способность обрабатывать тенденции роста и снижения
- Хорошие показатели RSS, указывающие на качественную подгонку
Кросс-языковая верификация:
- Эффективность на немецком, греческом, чешском и арабском языках
- Применимость на различных языковых уровнях (фонема, слог, морфема, слово, предложение, фраза)

Важные находки

Интерпретация отрицательного параметра: Когда β > 1, параметр b принимает отрицательное значение, приводя к тенденции роста, что действительно наблюдается в эмпирических данных
Ограничения метода сегментированных границ: Хотя теоретически более чистый, практический результат не превосходит исходный метод сегментирования
Эффект логарифмического преобразования: Применение логарифмического преобразования к копуле не привело к улучшениям

Анализ примеров

В статье представлены результаты подгонки для 8 различных наборов данных, включая:

Визуализацию полного совместного распределения
Сравнение кривых закона Мензерата
Сравнение RSS с классической моделью

Связанные работы

Основная исследовательская линия

Menzerath (1954): Первоначальное предложение закона, измерение совместного распределения
Altmann (1980): Формализация закона и предложение классической формулы
Torre et al. (2021): Доказательство того, что простые стохастические процессы могут демонстрировать поведение Мензерата
Milička (2023): Предложение интерпретации регрессии к среднему

Относительные преимущества данной работы

Обеспечение стохастической основы классической модели
Параметры имеют явное статистическое значение
Модель более гибкая, способна обрабатывать различные тенденции
Верификация на множественных наборах данных

Выводы и обсуждение

Основные выводы

Двумерное логнормальное распределение представляет лингвистически обоснованный стохастический принцип, способный моделировать длину конструкций в составляющих и подсоставляющих компонентах
Гауссова копула является эффективным инструментом для моделирования совместного распределения, демонстрируя превосходную производительность при сосредоточении на совместном распределении
Моделирование совместного распределения должно быть приоритизировано перед моделированием среднего значения, обеспечивая больше информации
На практике следует рассмотреть использование робастных параметров маргинальных распределений и коэффициента корреляции

Ограничения

Специфичность уровней: Различные языковые уровни могут требовать различных моделей стохастических процессов
Проблема временной шкалы: Процессы на уровне словаря происходят в ходе языковой эволюции, тогда как процессы на уровне предложения/фразы могут происходить в процессе коммуникации
Выбор модели: Хотя предоставлены различные методы, отсутствуют явные критерии выбора
Ограниченная эмпирическая верификация: Основана главным образом на визуальной подгонке и RSS, не хватает более строгих статистических тестов

Будущие направления

Единая теория: Поиск разумного стохастического процесса, охватывающего все языковые уровни
Альтернативные копулы: Исследование применения копул Гумбеля или Клейтона, но требуется лингвистическая интерпретация
Распределение Пуассона: Исследование применения двумерного распределения Пуассона
Практическое применение: Применение модели к стилометрии или анализу текста

Глубокая оценка

Преимущества

Значительный теоретический вклад: Впервые обеспечен строгий вывод классической модели Альтманна из стохастических процессов
Сильная методологическая инновативность: Применение метода копулы в лингвистике является новаторским
Достаточная эмпирическая верификация: Верификация модели на многоязычных и многоуровневых данных
Интерпретируемость параметров: Решение давно существующей проблемы значения параметров
Ясное изложение: Строгий математический вывод, логичная структура

Недостатки

Недостаточные статистические тесты: Главным образом полагается на визуальное суждение и RSS, не хватает формальных тестов статистической значимости
Ограниченное сравнение моделей: Отсутствие сравнения с более продвинутыми статистическими моделями
Недостаточная теоретическая верификация: Предположение о мультипликативном процессе лишено прямых лингвистических доказательств
Неполная оценка практичности: Недостаточное обсуждение преимуществ модели в практическом применении

Влияние

Высокая теоретическая ценность: Обеспечение теоретической основы для важного закона количественной лингвистики
Методологический вклад: Введение новых методов статистического моделирования
Междисциплинарное значение: Связь статистики и лингвистики
Хорошая воспроизводимость: Подробное описание методов, легко воспроизводимо

Сценарии применения

Исследования в области количественной лингвистики: Предоставление новых инструментов для анализа языковой структуры
Исследования языковой эволюции: Понимание стохастических механизмов языковых изменений
Анализ текста: Применение в стилометрии и идентификации автора
Кросс-языковое сравнение: Обеспечение стандартизированной аналитической схемы

Библиография

Ключевые ссылки включают:

Altmann, G. (1980). Prolegomena to Menzerath's law
Menzerath, P. (1954). Die Architektonik des deutschen Wortschatzes
Torre, I. G., et al. (2021). Can Menzerath's law be a criterion of complexity in communication?
Milička, J. (2023). Menzerath's law: Is it just regression toward the mean?

Данная статья вносит важный теоретический вклад в исследование закона Мензерата, обеспечивая новую перспективу понимания классического закона посредством моделирования стохастических процессов, обладая высокой академической ценностью и практической значимостью.