Simple stochastic processes behind Menzerath's Law
MiliÄka
This paper revisits Menzerath's Law, also known as the Menzerath-Altmann Law, which models a relationship between the length of a linguistic construct and the average length of its constituents. Recent findings indicate that simple stochastic processes can display Menzerathian behaviour, though existing models fail to accurately reflect real-world data. If we adopt the basic principle that a word can change its length in both syllables and phonemes, where the correlation between these variables is not perfect and these changes are of a multiplicative nature, we get bivariate log-normal distribution. The present paper shows, that from this very simple principle, we obtain the classic Altmann model of the Menzerath-Altmann Law. If we model the joint distribution separately and independently from the marginal distributions, we can obtain an even more accurate model by using a Gaussian copula. The models are confronted with empirical data, and alternative approaches are discussed.
academic
Processus stochastiques simples derrière la Loi de Menzerath
Cet article réexamine la loi de Menzerath (également appelée loi de Menzerath-Altmann), qui décrit la relation entre la longueur des constructions linguistiques et la longueur moyenne de leurs composants constitutifs. Les recherches récentes montrent que des processus stochastiques simples peuvent exhiber un comportement de Menzerath, mais les modèles existants ne reflètent pas avec précision les données du monde réel. Si nous adoptons le principe fondamental selon lequel le vocabulaire peut modifier sa longueur selon deux dimensions—les syllabes et les phonèmes—où la corrélation entre ces variables est imparfaite et les variations ont une nature multiplicative, nous obtenons une distribution lognormale bivariée. Cet article démontre que, partant de ce principe très simple, nous pouvons obtenir le modèle classique d'Altmann. Si nous modélisons indépendamment la distribution conjointe et les distributions marginales, nous pouvons obtenir un modèle plus précis en utilisant une copule gaussienne.
Problème à résoudre: La loi de Menzerath est une loi importante en linguistique qui décrit la relation inverse entre la longueur d'une construction linguistique (comme un mot) et la longueur moyenne de ses composants constitutifs. Bien que cette loi soit largement validée empiriquement, elle manque d'une explication théorique satisfaisante et d'une base de processus stochastiques.
Importance du problème: La loi de Menzerath suscite une attention considérable dans la communauté de la linguistique quantitative en raison de son universalité et de sa capacité à intégrer différents niveaux de segmentation dans un cadre unifié. Comprendre les processus stochastiques sous-jacents est important pour la théorie de l'évolution linguistique et la linguistique quantitative.
Limitations des approches existantes:
Les recherches de Torre et al. (2021) montrent que des processus stochastiques simples peuvent exhiber un comportement de Menzerath, mais le modèle ne correspond pas aux données réelles
Le modèle classique d'Altmann (1980) manque de dérivation de processus stochastiques et d'interprétation des paramètres
Les modèles existants se concentrent principalement sur le processus de production de texte, en ignorant les mécanismes de détermination de la longueur du vocabulaire dans l'évolution linguistique
Motivation de la recherche: L'auteur estime que la loi de Menzerath devrait être comprise sous l'angle de l'évolution linguistique plutôt que sous celui de la production de texte, et propose d'expliquer la base du processus stochastique de cette loi par la modélisation de la distribution conjointe.
Contribution théorique: Dérivation du modèle classique d'Altmann à partir de la distribution lognormale bivariée, fournissant une interprétation explicite des paramètres
Innovation méthodologique: Proposition d'utiliser une copule gaussienne pour modéliser séparément la distribution conjointe et les distributions marginales, obtenant un modèle plus précis
Validation empirique: Vérification de l'efficacité du modèle proposé sur plusieurs ensembles de données, incluant différentes langues et niveaux linguistiques
Intuition théorique: Explication du phénomène des valeurs négatives du paramètre b dans la loi de Menzerath (tendance de croissance)
Étudier la distribution conjointe entre la longueur des constructions linguistiques (comme le nombre de syllabes x d'un mot) et la longueur de leurs composants constitutifs (comme le nombre de phonèmes y), et en dériver la forme de la loi de Menzerath.
Principe fondamental: Supposer que les variations de longueur du vocabulaire ont une nature multiplicative, c'est-à-dire que les mots longs sont plus susceptibles de subir des variations de longueur que les mots courts.
Dérivation mathématique:
Commencer par une régression linéaire avec transformation logarithmique:
log z = α + β log x
où z = xy
Interprétation des paramètres:
β = ρ_log x,log z × (s_log z / s_log x)
α = log z̅ - β log x̅
Approche de conception: Découpler la distribution conjointe et les distributions marginales, en se concentrant sur la modélisation de la corrélation entre les variables.
Méthode de mise en œuvre:
Utiliser la fonction copule pour connecter les distributions marginales
Nécessiter uniquement les distributions marginales et le coefficient de corrélation pour l'ajustement
Capable de gérer les tendances de croissance et de décroissance
Hypothèse de processus multiplicatif: Contrairement aux modèles additifs traditionnels, proposer que les variations de longueur du vocabulaire suivent une loi multiplicative
Perspective de distribution conjointe: Comprendre la loi de Menzerath sous l'angle de la distribution conjointe plutôt que de l'espérance conditionnelle
Interprétabilité des paramètres: Fournir une interprétation statistique explicite des paramètres du modèle classique d'Altmann
Flexibilité du modèle: Capable de gérer les tendances positives et négatives, résolvant les limitations des modèles traditionnels
Interprétation des paramètres négatifs: Lorsque β > 1, le paramètre b est négatif, entraînant une tendance de croissance, ce qui existe effectivement dans les données empiriques
Limitations de la méthode de frontière segmentée: Bien que théoriquement plus propre, les performances pratiques sont inférieures à la méthode de segmentation originale
Effet de la transformation logarithmique: L'application de la transformation logarithmique sur la copule n'a pas apporté d'amélioration
La distribution lognormale bivariée représente un principe stochastique linguistiquement raisonnable, capable de modéliser la longueur des constructions selon leurs composants et sous-composants constitutifs
La copule gaussienne est un outil efficace pour modéliser la distribution conjointe, avec une performance excellente lorsqu'on se concentre sur la distribution conjointe
La modélisation de la distribution conjointe devrait être privilégiée par rapport à la modélisation de la moyenne, fournissant plus d'informations
En pratique, il convient de considérer l'utilisation de paramètres de modèle robustes des distributions marginales et du coefficient de corrélation
Spécificité des niveaux: Différents niveaux linguistiques peuvent nécessiter des modèles de processus stochastiques différents
Problème d'échelle temporelle: Le processus au niveau du vocabulaire se produit au cours de l'évolution linguistique, tandis que celui au niveau clause/phrase peut se produire au cours du processus de communication
Sélection du modèle: Bien que plusieurs méthodes soient proposées, il manque des critères de sélection explicites
Validation empirique limitée: Basée principalement sur l'ajustement visuel et RSS, manquant de tests statistiques plus rigoureux
Altmann, G. (1980). Prolegomena to Menzerath's law
Menzerath, P. (1954). Die Architektonik des deutschen Wortschatzes
Torre, I. G., et al. (2021). Can Menzerath's law be a criterion of complexity in communication?
Milička, J. (2023). Menzerath's law: Is it just regression toward the mean?
Cet article apporte une contribution théorique importante à la recherche sur la loi de Menzerath, fournissant une nouvelle perspective de compréhension de cette loi classique par la modélisation de processus stochastiques, possédant une valeur académique et une signification pratique considérables.