2025-11-17T03:07:13.875020

Simple stochastic processes behind Menzerath's Law

MiliÄka

This paper revisits Menzerath's Law, also known as the Menzerath-Altmann Law, which models a relationship between the length of a linguistic construct and the average length of its constituents. Recent findings indicate that simple stochastic processes can display Menzerathian behaviour, though existing models fail to accurately reflect real-world data. If we adopt the basic principle that a word can change its length in both syllables and phonemes, where the correlation between these variables is not perfect and these changes are of a multiplicative nature, we get bivariate log-normal distribution. The present paper shows, that from this very simple principle, we obtain the classic Altmann model of the Menzerath-Altmann Law. If we model the joint distribution separately and independently from the marginal distributions, we can obtain an even more accurate model by using a Gaussian copula. The models are confronted with empirical data, and alternative approaches are discussed.

academic

Processus stochastiques simples derrière la Loi de Menzerath

Informations fondamentales

ID de l'article: 2409.00279
Titre: Simple stochastic processes behind Menzerath's Law
Auteur: Jiří Milička (Université Charles, Prague, République Tchèque)
Classification: cs.CL (Linguistique computationnelle)
Date de publication/Conférence: QUALICO 2023, Lausanne
Lien de l'article: https://arxiv.org/abs/2409.00279

Résumé

Cet article réexamine la loi de Menzerath (également appelée loi de Menzerath-Altmann), qui décrit la relation entre la longueur des constructions linguistiques et la longueur moyenne de leurs composants constitutifs. Les recherches récentes montrent que des processus stochastiques simples peuvent exhiber un comportement de Menzerath, mais les modèles existants ne reflètent pas avec précision les données du monde réel. Si nous adoptons le principe fondamental selon lequel le vocabulaire peut modifier sa longueur selon deux dimensions—les syllabes et les phonèmes—où la corrélation entre ces variables est imparfaite et les variations ont une nature multiplicative, nous obtenons une distribution lognormale bivariée. Cet article démontre que, partant de ce principe très simple, nous pouvons obtenir le modèle classique d'Altmann. Si nous modélisons indépendamment la distribution conjointe et les distributions marginales, nous pouvons obtenir un modèle plus précis en utilisant une copule gaussienne.

Contexte et motivation de la recherche

Problème à résoudre: La loi de Menzerath est une loi importante en linguistique qui décrit la relation inverse entre la longueur d'une construction linguistique (comme un mot) et la longueur moyenne de ses composants constitutifs. Bien que cette loi soit largement validée empiriquement, elle manque d'une explication théorique satisfaisante et d'une base de processus stochastiques.
Importance du problème: La loi de Menzerath suscite une attention considérable dans la communauté de la linguistique quantitative en raison de son universalité et de sa capacité à intégrer différents niveaux de segmentation dans un cadre unifié. Comprendre les processus stochastiques sous-jacents est important pour la théorie de l'évolution linguistique et la linguistique quantitative.
Limitations des approches existantes:
- Les recherches de Torre et al. (2021) montrent que des processus stochastiques simples peuvent exhiber un comportement de Menzerath, mais le modèle ne correspond pas aux données réelles
- Le modèle classique d'Altmann (1980) manque de dérivation de processus stochastiques et d'interprétation des paramètres
- Les modèles existants se concentrent principalement sur le processus de production de texte, en ignorant les mécanismes de détermination de la longueur du vocabulaire dans l'évolution linguistique
Motivation de la recherche: L'auteur estime que la loi de Menzerath devrait être comprise sous l'angle de l'évolution linguistique plutôt que sous celui de la production de texte, et propose d'expliquer la base du processus stochastique de cette loi par la modélisation de la distribution conjointe.

Contributions principales

Contribution théorique: Dérivation du modèle classique d'Altmann à partir de la distribution lognormale bivariée, fournissant une interprétation explicite des paramètres
Innovation méthodologique: Proposition d'utiliser une copule gaussienne pour modéliser séparément la distribution conjointe et les distributions marginales, obtenant un modèle plus précis
Validation empirique: Vérification de l'efficacité du modèle proposé sur plusieurs ensembles de données, incluant différentes langues et niveaux linguistiques
Intuition théorique: Explication du phénomène des valeurs négatives du paramètre b dans la loi de Menzerath (tendance de croissance)

Détails méthodologiques

Définition de la tâche

Étudier la distribution conjointe entre la longueur des constructions linguistiques (comme le nombre de syllabes x d'un mot) et la longueur de leurs composants constitutifs (comme le nombre de phonèmes y), et en dériver la forme de la loi de Menzerath.

Architecture du modèle

1. Modèle de distribution lognormale bivariée

Principe fondamental: Supposer que les variations de longueur du vocabulaire ont une nature multiplicative, c'est-à-dire que les mots longs sont plus susceptibles de subir des variations de longueur que les mots courts.

Dérivation mathématique:

Commencer par une régression linéaire avec transformation logarithmique:

log z = α + β log x

où z = xy

Interprétation des paramètres:

β = ρ_log x,log z × (s_log z / s_log x)
α = log z̅ - β log x̅

Dérivation du modèle classique d'Altmann:

y = ax^(-b)

où:

b = 1 - β = 1 - ρ_log x,log xy × (s_log xy / s_log x)
a = log xy̅ - (1-b) log x̅

2. Modèle de copule gaussienne

Approche de conception: Découpler la distribution conjointe et les distributions marginales, en se concentrant sur la modélisation de la corrélation entre les variables.

Méthode de mise en œuvre:

Utiliser la fonction copule pour connecter les distributions marginales
Nécessiter uniquement les distributions marginales et le coefficient de corrélation pour l'ajustement
Capable de gérer les tendances de croissance et de décroissance

3. Modèle de frontière segmentée

Motivation: Traiter les régions vides de la distribution conjointe (par exemple, un mot avec 3 syllabes et 2 phonèmes est impossible)

Formule de transformation:

x' = x - 1  (nombre de frontières syllabiques)
y' = y - x  (nombre de frontières de phonèmes non syllabiques)

Points d'innovation technique

Hypothèse de processus multiplicatif: Contrairement aux modèles additifs traditionnels, proposer que les variations de longueur du vocabulaire suivent une loi multiplicative
Perspective de distribution conjointe: Comprendre la loi de Menzerath sous l'angle de la distribution conjointe plutôt que de l'espérance conditionnelle
Interprétabilité des paramètres: Fournir une interprétation statistique explicite des paramètres du modèle classique d'Altmann
Flexibilité du modèle: Capable de gérer les tendances positives et négatives, résolvant les limitations des modèles traditionnels

Configuration expérimentale

Ensembles de données

Données originales de Menzerath (1954): Relation syllabe-phonème du vocabulaire allemand
Données grecques (Mikros & Milička 2014): Niveaux phonème-syllabe-mot
Données tchèques (Milička 2015):
- Niveaux phonème-morphème-mot
- Niveaux morphème-mot-clause
- Niveaux mot-clause-phrase
Données arabes (Milička 2015):
- Niveaux phonème-morphème-mot
- Niveaux morphème-mot-clause

Indicateurs d'évaluation

Somme des carrés des résidus (RSS): Utilisée pour comparer l'ajustement sur des ensembles de données de longueur égale
Qualité d'ajustement visuelle: Comparaison graphique de la correspondance entre le modèle et les données empiriques

Méthodes de comparaison

Modèle classique d'Altmann: y = ax^(-b)
Modèle hyperbolique: y = a/x + b
Modèle de distribution normale bivariée

Résultats expérimentaux

Résultats principaux

Distribution lognormale bivariée:
- Dérivation réussie de la forme du modèle classique d'Altmann
- Fourniture d'une interprétation statistique des paramètres
- Ajustement visuel satisfaisant aux données empiriques
Modèle de copule gaussienne:
- Performance excellente sur plusieurs ensembles de données
- Capable de gérer les tendances de croissance et de décroissance
- L'indicateur RSS montre un bon ajustement
Validation multilingue:
- Efficacité confirmée en allemand, grec, tchèque et arabe
- Applicabilité à différents niveaux linguistiques (phonème, syllabe, morphème, mot, clause, phrase)

Découvertes importantes

Interprétation des paramètres négatifs: Lorsque β > 1, le paramètre b est négatif, entraînant une tendance de croissance, ce qui existe effectivement dans les données empiriques
Limitations de la méthode de frontière segmentée: Bien que théoriquement plus propre, les performances pratiques sont inférieures à la méthode de segmentation originale
Effet de la transformation logarithmique: L'application de la transformation logarithmique sur la copule n'a pas apporté d'amélioration

Analyse de cas

L'article présente les résultats d'ajustement de 8 ensembles de données différents, incluant:

Visualisation de la distribution conjointe complète
Comparaison des courbes de la loi de Menzerath
Comparaison RSS avec le modèle classique

Travaux connexes

Principaux courants de recherche

Menzerath (1954): Proposition initiale de la loi, mesure de la distribution conjointe
Altmann (1980): Formalisation de la loi et proposition de la formule classique
Torre et al. (2021): Démonstration que des processus stochastiques simples peuvent exhiber un comportement de Menzerath
Milička (2023): Proposition d'une explication par régression vers la moyenne

Avantages relatifs de cet article

Fourniture d'une base de processus stochastiques pour le modèle classique
Les paramètres ont une signification statistique explicite
Le modèle est plus flexible et peut gérer diverses tendances
Validation sur plusieurs ensembles de données

Conclusions et discussion

Conclusions principales

La distribution lognormale bivariée représente un principe stochastique linguistiquement raisonnable, capable de modéliser la longueur des constructions selon leurs composants et sous-composants constitutifs
La copule gaussienne est un outil efficace pour modéliser la distribution conjointe, avec une performance excellente lorsqu'on se concentre sur la distribution conjointe
La modélisation de la distribution conjointe devrait être privilégiée par rapport à la modélisation de la moyenne, fournissant plus d'informations
En pratique, il convient de considérer l'utilisation de paramètres de modèle robustes des distributions marginales et du coefficient de corrélation

Limitations

Spécificité des niveaux: Différents niveaux linguistiques peuvent nécessiter des modèles de processus stochastiques différents
Problème d'échelle temporelle: Le processus au niveau du vocabulaire se produit au cours de l'évolution linguistique, tandis que celui au niveau clause/phrase peut se produire au cours du processus de communication
Sélection du modèle: Bien que plusieurs méthodes soient proposées, il manque des critères de sélection explicites
Validation empirique limitée: Basée principalement sur l'ajustement visuel et RSS, manquant de tests statistiques plus rigoureux

Directions futures

Théorie unifiée: Recherche d'un processus stochastique raisonnable pouvant couvrir tous les niveaux linguistiques
Autres copules: Exploration des copules de Gumbel ou Clayton, nécessitant cependant une interprétation linguistique
Distribution de Poisson: Exploration de l'application de la distribution de Poisson bivariée
Applications pratiques: Application du modèle à la stylométrie ou à l'analyse de texte

Évaluation approfondie

Points forts

Contribution théorique significative: Première dérivation rigoureuse d'un processus stochastique pour le modèle classique d'Altmann
Innovation méthodologique forte: Application pionnière de la méthode copule en linguistique
Validation empirique suffisante: Vérification de l'efficacité du modèle sur des données multilingues et multi-niveaux
Interprétabilité des paramètres: Résolution du problème de longue date concernant la signification des paramètres
Rédaction claire: Dérivation mathématique rigoureuse et logique claire

Insuffisances

Tests statistiques insuffisants: Dépendance principalement sur le jugement visuel et RSS, manquant de tests de signification statistique formels
Comparaison de modèles limitée: Pas de comparaison avec plus de modèles statistiques avancés
Vérification théorique insuffisante: L'hypothèse de processus multiplicatif manque de preuves linguistiques directes
Évaluation de l'applicabilité pratique: Discussion insuffisante des avantages du modèle dans les applications pratiques

Impact

Valeur théorique élevée: Fourniture d'une base théorique pour une loi importante de la linguistique quantitative
Contribution méthodologique: Introduction de nouvelles méthodes de modélisation statistique
Signification interdisciplinaire: Connexion entre statistique et linguistique
Bonne reproductibilité: Description détaillée des méthodes, facile à reproduire

Scénarios d'application

Recherche en linguistique quantitative: Fourniture de nouveaux outils pour l'analyse de la structure linguistique
Recherche sur l'évolution linguistique: Compréhension des mécanismes stochastiques du changement linguistique
Analyse de texte: Utilisation possible en stylométrie et identification d'auteur
Comparaison multilingue: Fourniture d'un cadre d'analyse standardisé

Références bibliographiques

Les références clés incluent:

Altmann, G. (1980). Prolegomena to Menzerath's law
Menzerath, P. (1954). Die Architektonik des deutschen Wortschatzes
Torre, I. G., et al. (2021). Can Menzerath's law be a criterion of complexity in communication?
Milička, J. (2023). Menzerath's law: Is it just regression toward the mean?

Cet article apporte une contribution théorique importante à la recherche sur la loi de Menzerath, fournissant une nouvelle perspective de compréhension de cette loi classique par la modélisation de processus stochastiques, possédant une valeur académique et une signification pratique considérables.