2025-11-12T12:19:10.304562

Fair Ordering

Haseeb, Geng, Mittal et al.

A growing class of applications demands \emph{fair ordering/sequencing} of events which ensures that events generated earlier by one client are processed before later events from other clients. However, achieving such sequencing is fundamentally challenging due to the inherent limitations of clock synchronization. We advocate for an approach that embraces, rather than eliminates, clock variability. Instead of attempting to remove error from a timestamp, Tommy, our proposed system, leverages a statistical model to compare two noisy timestamps probabilistically by learning per-clock offset distributions. Our preliminary statistical model computes the probability that one event precedes another w.r.t. the wall-clock time without access to the wall-clock. This serves as a foundation for a new relation: \emph{likely-happened-before} denoted by $\xrightarrow{p}$ where $p$ represents the probability of an event to have happened before another. The $\xrightarrow{p}$ relation provides a basis for ordering multiple events which are otherwise considered \emph{concurrent} by the typical \emph{happened-before} ($\rightarrow$) relation. We highlight various related challenges including intransitivity of $\xrightarrow{p}$ relation as opposed to the transitive $\rightarrow$ relation. We also outline several research directions: online fair sequencing, stochastically fair total ordering, host-level support for fairness and more.

academic

Au-delà de Lamport, Vers un Ordonnancement Équitable Probabiliste

Informations Fondamentales

ID de l'article: 2510.13664
Titre: Beyond Lamport, Towards Probabilistic Fair Ordering
Auteurs: Muhammad Haseeb, Jinkun Geng, Radhika Mittal, Aurojit Panda, Srinivas Narayana, Anirudh Sivaraman
Classification: cs.NI (Réseaux informatiques)
Date de publication: 15 octobre 2025 (prépublication arXiv)
Lien de l'article: https://arxiv.org/abs/2510.13664v1

Résumé

Cet article aborde les défis de l'ordonnancement équitable (fair ordering) dans les systèmes distribués en proposant une nouvelle approche qui embrasse plutôt qu'elle n'élimine la variabilité des horloges. Les auteurs conçoivent le système Tommy, qui apprend la distribution des décalages de chaque horloge et utilise des modèles statistiques pour effectuer des comparaisons probabilistes d'horodatages bruyants. L'innovation centrale est l'introduction de la relation « likely-happened-before » ( $\xrightarrow{p}$ ), où $p$ représente la probabilité qu'un événement se soit produit avant un autre. Cette relation permet d'ordonner les événements que la relation happened-before classique ( $\rightarrow$ ) considère comme concurrents, mais introduit également de nouveaux défis tels que la non-transitivité.

Contexte et Motivation de la Recherche

1. Définition du Problème

L'ordonnancement équitable dans les systèmes distribués exige de garantir que les événements générés plus tôt par un client soient traités avant les événements générés plus tard par d'autres clients. Ceci est crucial dans les applications compétitives telles que les bourses financières et les bourses publicitaires, collectivement désignées sous le terme « auction-apps ».

2. Importance du Problème

Équité financière: Dans les transactions financières, l'ordre de traitement des messages affecte directement les résultats des transactions, et un ordonnancement inéquitable peut entraîner des pertes économiques massives
Besoins de migration vers le cloud: Les bourses financières traditionnelles utilisent une infrastructure dédiée pour assurer l'équité, mais la migration vers le cloud public nécessite de nouvelles primitives réseau
Élargissement du champ d'application: Au-delà des transactions financières, les marchés compétitifs, les échanges NFT et les achats de produits en quantité limitée nécessitent tous un ordonnancement équitable

3. Limitations des Approches Existantes

Hypothèse de synchronisation d'horloge parfaite: Les solutions existantes supposent une synchronisation d'horloge quasi-parfaite, ce qui n'est pas réalisable dans les réseaux asynchrones réels
Dépendance à une infrastructure spécialisée: Les approches traditionnelles nécessitent des câbles de longueur égale, des commutateurs à faible gigue et d'autres matériels propriétaires
Couplage applicatif: Certaines solutions sont étroitement couplées à la logique applicative spécifique, ce qui rend leur généralisation difficile

4. Défi Fondamental

Limitation fondamentale de la synchronisation d'horloge: dans un réseau asynchrone ou à synchronisation bornée, la précision de synchronisation d'horloge pour $n$ processus ne peut pas dépasser $u(1-1/n)$ , où $u$ représente l'incertitude du délai de liaison.

Contributions Principales

Nouvelle définition de relation: Introduction de la relation likely-happened-before ( $\xrightarrow{p}$ ), qui étend la relation happened-before de Lamport
Modèle statistique: Conception d'une méthode de comparaison probabiliste d'horodatages basée sur la distribution des décalages d'horloge
Système Tommy: Implémentation d'un prototype d'ordonnanceur équitable sans nécessiter une synchronisation d'horloge parfaite
Analyse théorique: Preuve de la transitivité de la relation probabiliste sous distribution gaussienne
Directions de recherche: Proposition de plusieurs directions de recherche incluant l'ordonnancement équitable en ligne et l'ordre total équitable aléatoire

Détails de la Méthode

Définition de la Tâche

Définition de l'ordonnancement équitable: L'ordre dans lequel le serveur voit les messages doit correspondre à l'ordre observé par un observateur omniscient.

Entrée: Flux de messages clients avec horodatages locaux Sortie: Lots de messages ordonnés équitablement selon leur heure de génération Contrainte: Pas d'accès à une horloge globale, utilisation uniquement de la synchronisation d'horloge au mieux

Architecture du Modèle

1. Modèle Système

Chaque client $i$ envoie un message avec horodatage $T_i$
Horodatage réel: $T_i^* = T_i + \theta_i$ , où $\theta_i$ est le décalage d'horloge
Le décalage $\theta_i$ suit une distribution de probabilité $f_{\theta_i}$

2. Calcul Probabiliste

Probabilité de l'ordre de deux événements: $P(T_i^* < T_j^* | T_i, T_j) = P(\theta_j - \theta_i > T_i - T_j)$

En définissant $\Delta\theta = \theta_j - \theta_i \sim f_{\Delta\theta}$ , on obtient: $P(T_i^* < T_j^* | T_i, T_j) = \int_{T_i-T_j}^{\infty} f_{\Delta\theta}d\Delta$

3. Solution en Forme Fermée pour le Cas Gaussien

Pour les erreurs distribuées selon des lois gaussiennes indépendantes: $P(T_i^* < T_j^* | T_i, T_j) = \Phi\left(\frac{T_j-T_i+(\mu_i-\mu_j)}{\sqrt{\sigma_i^2+\sigma_j^2}}\right)$

où $\Phi(x)$ est la fonction de répartition cumulative de la distribution normale standard.

4. Traitement des Distributions Arbitraires

Apprentissage côté client: Chaque client apprend sa propre distribution de décalage $f_{\theta_i}$
Calcul de convolution: L'ordonnanceur calcule $f_{\Delta\theta}$ par convolution
Optimisation FFT: Utilisation de la transformée de Fourier rapide pour optimiser le calcul de convolution

Points d'Innovation Technique

1. Construction de Relation Probabiliste

Modélisation des messages comme nœuds dans un graphe, avec les relations $\xrightarrow{p}$ comme arêtes dirigées pondérées par $p$ . Pour chaque paire de nœuds, on conserve l'arête avec le poids le plus élevé.

2. Algorithme d'Ordonnancement Équitable

Cas transitif: Le graphe forme un tournoi transitif avec un ordre topologique unique
Cas non-transitif: Possibilité de cycles, nécessitant suppression d'arêtes ou ajustement probabiliste

3. Formation de Lots

Création de frontières de lots selon un seuil $threshold$ :

Si $i \xrightarrow{p} j$ et $p > threshold$ , création d'une frontière de lot entre $i$ et $j$
Les messages dont l'ordre ne peut pas être confirmé sont regroupés dans le même lot

4. Ordonnancement en Ligne

Garantie de complétude: Attendre que tous les clients envoient des messages avec horodatage supérieur à $t$
Émission sécurisée: Calcul d'un temps futur $T_i^B$ tel que $P(T_i^* < T_i^B) > p_{safe}$

Configuration Expérimentale

Ensemble de Données

Environnement simulé: 500 clients, chacun doté d'une distribution de décalage d'horloge gaussienne $\mathcal{N}(\mu, \sigma^2)$
Génération d'horodatages: Les clients lisent l'horloge murale $t$ , échantillonnent le bruit $\epsilon$ , marquent le message comme $T = t + \epsilon$
Collecte de vérité terrain: Collecte d'horodatages de vérité terrain pour l'évaluation

Métriques d'Évaluation

Score de Cohérence de Classement (RAS):

Paires de messages correctement ordonnées: +1 point
Paires de messages incorrectement ordonnées: -1 point
Paires indifférentes (même lot): 0 point

Méthodes de Comparaison

Ligne de base TrueTime: Simulation de Spanner TrueTime, où chaque message se voit attribuer un intervalle d'incertitude $[T-3\sigma, T+3\sigma]$ , les intervalles qui se chevauchent reçoivent le même classement.

Détails d'Implémentation

Réglage du seuil: $threshold = 0.75$
Mode d'évaluation: Ordonnancement hors ligne (ordonnancement après l'arrivée de tous les messages)
Variables contrôlées: Écart-type de l'erreur d'horloge, intervalle entre les messages

Résultats Expérimentaux

Résultats Principaux

La figure 5 montre les performances de Tommy par rapport à TrueTime:

Faible erreur d'horloge: Les deux systèmes affichent des performances comparables
Erreur d'horloge élevée ou petit intervalle entre messages: Tommy surpasse significativement TrueTime
Incertitude extrêmement élevée: La nature probabiliste de Tommy peut entraîner un RAS négatif, tandis que TrueTime maintient un score conservateur de 0

Découvertes Clés

Avantage d'adaptabilité: Tommy affiche de meilleures performances lorsque la qualité de la synchronisation d'horloge est médiocre
Coût probabiliste: Une incertitude élevée peut entraîner un ordonnancement incorrect
Compromis de seuil: Le choix du seuil affecte la taille des lots et la confiance dans l'équité

Travaux Connexes

Bourses Électroniques dans le Cloud

Onyx: Ordonnanceur WFO supposant que l'erreur de synchronisation d'horloge est négligeable
CloudEx, DBO: Bourses financières pour environnement cloud, mais dépendant d'hypothèses fortes

Bourses Traditionnelles

Solutions d'ingénierie utilisant des câbles de longueur égale et des commutateurs à faible gigue, où le traitement par ordre d'arrivée équivaut à un ordonnancement par heure de génération.

Tolérance aux Défaillances Byzantines

Pompe: Mécanisme de consensus limitant l'influence des nœuds byzantins sur l'ordre des événements, mais incapable d'imposer un ordonnancement équitable.

Analyse Théorique

Preuve de Transitivité

Proposition 1: Pour les variables aléatoires normales indépendantes $X \sim \mathcal{N}(\mu_X, \sigma_X^2)$ , $Y \sim \mathcal{N}(\mu_Y, \sigma_Y^2)$ , $Z \sim \mathcal{N}(\mu_Z, \sigma_Z^2)$ , en définissant la relation de préférence $X \succ Y \Leftrightarrow \Pr[X > Y] > \frac{1}{2}$ , alors $\succ$ est transitive.

Points clés de la preuve: $\Pr[A > B] > \frac{1}{2} \Leftrightarrow \mu_A > \mu_B$

En raison de la transitivité des moyennes, la relation probabiliste est également transitive.

Défis de Non-Transitivité

Pour les distributions arbitraires, la transitivité n'est pas garantie et des cycles du type $A \succ B$ , $B \succ C$ , $C \succ A$ peuvent apparaître, similaires au phénomène « pierre-papier-ciseaux ».

Directions de Recherche Future

1. Caractérisation des Relations

Étude des conditions de distribution rendant la relation $\xrightarrow{p}$ transitive
Développement de méthodes de transformation pour gérer la non-transitivité

2. Variabilité du Réseau Hôte

Étude de l'impact de la gigue du chemin de données hôte sur l'accès à l'horloge et les délais d'envoi de messages.

3. Extension à l'Ordre Total Équitable

Extension de l'ordre partiel équitable à un ordre total équitable, étude des mécanismes d'équité aléatoire.

4. Apprentissage du Décalage d'Horloge

Développement de mécanismes robustes d'apprentissage de la distribution des décalages d'horloge, gestion des conditions anormales comme les variations de température.

5. Clients Byzantins

Étude des garanties d'équité en cas de défaillances byzantines, prévention des attaques par manipulation d'horodatage.

Conclusion et Discussion

Conclusions Principales

Innovation conceptuelle: La relation likely-happened-before offre une nouvelle perspective pour l'ordonnancement des événements concurrents
Valeur pratique: Tommy surpasse les méthodes traditionnelles dans les conditions réelles de synchronisation d'horloge
Fondation théorique: La transitivité sous distribution gaussienne fournit un support théorique à la méthode

Limitations

Hypothèse de transitivité: La conception actuelle suppose la transitivité, les cas non-transitifs nécessitant une recherche approfondie
Évaluation hors ligne: Les expériences évaluent uniquement l'ordonnancement hors ligne, les performances en ligne restant à vérifier
Hypothèse de distribution: L'hypothèse de distribution gaussienne peut ne pas s'appliquer à tous les scénarios réels
Tolérance aux défaillances byzantines: Absence de mécanismes de protection contre les clients malveillants

Évaluation de l'Impact

Points Forts

Contribution théorique: Extension de la relation classique happened-before
Orientation pratique: Résolution de problèmes réels dans la migration vers le cloud
Cadre générique: Support de distributions arbitraires de décalage d'horloge
Avantage de performance: Surpasse les méthodes existantes dans les conditions réelles

Insuffisances

Complétude incomplète: Solution incomplète pour le traitement de la non-transitivité
Analyse de sécurité: Manque d'analyse approfondie des menaces de sécurité
Limitations expérimentales: Uniquement des expériences simulées, absence de vérification sur systèmes réels

Scénarios d'Application

Systèmes de transactions financières déployés sur plusieurs centres de données
Systèmes d'enchères avec exigences strictes d'équité
Applications nécessitant un ordonnancement équitable sur une infrastructure réseau générique

Valeur de Recherche

Cet article propose de manière novatrice une approche d'ordonnancement équitable probabiliste, offrant une nouvelle direction de résolution pour les problèmes d'équité dans les systèmes distribués. Bien que présentant certains défis théoriques et d'implémentation, son idée centrale possède une valeur académique importante et un potentiel pratique considérable, jetant les bases pour les recherches ultérieures.

Références Bibliographiques

Les références clés incluent:

Lamport, L. "Time, clocks, and the ordering of events in a distributed system" (relation classique happened-before)
Corbett, J.C. et al. "Spanner: Google's globally distributed database" (mécanisme TrueTime)
Ghalayini, A. et al. "Cloudex: A fair-access financial exchange in the cloud" (travaux connexes sur les bourses électroniques)