2025-11-12T12:19:10.304562

Fair Ordering

Haseeb, Geng, Mittal et al.
A growing class of applications demands \emph{fair ordering/sequencing} of events which ensures that events generated earlier by one client are processed before later events from other clients. However, achieving such sequencing is fundamentally challenging due to the inherent limitations of clock synchronization. We advocate for an approach that embraces, rather than eliminates, clock variability. Instead of attempting to remove error from a timestamp, Tommy, our proposed system, leverages a statistical model to compare two noisy timestamps probabilistically by learning per-clock offset distributions. Our preliminary statistical model computes the probability that one event precedes another w.r.t. the wall-clock time without access to the wall-clock. This serves as a foundation for a new relation: \emph{likely-happened-before} denoted by $\xrightarrow{p}$ where $p$ represents the probability of an event to have happened before another. The $\xrightarrow{p}$ relation provides a basis for ordering multiple events which are otherwise considered \emph{concurrent} by the typical \emph{happened-before} ($\rightarrow$) relation. We highlight various related challenges including intransitivity of $\xrightarrow{p}$ relation as opposed to the transitive $\rightarrow$ relation. We also outline several research directions: online fair sequencing, stochastically fair total ordering, host-level support for fairness and more.
academic

Au-delà de Lamport, Vers un Ordonnancement Équitable Probabiliste

Informations Fondamentales

  • ID de l'article: 2510.13664
  • Titre: Beyond Lamport, Towards Probabilistic Fair Ordering
  • Auteurs: Muhammad Haseeb, Jinkun Geng, Radhika Mittal, Aurojit Panda, Srinivas Narayana, Anirudh Sivaraman
  • Classification: cs.NI (Réseaux informatiques)
  • Date de publication: 15 octobre 2025 (prépublication arXiv)
  • Lien de l'article: https://arxiv.org/abs/2510.13664v1

Résumé

Cet article aborde les défis de l'ordonnancement équitable (fair ordering) dans les systèmes distribués en proposant une nouvelle approche qui embrasse plutôt qu'elle n'élimine la variabilité des horloges. Les auteurs conçoivent le système Tommy, qui apprend la distribution des décalages de chaque horloge et utilise des modèles statistiques pour effectuer des comparaisons probabilistes d'horodatages bruyants. L'innovation centrale est l'introduction de la relation « likely-happened-before » (p\xrightarrow{p}), où pp représente la probabilité qu'un événement se soit produit avant un autre. Cette relation permet d'ordonner les événements que la relation happened-before classique (\rightarrow) considère comme concurrents, mais introduit également de nouveaux défis tels que la non-transitivité.

Contexte et Motivation de la Recherche

1. Définition du Problème

L'ordonnancement équitable dans les systèmes distribués exige de garantir que les événements générés plus tôt par un client soient traités avant les événements générés plus tard par d'autres clients. Ceci est crucial dans les applications compétitives telles que les bourses financières et les bourses publicitaires, collectivement désignées sous le terme « auction-apps ».

2. Importance du Problème

  • Équité financière: Dans les transactions financières, l'ordre de traitement des messages affecte directement les résultats des transactions, et un ordonnancement inéquitable peut entraîner des pertes économiques massives
  • Besoins de migration vers le cloud: Les bourses financières traditionnelles utilisent une infrastructure dédiée pour assurer l'équité, mais la migration vers le cloud public nécessite de nouvelles primitives réseau
  • Élargissement du champ d'application: Au-delà des transactions financières, les marchés compétitifs, les échanges NFT et les achats de produits en quantité limitée nécessitent tous un ordonnancement équitable

3. Limitations des Approches Existantes

  • Hypothèse de synchronisation d'horloge parfaite: Les solutions existantes supposent une synchronisation d'horloge quasi-parfaite, ce qui n'est pas réalisable dans les réseaux asynchrones réels
  • Dépendance à une infrastructure spécialisée: Les approches traditionnelles nécessitent des câbles de longueur égale, des commutateurs à faible gigue et d'autres matériels propriétaires
  • Couplage applicatif: Certaines solutions sont étroitement couplées à la logique applicative spécifique, ce qui rend leur généralisation difficile

4. Défi Fondamental

Limitation fondamentale de la synchronisation d'horloge: dans un réseau asynchrone ou à synchronisation bornée, la précision de synchronisation d'horloge pour nn processus ne peut pas dépasser u(11/n)u(1-1/n), où uu représente l'incertitude du délai de liaison.

Contributions Principales

  1. Nouvelle définition de relation: Introduction de la relation likely-happened-before (p\xrightarrow{p}), qui étend la relation happened-before de Lamport
  2. Modèle statistique: Conception d'une méthode de comparaison probabiliste d'horodatages basée sur la distribution des décalages d'horloge
  3. Système Tommy: Implémentation d'un prototype d'ordonnanceur équitable sans nécessiter une synchronisation d'horloge parfaite
  4. Analyse théorique: Preuve de la transitivité de la relation probabiliste sous distribution gaussienne
  5. Directions de recherche: Proposition de plusieurs directions de recherche incluant l'ordonnancement équitable en ligne et l'ordre total équitable aléatoire

Détails de la Méthode

Définition de la Tâche

Définition de l'ordonnancement équitable: L'ordre dans lequel le serveur voit les messages doit correspondre à l'ordre observé par un observateur omniscient.

Entrée: Flux de messages clients avec horodatages locaux Sortie: Lots de messages ordonnés équitablement selon leur heure de génération Contrainte: Pas d'accès à une horloge globale, utilisation uniquement de la synchronisation d'horloge au mieux

Architecture du Modèle

1. Modèle Système

  • Chaque client ii envoie un message avec horodatage TiT_i
  • Horodatage réel: Ti=Ti+θiT_i^* = T_i + \theta_i, où θi\theta_i est le décalage d'horloge
  • Le décalage θi\theta_i suit une distribution de probabilité fθif_{\theta_i}

2. Calcul Probabiliste

Probabilité de l'ordre de deux événements: P(Ti<TjTi,Tj)=P(θjθi>TiTj)P(T_i^* < T_j^* | T_i, T_j) = P(\theta_j - \theta_i > T_i - T_j)

En définissant Δθ=θjθifΔθ\Delta\theta = \theta_j - \theta_i \sim f_{\Delta\theta}, on obtient: P(Ti<TjTi,Tj)=TiTjfΔθdΔP(T_i^* < T_j^* | T_i, T_j) = \int_{T_i-T_j}^{\infty} f_{\Delta\theta}d\Delta

3. Solution en Forme Fermée pour le Cas Gaussien

Pour les erreurs distribuées selon des lois gaussiennes indépendantes: P(Ti<TjTi,Tj)=Φ(TjTi+(μiμj)σi2+σj2)P(T_i^* < T_j^* | T_i, T_j) = \Phi\left(\frac{T_j-T_i+(\mu_i-\mu_j)}{\sqrt{\sigma_i^2+\sigma_j^2}}\right)

Φ(x)\Phi(x) est la fonction de répartition cumulative de la distribution normale standard.

4. Traitement des Distributions Arbitraires

  • Apprentissage côté client: Chaque client apprend sa propre distribution de décalage fθif_{\theta_i}
  • Calcul de convolution: L'ordonnanceur calcule fΔθf_{\Delta\theta} par convolution
  • Optimisation FFT: Utilisation de la transformée de Fourier rapide pour optimiser le calcul de convolution

Points d'Innovation Technique

1. Construction de Relation Probabiliste

Modélisation des messages comme nœuds dans un graphe, avec les relations p\xrightarrow{p} comme arêtes dirigées pondérées par pp. Pour chaque paire de nœuds, on conserve l'arête avec le poids le plus élevé.

2. Algorithme d'Ordonnancement Équitable

  • Cas transitif: Le graphe forme un tournoi transitif avec un ordre topologique unique
  • Cas non-transitif: Possibilité de cycles, nécessitant suppression d'arêtes ou ajustement probabiliste

3. Formation de Lots

Création de frontières de lots selon un seuil thresholdthreshold:

  • Si ipji \xrightarrow{p} j et p>thresholdp > threshold, création d'une frontière de lot entre ii et jj
  • Les messages dont l'ordre ne peut pas être confirmé sont regroupés dans le même lot

4. Ordonnancement en Ligne

  • Garantie de complétude: Attendre que tous les clients envoient des messages avec horodatage supérieur à tt
  • Émission sécurisée: Calcul d'un temps futur TiBT_i^B tel que P(Ti<TiB)>psafeP(T_i^* < T_i^B) > p_{safe}

Configuration Expérimentale

Ensemble de Données

  • Environnement simulé: 500 clients, chacun doté d'une distribution de décalage d'horloge gaussienne N(μ,σ2)\mathcal{N}(\mu, \sigma^2)
  • Génération d'horodatages: Les clients lisent l'horloge murale tt, échantillonnent le bruit ϵ\epsilon, marquent le message comme T=t+ϵT = t + \epsilon
  • Collecte de vérité terrain: Collecte d'horodatages de vérité terrain pour l'évaluation

Métriques d'Évaluation

Score de Cohérence de Classement (RAS):

  • Paires de messages correctement ordonnées: +1 point
  • Paires de messages incorrectement ordonnées: -1 point
  • Paires indifférentes (même lot): 0 point

Méthodes de Comparaison

Ligne de base TrueTime: Simulation de Spanner TrueTime, où chaque message se voit attribuer un intervalle d'incertitude [T3σ,T+3σ][T-3\sigma, T+3\sigma], les intervalles qui se chevauchent reçoivent le même classement.

Détails d'Implémentation

  • Réglage du seuil: threshold=0.75threshold = 0.75
  • Mode d'évaluation: Ordonnancement hors ligne (ordonnancement après l'arrivée de tous les messages)
  • Variables contrôlées: Écart-type de l'erreur d'horloge, intervalle entre les messages

Résultats Expérimentaux

Résultats Principaux

La figure 5 montre les performances de Tommy par rapport à TrueTime:

  • Faible erreur d'horloge: Les deux systèmes affichent des performances comparables
  • Erreur d'horloge élevée ou petit intervalle entre messages: Tommy surpasse significativement TrueTime
  • Incertitude extrêmement élevée: La nature probabiliste de Tommy peut entraîner un RAS négatif, tandis que TrueTime maintient un score conservateur de 0

Découvertes Clés

  1. Avantage d'adaptabilité: Tommy affiche de meilleures performances lorsque la qualité de la synchronisation d'horloge est médiocre
  2. Coût probabiliste: Une incertitude élevée peut entraîner un ordonnancement incorrect
  3. Compromis de seuil: Le choix du seuil affecte la taille des lots et la confiance dans l'équité

Travaux Connexes

Bourses Électroniques dans le Cloud

  • Onyx: Ordonnanceur WFO supposant que l'erreur de synchronisation d'horloge est négligeable
  • CloudEx, DBO: Bourses financières pour environnement cloud, mais dépendant d'hypothèses fortes

Bourses Traditionnelles

Solutions d'ingénierie utilisant des câbles de longueur égale et des commutateurs à faible gigue, où le traitement par ordre d'arrivée équivaut à un ordonnancement par heure de génération.

Tolérance aux Défaillances Byzantines

Pompe: Mécanisme de consensus limitant l'influence des nœuds byzantins sur l'ordre des événements, mais incapable d'imposer un ordonnancement équitable.

Analyse Théorique

Preuve de Transitivité

Proposition 1: Pour les variables aléatoires normales indépendantes XN(μX,σX2)X \sim \mathcal{N}(\mu_X, \sigma_X^2), YN(μY,σY2)Y \sim \mathcal{N}(\mu_Y, \sigma_Y^2), ZN(μZ,σZ2)Z \sim \mathcal{N}(\mu_Z, \sigma_Z^2), en définissant la relation de préférence XYPr[X>Y]>12X \succ Y \Leftrightarrow \Pr[X > Y] > \frac{1}{2}, alors \succ est transitive.

Points clés de la preuve: Pr[A>B]>12μA>μB\Pr[A > B] > \frac{1}{2} \Leftrightarrow \mu_A > \mu_B

En raison de la transitivité des moyennes, la relation probabiliste est également transitive.

Défis de Non-Transitivité

Pour les distributions arbitraires, la transitivité n'est pas garantie et des cycles du type ABA \succ B, BCB \succ C, CAC \succ A peuvent apparaître, similaires au phénomène « pierre-papier-ciseaux ».

Directions de Recherche Future

1. Caractérisation des Relations

  • Étude des conditions de distribution rendant la relation p\xrightarrow{p} transitive
  • Développement de méthodes de transformation pour gérer la non-transitivité

2. Variabilité du Réseau Hôte

Étude de l'impact de la gigue du chemin de données hôte sur l'accès à l'horloge et les délais d'envoi de messages.

3. Extension à l'Ordre Total Équitable

Extension de l'ordre partiel équitable à un ordre total équitable, étude des mécanismes d'équité aléatoire.

4. Apprentissage du Décalage d'Horloge

Développement de mécanismes robustes d'apprentissage de la distribution des décalages d'horloge, gestion des conditions anormales comme les variations de température.

5. Clients Byzantins

Étude des garanties d'équité en cas de défaillances byzantines, prévention des attaques par manipulation d'horodatage.

Conclusion et Discussion

Conclusions Principales

  1. Innovation conceptuelle: La relation likely-happened-before offre une nouvelle perspective pour l'ordonnancement des événements concurrents
  2. Valeur pratique: Tommy surpasse les méthodes traditionnelles dans les conditions réelles de synchronisation d'horloge
  3. Fondation théorique: La transitivité sous distribution gaussienne fournit un support théorique à la méthode

Limitations

  1. Hypothèse de transitivité: La conception actuelle suppose la transitivité, les cas non-transitifs nécessitant une recherche approfondie
  2. Évaluation hors ligne: Les expériences évaluent uniquement l'ordonnancement hors ligne, les performances en ligne restant à vérifier
  3. Hypothèse de distribution: L'hypothèse de distribution gaussienne peut ne pas s'appliquer à tous les scénarios réels
  4. Tolérance aux défaillances byzantines: Absence de mécanismes de protection contre les clients malveillants

Évaluation de l'Impact

Points Forts

  1. Contribution théorique: Extension de la relation classique happened-before
  2. Orientation pratique: Résolution de problèmes réels dans la migration vers le cloud
  3. Cadre générique: Support de distributions arbitraires de décalage d'horloge
  4. Avantage de performance: Surpasse les méthodes existantes dans les conditions réelles

Insuffisances

  1. Complétude incomplète: Solution incomplète pour le traitement de la non-transitivité
  2. Analyse de sécurité: Manque d'analyse approfondie des menaces de sécurité
  3. Limitations expérimentales: Uniquement des expériences simulées, absence de vérification sur systèmes réels

Scénarios d'Application

  • Systèmes de transactions financières déployés sur plusieurs centres de données
  • Systèmes d'enchères avec exigences strictes d'équité
  • Applications nécessitant un ordonnancement équitable sur une infrastructure réseau générique

Valeur de Recherche

Cet article propose de manière novatrice une approche d'ordonnancement équitable probabiliste, offrant une nouvelle direction de résolution pour les problèmes d'équité dans les systèmes distribués. Bien que présentant certains défis théoriques et d'implémentation, son idée centrale possède une valeur académique importante et un potentiel pratique considérable, jetant les bases pour les recherches ultérieures.

Références Bibliographiques

Les références clés incluent:

  • Lamport, L. "Time, clocks, and the ordering of events in a distributed system" (relation classique happened-before)
  • Corbett, J.C. et al. "Spanner: Google's globally distributed database" (mécanisme TrueTime)
  • Ghalayini, A. et al. "Cloudex: A fair-access financial exchange in the cloud" (travaux connexes sur les bourses électroniques)