2025-11-12T12:19:10.304562

Fair Ordering

Haseeb, Geng, Mittal et al.
A growing class of applications demands \emph{fair ordering/sequencing} of events which ensures that events generated earlier by one client are processed before later events from other clients. However, achieving such sequencing is fundamentally challenging due to the inherent limitations of clock synchronization. We advocate for an approach that embraces, rather than eliminates, clock variability. Instead of attempting to remove error from a timestamp, Tommy, our proposed system, leverages a statistical model to compare two noisy timestamps probabilistically by learning per-clock offset distributions. Our preliminary statistical model computes the probability that one event precedes another w.r.t. the wall-clock time without access to the wall-clock. This serves as a foundation for a new relation: \emph{likely-happened-before} denoted by $\xrightarrow{p}$ where $p$ represents the probability of an event to have happened before another. The $\xrightarrow{p}$ relation provides a basis for ordering multiple events which are otherwise considered \emph{concurrent} by the typical \emph{happened-before} ($\rightarrow$) relation. We highlight various related challenges including intransitivity of $\xrightarrow{p}$ relation as opposed to the transitive $\rightarrow$ relation. We also outline several research directions: online fair sequencing, stochastically fair total ordering, host-level support for fairness and more.
academic

Jenseits von Lamport, Hin zu Probabilistischer Fairer Ordnung

Grundinformationen

  • Paper-ID: 2510.13664
  • Titel: Beyond Lamport, Towards Probabilistic Fair Ordering
  • Autoren: Muhammad Haseeb, Jinkun Geng, Radhika Mittal, Aurojit Panda, Srinivas Narayana, Anirudh Sivaraman
  • Klassifizierung: cs.NI (Computernetzwerke)
  • Veröffentlichungsdatum: 15. Oktober 2025 (arXiv Preprint)
  • Paper-Link: https://arxiv.org/abs/2510.13664v1

Zusammenfassung

Dieses Paper adressiert die Herausforderung der fairen Ordnung (fair ordering) in verteilten Systemen und schlägt einen neuen Ansatz vor, der Uhrenabweichungen umarmt, anstatt sie zu eliminieren. Die Autoren entwerfen das Tommy-System, das durch das Erlernen der Offset-Verteilung jeder Uhr statistische Modelle zur probabilistischen Vergleichung von verrauschten Zeitstempeln verwendet. Die Kernidee ist die Einführung der „likely-happened-before"-Beziehung (p\xrightarrow{p}), wobei pp die Wahrscheinlichkeit darstellt, dass ein Ereignis vor einem anderen Ereignis stattgefunden hat. Diese Beziehung ermöglicht die Ordnung von Ereignissen, die die traditionelle happened-before-Beziehung (\rightarrow) als gleichzeitig einstuft, führt aber auch zu neuen Herausforderungen wie Nicht-Transitivität.

Forschungshintergrund und Motivation

1. Problemdefinition

Faire Ordnung in verteilten Systemen erfordert, dass Ereignisse, die von einem Client früher generiert wurden, vor Ereignissen verarbeitet werden, die von anderen Clients später generiert wurden. Dies ist in wettbewerbsintensiven Anwendungen wie Finanzbörsen und Werbebörsen von entscheidender Bedeutung, die kollektiv als „Auktions-Apps" bezeichnet werden.

2. Bedeutung des Problems

  • Finanzielle Fairness: Bei Finanztransaktionen beeinflusst die Reihenfolge der Nachrichtenverarbeitung direkt das Transaktionsergebnis; unfaire Ordnung kann zu enormen wirtschaftlichen Verlusten führen
  • Cloud-Migrationsbedarf: Traditionelle Finanzbörsen verwenden spezialisierte Infrastruktur zur Gewährleistung von Fairness, aber die Migration zu öffentlichen Clouds erfordert neue Netzwerk-Primitive
  • Erweiterte Anwendungsbereiche: Neben Finanztransaktionen benötigen wettbewerbsfähige Märkte, NFT-Handel und Schnäppcheneinkäufe faire Ordnung

3. Einschränkungen bestehender Methoden

  • Annahme perfekter Zeitsynchronisation: Bestehende Lösungen setzen nahezu perfekte Zeitsynchronisation voraus, was in praktischen asynchronen Netzwerken nicht machbar ist
  • Abhängigkeit von spezialisierter Infrastruktur: Traditionelle Lösungen erfordern gleichlange Kabel, Switches mit niedriger Jitter und andere spezialisierte Hardware
  • Anwendungskopplung: Einige Lösungen sind eng mit spezifischer Anwendungslogik gekoppelt und lassen sich schwer verallgemeinern

4. Grundlegende Herausforderungen

Fundamentale Grenzen der Zeitsynchronisation: In asynchronen oder begrenzt synchronen Netzwerken kann die Zeitsynchronisationsgenauigkeit von nn Prozessen u(11/n)u(1-1/n) nicht überschreiten, wobei uu die Unsicherheit der Link-Verzögerung darstellt.

Kernbeiträge

  1. Neue Beziehungsdefinition: Einführung der likely-happened-before-Beziehung (p\xrightarrow{p}), die Lamports happened-before-Beziehung erweitert
  2. Statistisches Modell: Entwurf einer probabilistischen Zeitstempel-Vergleichsmethode basierend auf Uhren-Offset-Verteilungen
  3. Tommy-System: Implementierung eines Prototyps eines fairen Ordners ohne perfekte Zeitsynchronisation
  4. Theoretische Analyse: Beweis der Transitivität probabilistischer Beziehungen unter Gaußverteilung
  5. Forschungsrichtungen: Vorschlag mehrerer Forschungsrichtungen wie Online-Fair-Ordering und randomisierte faire Totalordnung

Methodische Details

Aufgabendefinition

Definition fairer Ordnung: Die Reihenfolge, in der der Server Nachrichten sieht, sollte der Reihenfolge entsprechen, die ein allwissender Beobachter beobachtet.

Eingabe: Client-Nachrichtenströme mit lokalen Zeitstempeln Ausgabe: Nach Generierungszeit fair geordnete Nachrichtenbatches Einschränkungen: Kein Zugriff auf globale Uhr; nur bestmögliche Zeitsynchronisation

Modellarchitektur

1. Systemmodell

  • Jeder Client ii sendet eine Nachricht mit Zeitstempel TiT_i
  • Echter Zeitstempel: Ti=Ti+θiT_i^* = T_i + \theta_i, wobei θi\theta_i der Uhren-Offset ist
  • Der Offset θi\theta_i folgt einer Wahrscheinlichkeitsverteilung fθif_{\theta_i}

2. Wahrscheinlichkeitsberechnung

Wahrscheinlichkeit der zeitlichen Reihenfolge zweier Ereignisse: P(Ti<TjTi,Tj)=P(θjθi>TiTj)P(T_i^* < T_j^* | T_i, T_j) = P(\theta_j - \theta_i > T_i - T_j)

Definieren Sie Δθ=θjθifΔθ\Delta\theta = \theta_j - \theta_i \sim f_{\Delta\theta}, dann: P(Ti<TjTi,Tj)=TiTjfΔθdΔP(T_i^* < T_j^* | T_i, T_j) = \int_{T_i-T_j}^{\infty} f_{\Delta\theta}d\Delta

3. Geschlossene Lösung für den Gaußschen Fall

Für unabhängig normalverteilte Fehler: P(Ti<TjTi,Tj)=Φ(TjTi+(μiμj)σi2+σj2)P(T_i^* < T_j^* | T_i, T_j) = \Phi\left(\frac{T_j-T_i+(\mu_i-\mu_j)}{\sqrt{\sigma_i^2+\sigma_j^2}}\right)

wobei Φ(x)\Phi(x) die kumulative Verteilungsfunktion der Standardnormalverteilung ist.

4. Behandlung beliebiger Verteilungen

  • Client-Lernen: Jeder Client erlernt seine eigene Offset-Verteilung fθif_{\theta_i}
  • Faltungsberechnung: Der Ordner berechnet fΔθf_{\Delta\theta} durch Faltung
  • FFT-Optimierung: Verwendung der schnellen Fourier-Transformation zur Optimierung der Faltungsberechnung

Technische Innovationen

1. Konstruktion probabilistischer Beziehungen

Modellierung von Nachrichten als Knoten in einem Graphen, wobei p\xrightarrow{p}-Beziehungen gewichtete gerichtete Kanten darstellen. Für jedes Knotenpaar wird die Kante mit höherem Gewicht beibehalten.

2. Fair-Ordering-Algorithmus

  • Transitiver Fall: Der Graph bildet ein transitives Turnier mit eindeutiger topologischer Sortierung
  • Nicht-transitiver Fall: Möglicherweise existieren Zyklen; Kantenlöschung oder Wahrscheinlichkeitsanpassung erforderlich

3. Batch-Bildung

Erstellung von Batch-Grenzen basierend auf Schwellenwert thresholdthreshold:

  • Wenn ipji \xrightarrow{p} j und p>thresholdp > threshold, wird eine Batch-Grenze zwischen ii und jj erstellt
  • Nachrichten, deren Ordnung nicht sicher ist, werden in denselben Batch eingefügt

4. Online-Ordnung

  • Vollständigkeitsgarantie: Warten auf Zeitstempel aller Clients größer als tt
  • Sichere Emission: Berechnung zukünftiger Zeit TiBT_i^B, sodass P(Ti<TiB)>psafeP(T_i^* < T_i^B) > p_{safe}

Experimentelles Setup

Datensätze

  • Simulierte Umgebung: 500 Clients, jedem ist eine Gaußsche Uhren-Offset-Verteilung N(μ,σ2)\mathcal{N}(\mu, \sigma^2) zugeordnet
  • Zeitstempel-Generierung: Clients lesen die Wanduhr tt, samplen Rauschen ϵ\epsilon und markieren die Nachricht als T=t+ϵT = t + \epsilon
  • Ground-Truth-Erfassung: Erfassung echter Zeitstempel zur Evaluierung

Bewertungsmetriken

Ranking-Konsistenz-Score (RAS):

  • Korrekt geordnete Nachrichtenpaare: +1 Punkt
  • Falsch geordnete Nachrichtenpaare: -1 Punkt
  • Indifferent (gleicher Batch): 0 Punkte

Vergleichsmethoden

TrueTime-Baseline: Simulation von Spanner TrueTime, wobei jede Nachricht ein Unsicherheitsintervall [T3σ,T+3σ][T-3\sigma, T+3\sigma] erhält; überlappende Intervalle erhalten denselben Rang.

Implementierungsdetails

  • Schwellenwert-Einstellung: threshold=0.75threshold = 0.75
  • Evaluierungsmodus: Offline-Ordnung (Ordnung nach Ankunft aller Nachrichten)
  • Kontrollvariablen: Uhren-Fehlerstandardabweichung, Nachrichtenintervall

Experimentelle Ergebnisse

Hauptergebnisse

Abbildung 5 zeigt die Leistung von Tommy im Vergleich zu TrueTime:

  • Niedriger Uhren-Fehler: Beide Systeme zeigen vergleichbare Leistung
  • Hoher Uhren-Fehler oder kleines Nachrichtenintervall: Tommy übertrifft TrueTime deutlich
  • Extrem hohe Unsicherheit: Die probabilistische Natur von Tommy kann zu negativem RAS führen, während TrueTime konservativ 0 Punkte behält

Wichtigste Erkenntnisse

  1. Adaptiver Vorteil: Tommy zeigt bessere Leistung bei schlechterer Zeitsynchronisationsqualität
  2. Probabilistische Kosten: Unter hoher Unsicherheit können Ordnungsfehler auftreten
  3. Schwellenwert-Kompromiss: Die Schwellenwertauswahl beeinflusst Batch-Größe und Ordnungszuversicht

Verwandte Arbeiten

Cloud-Börsen

  • Onyx: WFO-Ordner, der vernachlässigbare Zeitsynchronisationsfehler annimmt
  • CloudEx, DBO: Finanzbörsen für Cloud-Umgebungen, aber abhängig von starken Annahmen

Traditionelle Börsen

Technische Lösungen mit gleichlangen Kabeln und Switches mit niedriger Jitter, bei denen die Verarbeitung nach Ankunftsreihenfolge der Verarbeitung nach Generierungszeit entspricht.

Byzantinische Fehlertoleranz

Pompe: Konsensmechanismus, der den Einfluss byzantinischer Knoten auf die Ereignisreihenfolge begrenzt, kann aber faire Ordnung nicht erzwingen.

Theoretische Analyse

Beweis der Transitivität

Proposition 1: Für unabhängige Normalverteilungen XN(μX,σX2)X \sim \mathcal{N}(\mu_X, \sigma_X^2), YN(μY,σY2)Y \sim \mathcal{N}(\mu_Y, \sigma_Y^2), ZN(μZ,σZ2)Z \sim \mathcal{N}(\mu_Z, \sigma_Z^2), definieren Sie die Präferenzbeziehung XYPr[X>Y]>12X \succ Y \Leftrightarrow \Pr[X > Y] > \frac{1}{2}, dann ist \succ transitiv.

Beweis-Kernpunkte: Pr[A>B]>12μA>μB\Pr[A > B] > \frac{1}{2} \Leftrightarrow \mu_A > \mu_B

Aufgrund der Transitivität von Mittelwerten ist die probabilistische Beziehung ebenfalls transitiv.

Nicht-Transitivitäts-Herausforderungen

Für beliebige Verteilungen ist Transitivität nicht garantiert; es können Zyklen wie ABA \succ B, BCB \succ C, CAC \succ A auftreten, ähnlich dem „Schere-Stein-Papier"-Phänomen.

Zukünftige Forschungsrichtungen

1. Charakterisierung von Beziehungen

  • Untersuchung von Verteilungsbedingungen, die die p\xrightarrow{p}-Beziehung transitiv machen
  • Entwicklung von Transformationsmethoden zur Behandlung von Nicht-Transitivität

2. Host-Netzwerk-Variabilität

Untersuchung des Einflusses von Host-Datenpfad-Jitter auf Uhren-Zugriff und Nachrichtenversand-Verzögerungen.

3. Erweiterung auf faire Totalordnung

Erweiterung fairer Partialordnung zu fairer Totalordnung; Untersuchung randomisierter Fairness-Mechanismen.

4. Erlernen von Uhren-Offsets

Entwicklung robuster Mechanismen zum Erlernen von Uhren-Offset-Verteilungen unter Anomaliebedingungen wie Temperatursprüngen.

5. Byzantinische Clients

Untersuchung von Fairness-Garantien unter byzantinischen Fehlern; Schutz vor Zeitstempel-Manipulationsangriffen.

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

  1. Konzeptionelle Innovation: Die likely-happened-before-Beziehung bietet einen neuen Ansatz zur Ordnung gleichzeitiger Ereignisse
  2. Praktischer Wert: Tommy übertrifft traditionelle Methoden unter praktischen Zeitsynchronisationsbedingungen
  3. Theoretische Grundlage: Transitivität unter Gaußverteilung bietet theoretische Unterstützung für die Methode

Einschränkungen

  1. Transitivitätsannahme: Das aktuelle Design setzt Transitivität voraus; nicht-transitive Fälle erfordern weitere Forschung
  2. Offline-Evaluierung: Experimente evaluieren nur Offline-Ordnung; Online-Leistung muss noch verifiziert werden
  3. Verteilungsannahmen: Gaußverteilungsannahmen sind möglicherweise nicht auf alle praktischen Szenarien anwendbar
  4. Byzantinische Fehlertoleranz: Fehlender Schutz vor böswilligen Clients

Bewertung der Auswirkungen

Stärken

  1. Theoretischer Beitrag: Erweiterung der klassischen happened-before-Beziehung
  2. Praxisorientierung: Lösung praktischer Probleme bei Cloud-Migration
  3. Allgemeines Framework: Unterstützung beliebiger Uhren-Offset-Verteilungen
  4. Leistungsvorteil: Übertrifft bestehende Methoden unter realistischen Bedingungen

Schwächen

  1. Unvollständigkeit: Lösungen für Nicht-Transitivität sind nicht ausreichend entwickelt
  2. Sicherheitsanalyse: Mangelnde tiefgehende Sicherheitsbedrohungsanalyse
  3. Experimentelle Einschränkungen: Nur Simulationen; fehlende Validierung in echten Systemen

Anwendungsszenarien

  • Multi-Datacenter-Bereitstellung von Finanztradingsystemen
  • Bietungssysteme mit strengeren Fairness-Anforderungen
  • Anwendungen, die faire Ordnung auf generischer Netzwerkinfrastruktur implementieren müssen

Forschungswert

Dieses Paper führt einen innovativen Ansatz zur probabilistischen fairen Ordnung ein und bietet eine neue Lösungsrichtung für Fairness-Probleme in verteilten Systemen. Obwohl es theoretische und implementierungstechnische Herausforderungen gibt, hat die Kernidee bedeutenden akademischen Wert und praktisches Potenzial und legt den Grundstein für zukünftige Forschung.

Literaturverzeichnis

Wichtige Referenzen umfassen:

  • Lamport, L. "Time, clocks, and the ordering of events in a distributed system" (Klassische happened-before-Beziehung)
  • Corbett, J.C. et al. "Spanner: Google's globally distributed database" (TrueTime-Mechanismus)
  • Ghalayini, A. et al. "Cloudex: A fair-access financial exchange in the cloud" (Verwandte Arbeiten zu Cloud-Börsen)