2025-11-12T12:19:10.304562

Fair Ordering

Haseeb, Geng, Mittal et al.
A growing class of applications demands \emph{fair ordering/sequencing} of events which ensures that events generated earlier by one client are processed before later events from other clients. However, achieving such sequencing is fundamentally challenging due to the inherent limitations of clock synchronization. We advocate for an approach that embraces, rather than eliminates, clock variability. Instead of attempting to remove error from a timestamp, Tommy, our proposed system, leverages a statistical model to compare two noisy timestamps probabilistically by learning per-clock offset distributions. Our preliminary statistical model computes the probability that one event precedes another w.r.t. the wall-clock time without access to the wall-clock. This serves as a foundation for a new relation: \emph{likely-happened-before} denoted by $\xrightarrow{p}$ where $p$ represents the probability of an event to have happened before another. The $\xrightarrow{p}$ relation provides a basis for ordering multiple events which are otherwise considered \emph{concurrent} by the typical \emph{happened-before} ($\rightarrow$) relation. We highlight various related challenges including intransitivity of $\xrightarrow{p}$ relation as opposed to the transitive $\rightarrow$ relation. We also outline several research directions: online fair sequencing, stochastically fair total ordering, host-level support for fairness and more.
academic

Oltre Lamport, Verso l'Ordinamento Probabilistico Equo

Informazioni Fondamentali

  • ID Articolo: 2510.13664
  • Titolo: Beyond Lamport, Towards Probabilistic Fair Ordering
  • Autori: Muhammad Haseeb, Jinkun Geng, Radhika Mittal, Aurojit Panda, Srinivas Narayana, Anirudh Sivaraman
  • Classificazione: cs.NI (Reti di Calcolatori)
  • Data di Pubblicazione: 15 ottobre 2025 (preprint arXiv)
  • Link dell'Articolo: https://arxiv.org/abs/2510.13664v1

Riassunto

Questo articolo affronta le sfide dell'ordinamento equo (fair ordering) nei sistemi distribuiti, proponendo un nuovo approccio che abbraccia piuttosto che elimina la variabilità degli orologi. Gli autori progettano il sistema Tommy, che apprende la distribuzione degli offset di ogni orologio e utilizza modelli statistici per confronti probabilistici di timestamp rumorosi. L'innovazione centrale è l'introduzione della relazione "likely-happened-before" (p\xrightarrow{p}), dove pp rappresenta la probabilità che un evento si sia verificato prima di un altro. Questa relazione consente di ordinare eventi che la relazione classica happened-before (\rightarrow) considera concorrenti, ma introduce nuove sfide come la non-transitività.

Contesto di Ricerca e Motivazione

1. Definizione del Problema

L'ordinamento equo nei sistemi distribuiti richiede di garantire che gli eventi generati da un cliente in precedenza siano elaborati prima degli eventi generati da altri clienti successivamente. Questo è cruciale in applicazioni competitive come le borse valori finanziarie e le borse pubblicitarie, collettivamente denominate "auction-apps".

2. Importanza del Problema

  • Equità Finanziaria: Negli scambi finanziari, l'ordine di elaborazione dei messaggi influisce direttamente sui risultati delle transazioni; un ordinamento iniquo può causare perdite economiche significative
  • Necessità di Migrazione al Cloud: Le borse valori tradizionali utilizzano infrastrutture dedicate per garantire l'equità, ma la migrazione verso il cloud pubblico richiede nuove primitive di rete
  • Espansione dell'Ambito Applicativo: Oltre agli scambi finanziari, mercati competitivi, scambi NFT e acquisti di beni limitati richiedono ordinamento equo

3. Limitazioni degli Approcci Esistenti

  • Ipotesi di Sincronizzazione Perfetta degli Orologi: Le soluzioni esistenti presuppongono una sincronizzazione quasi perfetta degli orologi, non fattibile in reti asincrone reali
  • Dipendenza da Infrastrutture Speciali: Gli approcci tradizionali richiedono hardware dedicato come cavi di lunghezza uguale e switch a bassa variabilità
  • Accoppiamento con Applicazioni: Alcuni approcci sono strettamente accoppiati alla logica applicativa specifica, difficili da generalizzare

4. Sfide Fondamentali

Limitazioni fondamentali della sincronizzazione degli orologi: in reti asincrone o con sincronizzazione limitata, la precisione della sincronizzazione di nn processi non può superare u(11/n)u(1-1/n), dove uu rappresenta l'incertezza del ritardo di collegamento.

Contributi Principali

  1. Nuova Definizione di Relazione: Introduzione della relazione likely-happened-before (p\xrightarrow{p}), estensione della relazione happened-before di Lamport
  2. Modello Statistico: Progettazione di un metodo probabilistico di confronto dei timestamp basato sulla distribuzione degli offset degli orologi
  3. Sistema Tommy: Implementazione di un prototipo di ordinatore equo senza necessità di sincronizzazione perfetta degli orologi
  4. Analisi Teorica: Dimostrazione della transitività della relazione probabilistica sotto distribuzione gaussiana
  5. Direzioni di Ricerca: Proposizione di molteplici direzioni di ricerca come ordinamento equo online e ordine totale equo randomizzato

Dettagli del Metodo

Definizione del Compito

Definizione di Ordinamento Equo: L'ordine in cui il server osserva i messaggi dovrebbe corrispondere all'ordine osservato da un osservatore onnisciente.

Input: Flusso di messaggi dai clienti con timestamp locali Output: Lotti di messaggi ordinati equamente secondo il tempo di generazione Vincoli: Nessun accesso a un orologio globale; è possibile utilizzare solo sincronizzazione degli orologi best-effort

Architettura del Modello

1. Modello di Sistema

  • Ogni cliente ii invia un messaggio con timestamp TiT_i
  • Timestamp reale: Ti=Ti+θiT_i^* = T_i + \theta_i, dove θi\theta_i è l'offset dell'orologio
  • L'offset θi\theta_i segue una distribuzione di probabilità fθif_{\theta_i}

2. Calcolo Probabilistico

Probabilità dell'ordine di due eventi: P(Ti<TjTi,Tj)=P(θjθi>TiTj)P(T_i^* < T_j^* | T_i, T_j) = P(\theta_j - \theta_i > T_i - T_j)

Definendo Δθ=θjθifΔθ\Delta\theta = \theta_j - \theta_i \sim f_{\Delta\theta}, allora: P(Ti<TjTi,Tj)=TiTjfΔθdΔP(T_i^* < T_j^* | T_i, T_j) = \int_{T_i-T_j}^{\infty} f_{\Delta\theta}d\Delta

3. Soluzione in Forma Chiusa per il Caso Gaussiano

Per errori distribuiti gaussiani indipendenti: P(Ti<TjTi,Tj)=Φ(TjTi+(μiμj)σi2+σj2)P(T_i^* < T_j^* | T_i, T_j) = \Phi\left(\frac{T_j-T_i+(\mu_i-\mu_j)}{\sqrt{\sigma_i^2+\sigma_j^2}}\right)

dove Φ(x)\Phi(x) è la funzione di distribuzione cumulativa della distribuzione normale standard.

4. Gestione di Distribuzioni Arbitrarie

  • Apprendimento del Cliente: Ogni cliente apprende la propria distribuzione degli offset fθif_{\theta_i}
  • Calcolo della Convoluzione: L'ordinatore calcola fΔθf_{\Delta\theta} mediante convoluzione
  • Ottimizzazione FFT: Utilizzo della trasformata di Fourier veloce per ottimizzare il calcolo della convoluzione

Punti di Innovazione Tecnica

1. Costruzione di Relazioni Probabilistiche

Modellazione dei messaggi come nodi in un grafo, con relazioni p\xrightarrow{p} come archi diretti ponderati con peso pp. Per ogni coppia di nodi, si conserva l'arco con peso maggiore.

2. Algoritmo di Ordinamento Equo

  • Caso Transitivo: Il grafo forma un torneo transitivo con un ordinamento topologico unico
  • Caso Non-Transitivo: Possibile presenza di cicli, richiedendo eliminazione di archi o aggiustamenti probabilistici

3. Formazione di Lotti

Creazione di confini di lotti secondo una soglia thresholdthreshold:

  • Se ipji \xrightarrow{p} j e p>thresholdp > threshold, creare un confine di lotto tra ii e jj
  • I messaggi il cui ordinamento non può essere determinato con certezza vengono assegnati allo stesso lotto

4. Ordinamento Online

  • Garanzia di Completezza: Attesa che tutti i clienti inviino messaggi con timestamp maggiore di tt
  • Emissione Sicura: Calcolo del tempo futuro TiBT_i^B tale che P(Ti<TiB)>psafeP(T_i^* < T_i^B) > p_{safe}

Configurazione Sperimentale

Dataset

  • Ambiente Simulato: 500 clienti, ciascuno assegnato a una distribuzione di offset dell'orologio gaussiana N(μ,σ2)\mathcal{N}(\mu, \sigma^2)
  • Generazione di Timestamp: I clienti leggono l'orologio di parete tt, campionano il rumore ϵ\epsilon, marcano il messaggio come T=t+ϵT = t + \epsilon
  • Raccolta della Verità di Base: Raccolta di timestamp di verità di base per la valutazione

Metriche di Valutazione

Punteggio di Coerenza di Ranking (RAS):

  • Coppie di messaggi ordinate correttamente: +1 punto
  • Coppie di messaggi ordinate erroneamente: -1 punto
  • Coppie indifferenti (stesso lotto): 0 punti

Metodi di Confronto

Baseline TrueTime: Simulazione di Spanner TrueTime, assegnazione a ogni messaggio di un intervallo di incertezza [T3σ,T+3σ][T-3\sigma, T+3\sigma]; gli intervalli sovrapposti ricevono lo stesso ranking.

Dettagli di Implementazione

  • Impostazione della soglia: threshold=0.75threshold = 0.75
  • Modalità di valutazione: ordinamento offline (ordinamento dopo l'arrivo di tutti i messaggi)
  • Controllo delle variabili: deviazione standard dell'errore dell'orologio, intervallo tra messaggi

Risultati Sperimentali

Risultati Principali

La Figura 5 mostra le prestazioni di Tommy rispetto a TrueTime:

  • Errore di Orologio Basso: Prestazioni comparabili tra i due sistemi
  • Errore di Orologio Alto o Piccolo Intervallo tra Messaggi: Tommy supera significativamente TrueTime
  • Incertezza Estremamente Alta: La natura probabilistica di Tommy può portare a RAS negativo, mentre TrueTime mantiene un conservatore 0 punti

Scoperte Chiave

  1. Vantaggio Adattivo: Tommy mostra prestazioni migliori quando la qualità della sincronizzazione degli orologi è scarsa
  2. Costo Probabilistico: Possibile ordinamento errato in condizioni di alta incertezza
  3. Compromesso della Soglia: La scelta della soglia influisce sulla dimensione dei lotti e sulla fiducia nell'equità

Lavori Correlati

Borse Valori nel Cloud

  • Onyx: Ordinatore WFO che presuppone errore di sincronizzazione degli orologi trascurabile
  • CloudEx, DBO: Borse valori finanziarie per ambienti cloud, ma dipendenti da ipotesi forti

Borse Valori Tradizionali

Soluzioni ingegneristiche che utilizzano cavi di lunghezza uguale e switch a bassa variabilità; l'elaborazione in ordine di arrivo equivale all'ordinamento per tempo di generazione.

Tolleranza ai Guasti Bizantini

Pompe: Meccanismo di consenso che limita l'influenza dei nodi bizantini sull'ordine degli eventi, ma non può forzare l'ordinamento equo.

Analisi Teorica

Dimostrazione della Transitività

Proposizione 1: Per variabili casuali normali indipendenti XN(μX,σX2)X \sim \mathcal{N}(\mu_X, \sigma_X^2), YN(μY,σY2)Y \sim \mathcal{N}(\mu_Y, \sigma_Y^2), ZN(μZ,σZ2)Z \sim \mathcal{N}(\mu_Z, \sigma_Z^2), definendo la relazione di preferenza XYPr[X>Y]>12X \succ Y \Leftrightarrow \Pr[X > Y] > \frac{1}{2}, allora \succ è transitiva.

Punti Chiave della Dimostrazione: Pr[A>B]>12μA>μB\Pr[A > B] > \frac{1}{2} \Leftrightarrow \mu_A > \mu_B

Poiché la transitività delle medie è garantita, anche la relazione probabilistica è transitiva.

Sfide della Non-Transitività

Per distribuzioni arbitrarie, la transitività non è necessariamente garantita; possono verificarsi cicli come ABA \succ B, BCB \succ C, CAC \succ A, simili al fenomeno "carta-forbice-sasso".

Direzioni di Ricerca Futura

1. Caratterizzazione delle Relazioni

  • Studio delle condizioni di distribuzione che rendono la relazione p\xrightarrow{p} transitiva
  • Sviluppo di metodi di trasformazione per gestire la non-transitività

2. Variabilità della Rete Host

Studio dell'impatto della variabilità del percorso dati dell'host sulla latenza di accesso all'orologio e sulla latenza di invio dei messaggi.

3. Estensione a Ordine Totale Equo

Estensione dell'ordinamento equo parziale a ordine totale equo; studio di meccanismi di equità randomizzati.

4. Apprendimento degli Offset dell'Orologio

Sviluppo di meccanismi robusti di apprendimento della distribuzione degli offset dell'orologio, gestione di condizioni anomale come improvvisi cambiamenti di temperatura.

5. Clienti Bizantini

Studio delle garanzie di equità in caso di guasti bizantini; prevenzione di attacchi di manipolazione dei timestamp.

Conclusioni e Discussione

Conclusioni Principali

  1. Innovazione Concettuale: La relazione likely-happened-before offre un nuovo approccio all'ordinamento di eventi concorrenti
  2. Valore Pratico: Tommy supera i metodi tradizionali in condizioni reali di sincronizzazione degli orologi
  3. Fondamento Teorico: La transitività sotto distribuzione gaussiana fornisce supporto teorico al metodo

Limitazioni

  1. Ipotesi di Transitività: Il design attuale presuppone la transitività; i casi non-transitivi richiedono ulteriore ricerca
  2. Valutazione Offline: Gli esperimenti valutano solo l'ordinamento offline; le prestazioni online rimangono da verificare
  3. Ipotesi di Distribuzione: L'ipotesi di distribuzione gaussiana potrebbe non applicarsi a tutti gli scenari pratici
  4. Tolleranza ai Guasti Bizantini: Mancanza di meccanismi di protezione contro clienti malevoli

Valutazione dell'Impatto

Punti di Forza

  1. Contributo Teorico: Estensione della relazione classica happened-before
  2. Orientamento Pratico: Risoluzione di problemi reali nella migrazione al cloud
  3. Framework Generico: Supporto per distribuzioni arbitrarie degli offset degli orologi
  4. Vantaggio di Prestazioni: Superiorità rispetto ai metodi esistenti in condizioni reali

Insufficienze

  1. Incompletezza: La gestione della non-transitività non è sufficientemente completa
  2. Analisi di Sicurezza: Mancanza di analisi approfondita delle minacce alla sicurezza
  3. Limitazioni Sperimentali: Solo esperimenti simulati; mancanza di verifica su sistemi reali

Scenari Applicabili

  • Sistemi di scambio finanziario distribuiti su più data center
  • Sistemi di asta con requisiti rigorosi di equità
  • Applicazioni che richiedono ordinamento equo su infrastrutture di rete generiche

Valore della Ricerca

Questo articolo introduce in modo innovativo il concetto di ordinamento equo probabilistico, fornendo una nuova direzione di soluzione per i problemi di equità nei sistemi distribuiti. Sebbene esistano alcune sfide teoriche e di implementazione, l'idea centrale possiede un significativo valore accademico e potenziale pratico, gettando le basi per ricerche successive.

Bibliografia

I riferimenti chiave includono:

  • Lamport, L. "Time, clocks, and the ordering of events in a distributed system" (relazione classica happened-before)
  • Corbett, J.C. et al. "Spanner: Google's globally distributed database" (meccanismo TrueTime)
  • Ghalayini, A. et al. "Cloudex: A fair-access financial exchange in the cloud" (lavori correlati su borse valori nel cloud)