2025-11-12T12:19:10.304562

Fair Ordering

Haseeb, Geng, Mittal et al.

A growing class of applications demands \emph{fair ordering/sequencing} of events which ensures that events generated earlier by one client are processed before later events from other clients. However, achieving such sequencing is fundamentally challenging due to the inherent limitations of clock synchronization. We advocate for an approach that embraces, rather than eliminates, clock variability. Instead of attempting to remove error from a timestamp, Tommy, our proposed system, leverages a statistical model to compare two noisy timestamps probabilistically by learning per-clock offset distributions. Our preliminary statistical model computes the probability that one event precedes another w.r.t. the wall-clock time without access to the wall-clock. This serves as a foundation for a new relation: \emph{likely-happened-before} denoted by $\xrightarrow{p}$ where $p$ represents the probability of an event to have happened before another. The $\xrightarrow{p}$ relation provides a basis for ordering multiple events which are otherwise considered \emph{concurrent} by the typical \emph{happened-before} ($\rightarrow$) relation. We highlight various related challenges including intransitivity of $\xrightarrow{p}$ relation as opposed to the transitive $\rightarrow$ relation. We also outline several research directions: online fair sequencing, stochastically fair total ordering, host-level support for fairness and more.

academic

Oltre Lamport, Verso l'Ordinamento Probabilistico Equo

Informazioni Fondamentali

ID Articolo: 2510.13664
Titolo: Beyond Lamport, Towards Probabilistic Fair Ordering
Autori: Muhammad Haseeb, Jinkun Geng, Radhika Mittal, Aurojit Panda, Srinivas Narayana, Anirudh Sivaraman
Classificazione: cs.NI (Reti di Calcolatori)
Data di Pubblicazione: 15 ottobre 2025 (preprint arXiv)
Link dell'Articolo: https://arxiv.org/abs/2510.13664v1

Riassunto

Questo articolo affronta le sfide dell'ordinamento equo (fair ordering) nei sistemi distribuiti, proponendo un nuovo approccio che abbraccia piuttosto che elimina la variabilità degli orologi. Gli autori progettano il sistema Tommy, che apprende la distribuzione degli offset di ogni orologio e utilizza modelli statistici per confronti probabilistici di timestamp rumorosi. L'innovazione centrale è l'introduzione della relazione "likely-happened-before" ( $\xrightarrow{p}$ ), dove $p$ rappresenta la probabilità che un evento si sia verificato prima di un altro. Questa relazione consente di ordinare eventi che la relazione classica happened-before ( $\rightarrow$ ) considera concorrenti, ma introduce nuove sfide come la non-transitività.

Contesto di Ricerca e Motivazione

1. Definizione del Problema

L'ordinamento equo nei sistemi distribuiti richiede di garantire che gli eventi generati da un cliente in precedenza siano elaborati prima degli eventi generati da altri clienti successivamente. Questo è cruciale in applicazioni competitive come le borse valori finanziarie e le borse pubblicitarie, collettivamente denominate "auction-apps".

2. Importanza del Problema

Equità Finanziaria: Negli scambi finanziari, l'ordine di elaborazione dei messaggi influisce direttamente sui risultati delle transazioni; un ordinamento iniquo può causare perdite economiche significative
Necessità di Migrazione al Cloud: Le borse valori tradizionali utilizzano infrastrutture dedicate per garantire l'equità, ma la migrazione verso il cloud pubblico richiede nuove primitive di rete
Espansione dell'Ambito Applicativo: Oltre agli scambi finanziari, mercati competitivi, scambi NFT e acquisti di beni limitati richiedono ordinamento equo

3. Limitazioni degli Approcci Esistenti

Ipotesi di Sincronizzazione Perfetta degli Orologi: Le soluzioni esistenti presuppongono una sincronizzazione quasi perfetta degli orologi, non fattibile in reti asincrone reali
Dipendenza da Infrastrutture Speciali: Gli approcci tradizionali richiedono hardware dedicato come cavi di lunghezza uguale e switch a bassa variabilità
Accoppiamento con Applicazioni: Alcuni approcci sono strettamente accoppiati alla logica applicativa specifica, difficili da generalizzare

4. Sfide Fondamentali

Limitazioni fondamentali della sincronizzazione degli orologi: in reti asincrone o con sincronizzazione limitata, la precisione della sincronizzazione di $n$ processi non può superare $u(1-1/n)$ , dove $u$ rappresenta l'incertezza del ritardo di collegamento.

Contributi Principali

Nuova Definizione di Relazione: Introduzione della relazione likely-happened-before ( $\xrightarrow{p}$ ), estensione della relazione happened-before di Lamport
Modello Statistico: Progettazione di un metodo probabilistico di confronto dei timestamp basato sulla distribuzione degli offset degli orologi
Sistema Tommy: Implementazione di un prototipo di ordinatore equo senza necessità di sincronizzazione perfetta degli orologi
Analisi Teorica: Dimostrazione della transitività della relazione probabilistica sotto distribuzione gaussiana
Direzioni di Ricerca: Proposizione di molteplici direzioni di ricerca come ordinamento equo online e ordine totale equo randomizzato

Dettagli del Metodo

Definizione del Compito

Definizione di Ordinamento Equo: L'ordine in cui il server osserva i messaggi dovrebbe corrispondere all'ordine osservato da un osservatore onnisciente.

Input: Flusso di messaggi dai clienti con timestamp locali Output: Lotti di messaggi ordinati equamente secondo il tempo di generazione Vincoli: Nessun accesso a un orologio globale; è possibile utilizzare solo sincronizzazione degli orologi best-effort

Architettura del Modello

1. Modello di Sistema

Ogni cliente $i$ invia un messaggio con timestamp $T_i$
Timestamp reale: $T_i^* = T_i + \theta_i$ , dove $\theta_i$ è l'offset dell'orologio
L'offset $\theta_i$ segue una distribuzione di probabilità $f_{\theta_i}$

2. Calcolo Probabilistico

Probabilità dell'ordine di due eventi: $P(T_i^* < T_j^* | T_i, T_j) = P(\theta_j - \theta_i > T_i - T_j)$

Definendo $\Delta\theta = \theta_j - \theta_i \sim f_{\Delta\theta}$ , allora: $P(T_i^* < T_j^* | T_i, T_j) = \int_{T_i-T_j}^{\infty} f_{\Delta\theta}d\Delta$

3. Soluzione in Forma Chiusa per il Caso Gaussiano

Per errori distribuiti gaussiani indipendenti: $P(T_i^* < T_j^* | T_i, T_j) = \Phi\left(\frac{T_j-T_i+(\mu_i-\mu_j)}{\sqrt{\sigma_i^2+\sigma_j^2}}\right)$

dove $\Phi(x)$ è la funzione di distribuzione cumulativa della distribuzione normale standard.

4. Gestione di Distribuzioni Arbitrarie

Apprendimento del Cliente: Ogni cliente apprende la propria distribuzione degli offset $f_{\theta_i}$
Calcolo della Convoluzione: L'ordinatore calcola $f_{\Delta\theta}$ mediante convoluzione
Ottimizzazione FFT: Utilizzo della trasformata di Fourier veloce per ottimizzare il calcolo della convoluzione

Punti di Innovazione Tecnica

1. Costruzione di Relazioni Probabilistiche

Modellazione dei messaggi come nodi in un grafo, con relazioni $\xrightarrow{p}$ come archi diretti ponderati con peso $p$ . Per ogni coppia di nodi, si conserva l'arco con peso maggiore.

2. Algoritmo di Ordinamento Equo

Caso Transitivo: Il grafo forma un torneo transitivo con un ordinamento topologico unico
Caso Non-Transitivo: Possibile presenza di cicli, richiedendo eliminazione di archi o aggiustamenti probabilistici

3. Formazione di Lotti

Creazione di confini di lotti secondo una soglia $threshold$ :

Se $i \xrightarrow{p} j$ e $p > threshold$ , creare un confine di lotto tra $i$ e $j$
I messaggi il cui ordinamento non può essere determinato con certezza vengono assegnati allo stesso lotto

4. Ordinamento Online

Garanzia di Completezza: Attesa che tutti i clienti inviino messaggi con timestamp maggiore di $t$
Emissione Sicura: Calcolo del tempo futuro $T_i^B$ tale che $P(T_i^* < T_i^B) > p_{safe}$

Configurazione Sperimentale

Dataset

Ambiente Simulato: 500 clienti, ciascuno assegnato a una distribuzione di offset dell'orologio gaussiana $\mathcal{N}(\mu, \sigma^2)$
Generazione di Timestamp: I clienti leggono l'orologio di parete $t$ , campionano il rumore $\epsilon$ , marcano il messaggio come $T = t + \epsilon$
Raccolta della Verità di Base: Raccolta di timestamp di verità di base per la valutazione

Metriche di Valutazione

Punteggio di Coerenza di Ranking (RAS):

Coppie di messaggi ordinate correttamente: +1 punto
Coppie di messaggi ordinate erroneamente: -1 punto
Coppie indifferenti (stesso lotto): 0 punti

Metodi di Confronto

Baseline TrueTime: Simulazione di Spanner TrueTime, assegnazione a ogni messaggio di un intervallo di incertezza $[T-3\sigma, T+3\sigma]$ ; gli intervalli sovrapposti ricevono lo stesso ranking.

Dettagli di Implementazione

Impostazione della soglia: $threshold = 0.75$
Modalità di valutazione: ordinamento offline (ordinamento dopo l'arrivo di tutti i messaggi)
Controllo delle variabili: deviazione standard dell'errore dell'orologio, intervallo tra messaggi

Risultati Sperimentali

Risultati Principali

La Figura 5 mostra le prestazioni di Tommy rispetto a TrueTime:

Errore di Orologio Basso: Prestazioni comparabili tra i due sistemi
Errore di Orologio Alto o Piccolo Intervallo tra Messaggi: Tommy supera significativamente TrueTime
Incertezza Estremamente Alta: La natura probabilistica di Tommy può portare a RAS negativo, mentre TrueTime mantiene un conservatore 0 punti

Scoperte Chiave

Vantaggio Adattivo: Tommy mostra prestazioni migliori quando la qualità della sincronizzazione degli orologi è scarsa
Costo Probabilistico: Possibile ordinamento errato in condizioni di alta incertezza
Compromesso della Soglia: La scelta della soglia influisce sulla dimensione dei lotti e sulla fiducia nell'equità

Lavori Correlati

Borse Valori nel Cloud

Onyx: Ordinatore WFO che presuppone errore di sincronizzazione degli orologi trascurabile
CloudEx, DBO: Borse valori finanziarie per ambienti cloud, ma dipendenti da ipotesi forti

Borse Valori Tradizionali

Soluzioni ingegneristiche che utilizzano cavi di lunghezza uguale e switch a bassa variabilità; l'elaborazione in ordine di arrivo equivale all'ordinamento per tempo di generazione.

Tolleranza ai Guasti Bizantini

Pompe: Meccanismo di consenso che limita l'influenza dei nodi bizantini sull'ordine degli eventi, ma non può forzare l'ordinamento equo.

Analisi Teorica

Dimostrazione della Transitività

Proposizione 1: Per variabili casuali normali indipendenti $X \sim \mathcal{N}(\mu_X, \sigma_X^2)$ , $Y \sim \mathcal{N}(\mu_Y, \sigma_Y^2)$ , $Z \sim \mathcal{N}(\mu_Z, \sigma_Z^2)$ , definendo la relazione di preferenza $X \succ Y \Leftrightarrow \Pr[X > Y] > \frac{1}{2}$ , allora $\succ$ è transitiva.

Punti Chiave della Dimostrazione: $\Pr[A > B] > \frac{1}{2} \Leftrightarrow \mu_A > \mu_B$

Poiché la transitività delle medie è garantita, anche la relazione probabilistica è transitiva.

Sfide della Non-Transitività

Per distribuzioni arbitrarie, la transitività non è necessariamente garantita; possono verificarsi cicli come $A \succ B$ , $B \succ C$ , $C \succ A$ , simili al fenomeno "carta-forbice-sasso".

Direzioni di Ricerca Futura

1. Caratterizzazione delle Relazioni

Studio delle condizioni di distribuzione che rendono la relazione $\xrightarrow{p}$ transitiva
Sviluppo di metodi di trasformazione per gestire la non-transitività

2. Variabilità della Rete Host

Studio dell'impatto della variabilità del percorso dati dell'host sulla latenza di accesso all'orologio e sulla latenza di invio dei messaggi.

3. Estensione a Ordine Totale Equo

Estensione dell'ordinamento equo parziale a ordine totale equo; studio di meccanismi di equità randomizzati.

4. Apprendimento degli Offset dell'Orologio

Sviluppo di meccanismi robusti di apprendimento della distribuzione degli offset dell'orologio, gestione di condizioni anomale come improvvisi cambiamenti di temperatura.

5. Clienti Bizantini

Studio delle garanzie di equità in caso di guasti bizantini; prevenzione di attacchi di manipolazione dei timestamp.

Conclusioni e Discussione

Conclusioni Principali

Innovazione Concettuale: La relazione likely-happened-before offre un nuovo approccio all'ordinamento di eventi concorrenti
Valore Pratico: Tommy supera i metodi tradizionali in condizioni reali di sincronizzazione degli orologi
Fondamento Teorico: La transitività sotto distribuzione gaussiana fornisce supporto teorico al metodo

Limitazioni

Ipotesi di Transitività: Il design attuale presuppone la transitività; i casi non-transitivi richiedono ulteriore ricerca
Valutazione Offline: Gli esperimenti valutano solo l'ordinamento offline; le prestazioni online rimangono da verificare
Ipotesi di Distribuzione: L'ipotesi di distribuzione gaussiana potrebbe non applicarsi a tutti gli scenari pratici
Tolleranza ai Guasti Bizantini: Mancanza di meccanismi di protezione contro clienti malevoli

Valutazione dell'Impatto

Punti di Forza

Contributo Teorico: Estensione della relazione classica happened-before
Orientamento Pratico: Risoluzione di problemi reali nella migrazione al cloud
Framework Generico: Supporto per distribuzioni arbitrarie degli offset degli orologi
Vantaggio di Prestazioni: Superiorità rispetto ai metodi esistenti in condizioni reali

Insufficienze

Incompletezza: La gestione della non-transitività non è sufficientemente completa
Analisi di Sicurezza: Mancanza di analisi approfondita delle minacce alla sicurezza
Limitazioni Sperimentali: Solo esperimenti simulati; mancanza di verifica su sistemi reali

Scenari Applicabili

Sistemi di scambio finanziario distribuiti su più data center
Sistemi di asta con requisiti rigorosi di equità
Applicazioni che richiedono ordinamento equo su infrastrutture di rete generiche

Valore della Ricerca

Questo articolo introduce in modo innovativo il concetto di ordinamento equo probabilistico, fornendo una nuova direzione di soluzione per i problemi di equità nei sistemi distribuiti. Sebbene esistano alcune sfide teoriche e di implementazione, l'idea centrale possiede un significativo valore accademico e potenziale pratico, gettando le basi per ricerche successive.

Bibliografia

I riferimenti chiave includono:

Lamport, L. "Time, clocks, and the ordering of events in a distributed system" (relazione classica happened-before)
Corbett, J.C. et al. "Spanner: Google's globally distributed database" (meccanismo TrueTime)
Ghalayini, A. et al. "Cloudex: A fair-access financial exchange in the cloud" (lavori correlati su borse valori nel cloud)