A growing class of applications demands \emph{fair ordering/sequencing} of events which ensures that events generated earlier by one client are processed before later events from other clients. However, achieving such sequencing is fundamentally challenging due to the inherent limitations of clock synchronization. We advocate for an approach that embraces, rather than eliminates, clock variability. Instead of attempting to remove error from a timestamp, Tommy, our proposed system, leverages a statistical model to compare two noisy timestamps probabilistically by learning per-clock offset distributions. Our preliminary statistical model computes the probability that one event precedes another w.r.t. the wall-clock time without access to the wall-clock. This serves as a foundation for a new relation: \emph{likely-happened-before} denoted by $\xrightarrow{p}$ where $p$ represents the probability of an event to have happened before another. The $\xrightarrow{p}$ relation provides a basis for ordering multiple events which are otherwise considered \emph{concurrent} by the typical \emph{happened-before} ($\rightarrow$) relation. We highlight various related challenges including intransitivity of $\xrightarrow{p}$ relation as opposed to the transitive $\rightarrow$ relation. We also outline several research directions: online fair sequencing, stochastically fair total ordering, host-level support for fairness and more.
論文ID : 2510.13664タイトル : Beyond Lamport, Towards Probabilistic Fair Ordering著者 : Muhammad Haseeb, Jinkun Geng, Radhika Mittal, Aurojit Panda, Srinivas Narayana, Anirudh Sivaraman分類 : cs.NI (コンピュータネットワーク)発表日 : 2025年10月15日 (arXiv プレプリント)論文リンク : https://arxiv.org/abs/2510.13664v1 本論文は、分散システムにおける公正順序付け(fair ordering)の課題に対して、時計変動性を排除するのではなく受け入れる新しいアプローチを提案している。著者らはTommyシステムを設計し、各時計のオフセット分布を学習することで、統計モデルを用いてノイズを含む時間戳を確率的に比較する。核心的な革新は「likely-happened-before」関係(→ p \xrightarrow{p} p )の提案であり、ここでp p p はあるイベントが別のイベントの前に発生した確率を表す。この関係は従来のhappened-before関係(→ \rightarrow → )が並行と見なすイベントを順序付けることができるが、非推移性などの新たな課題ももたらす。
分散システムにおける公正順序付けは、あるクライアントが生成した早期のイベントが、他のクライアントが生成した遅期のイベントより前に処理されることを保証する必要がある。これは金融取引所、広告取引所などの競争的アプリケーション(総称して「auction-apps」)において極めて重要である。
金融公正性 :金融取引において、メッセージ処理の順序は取引結果に直接影響し、不公正な順序付けは莫大な経済的損失をもたらす可能性があるクラウド移行の必要性 :従来の金融取引所は専用インフラストラクチャを使用して公正性を確保していたが、パブリッククラウドへの移行には新しいネットワークプリミティブが必要である応用範囲の拡大 :金融取引以外にも、競争的市場、NFT取引、限定商品の購入など、公正順序付けが必要なシナリオが増加している完璧な時計同期の仮定 :既存の方案は近乎完璧な時計同期を仮定しており、実際の非同期ネットワークでは実行不可能である特殊インフラストラクチャへの依存 :従来の方案は等長ケーブル、低ジッタスイッチなどの専用ハードウェアを必要とするアプリケーション結合 :特定の方案は特定のアプリケーションロジックと密接に結合しており、汎用化が困難である時計同期の基本的制限:非同期または有界同期ネットワークにおいて、n n n 個のプロセスの時計同期精度はu ( 1 − 1 / n ) u(1-1/n) u ( 1 − 1/ n ) を超えることができない。ここでu u u はリンク遅延の不確実性を表す。
新しい関係の定義 :likely-happened-before関係(→ p \xrightarrow{p} p )を提案し、ラムポートのhappened-before関係を拡張統計モデル :時計オフセット分布に基づく確率的時間戳比較方法を設計Tommyシステム :完璧な時計同期を不要とする公正順序付けシステムのプロトタイプを実装理論分析 :ガウス分布下での確率関係の推移性を証明研究方向 :オンライン公正順序付け、ランダム公正全順序など複数の研究方向を提案公正順序付けの定義 :サーバーがメッセージを観察する順序は、全知の観察者が観察する順序と同じであるべき。
入力 :ローカル時間戳を持つクライアントメッセージストリーム
出力 :生成時間に基づいて公正に順序付けされたメッセージバッチ
制約 :グローバル時計にアクセスできず、ベストエフォート時計同期のみ使用可能
各クライアントi i i は時間戳T i T_i T i を持つメッセージを送信 真の時間戳:T i ∗ = T i + θ i T_i^* = T_i + \theta_i T i ∗ = T i + θ i 、ここでθ i \theta_i θ i は時計オフセット オフセットθ i \theta_i θ i は確率分布f θ i f_{\theta_i} f θ i に従う 2つのイベントの先後確率:
P ( T i ∗ < T j ∗ ∣ T i , T j ) = P ( θ j − θ i > T i − T j ) P(T_i^* < T_j^* | T_i, T_j) = P(\theta_j - \theta_i > T_i - T_j) P ( T i ∗ < T j ∗ ∣ T i , T j ) = P ( θ j − θ i > T i − T j )
Δ θ = θ j − θ i ∼ f Δ θ \Delta\theta = \theta_j - \theta_i \sim f_{\Delta\theta} Δ θ = θ j − θ i ∼ f Δ θ と定義すると:
P ( T i ∗ < T j ∗ ∣ T i , T j ) = ∫ T i − T j ∞ f Δ θ d Δ P(T_i^* < T_j^* | T_i, T_j) = \int_{T_i-T_j}^{\infty} f_{\Delta\theta}d\Delta P ( T i ∗ < T j ∗ ∣ T i , T j ) = ∫ T i − T j ∞ f Δ θ d Δ
独立したガウス分布誤差の場合:
P ( T i ∗ < T j ∗ ∣ T i , T j ) = Φ ( T j − T i + ( μ i − μ j ) σ i 2 + σ j 2 ) P(T_i^* < T_j^* | T_i, T_j) = \Phi\left(\frac{T_j-T_i+(\mu_i-\mu_j)}{\sqrt{\sigma_i^2+\sigma_j^2}}\right) P ( T i ∗ < T j ∗ ∣ T i , T j ) = Φ ( σ i 2 + σ j 2 T j − T i + ( μ i − μ j ) )
ここでΦ ( x ) \Phi(x) Φ ( x ) は標準正規分布のCDFである。
クライアント学習 :各クライアントは自身のオフセット分布f θ i f_{\theta_i} f θ i を学習畳み込み計算 :順序付けシステムは畳み込みによりf Δ θ f_{\Delta\theta} f Δ θ を計算FFT最適化 :高速フーリエ変換を使用して畳み込み計算を最適化メッセージをグラフのノードとしてモデル化し、→ p \xrightarrow{p} p 関係を重みp p p の有向辺とする。各ノード対に対して、重みがより高い辺を保持する。
推移性の場合 :グラフは推移的トーナメントを形成し、一意のトポロジカルソートが存在非推移性の場合 :サイクルが存在する可能性があり、辺削除または確率調整が必要閾値t h r e s h o l d threshold t h res h o l d に基づいてバッチ境界を作成:
i → p j i \xrightarrow{p} j i p j かつp > t h r e s h o l d p > threshold p > t h res h o l d の場合、i i i とj j j の間にバッチ境界を作成順序付けが確実でないメッセージは同じバッチに入る 完全性保証 :すべてのクライアントがt t t より大きい時間戳を持つメッセージを送信するまで待機安全な送信 :P ( T i ∗ < T i B ) > p s a f e P(T_i^* < T_i^B) > p_{safe} P ( T i ∗ < T i B ) > p s a f e となる将来時刻T i B T_i^B T i B を計算シミュレーション環境 :500個のクライアント、各クライアントにガウス時計オフセット分布N ( μ , σ 2 ) \mathcal{N}(\mu, \sigma^2) N ( μ , σ 2 ) を割り当て時間戳生成 :クライアントは壁時計t t t を読み取り、ノイズϵ \epsilon ϵ をサンプリングし、メッセージをT = t + ϵ T = t + \epsilon T = t + ϵ とマークグラウンドトゥルース収集 :評価用のグラウンドトゥルース時間戳を収集ランク一貫性スコア(RAS) :
正しく順序付けされたメッセージペア:+1ポイント 誤って順序付けされたメッセージペア:-1ポイント 無差別(同じバッチ内)のメッセージペア:0ポイント TrueTimeベースライン :Spanner TrueTimeをシミュレートし、各メッセージに不確実性区間[ T − 3 σ , T + 3 σ ] [T-3\sigma, T+3\sigma] [ T − 3 σ , T + 3 σ ] を割り当て、重複する区間に同じランクを割り当てる。
閾値設定:t h r e s h o l d = 0.75 threshold = 0.75 t h res h o l d = 0.75 評価モード:オフライン順序付け(すべてのメッセージ到着後に順序付け) 変数制御:時計誤差標準偏差、メッセージ間隔 図5はTommyのTrueTimeに対する性能を示している:
低時計誤差 :両システムの性能は同等高時計誤差または小メッセージ間隔 :Tommyは大幅にTrueTimeを上回る極度に高い不確実性 :Tommyの確率的性質により負のRASが発生する可能性があり、TrueTimeは保守的な0ポイントを維持適応性の利点 :Tommyは時計同期品質が低い場合により良い性能を示す確率性のコスト :高い不確実性下では誤った順序付けが発生する可能性がある閾値のトレードオフ :閾値の選択はバッチサイズと公正性の信頼度に影響するOnyx :時計同期誤差が無視できるWFO順序付けシステムと仮定CloudEx、DBO :クラウド環境向けの金融取引所だが、強い仮定に依存等長ケーブルと低ジッタスイッチを使用したエンジニアリング的解決策。到着順での処理は生成時間での順序付けと同等。
Pompe :ビザンチンノードがイベント順序に与える影響を制限するコンセンサスメカニズムだが、公正順序付けを強制することはできない。
命題1 :独立した正規確率変数X ∼ N ( μ X , σ X 2 ) X \sim \mathcal{N}(\mu_X, \sigma_X^2) X ∼ N ( μ X , σ X 2 ) 、Y ∼ N ( μ Y , σ Y 2 ) Y \sim \mathcal{N}(\mu_Y, \sigma_Y^2) Y ∼ N ( μ Y , σ Y 2 ) 、Z ∼ N ( μ Z , σ Z 2 ) Z \sim \mathcal{N}(\mu_Z, \sigma_Z^2) Z ∼ N ( μ Z , σ Z 2 ) に対して、選好関係X ≻ Y ⇔ Pr [ X > Y ] > 1 2 X \succ Y \Leftrightarrow \Pr[X > Y] > \frac{1}{2} X ≻ Y ⇔ Pr [ X > Y ] > 2 1 を定義すると、≻ \succ ≻ は推移的である。
証明の要点 :
Pr [ A > B ] > 1 2 ⇔ μ A > μ B \Pr[A > B] > \frac{1}{2} \Leftrightarrow \mu_A > \mu_B Pr [ A > B ] > 2 1 ⇔ μ A > μ B
平均値の推移性により、確率関係も推移性を持つ。
任意の分布に対して、推移性は必ずしも成立せず、A ≻ B A \succ B A ≻ B 、B ≻ C B \succ C B ≻ C 、C ≻ A C \succ A C ≻ A のサイクルが発生する可能性があり、「じゃんけん」現象に類似している。
→ p \xrightarrow{p} p 関係を推移的にする分布条件を研究非推移性を処理する変換方法を開発 ホストデータパスのジッタが時計アクセスとメッセージ送信遅延に与える影響を研究。
公正偏順序を公正全順序に拡張し、ランダム公正性メカニズムを研究。
温度急変などの異常条件に対応する堅牢な時計オフセット分布学習メカニズムを開発。
ビザンチン障害下での公正性保証を研究し、時間戳操作攻撃を防止。
概念的革新 :likely-happened-before関係は並行イベントの順序付けに新しい視点をもたらす実用的価値 :Tommyは実際の時計同期条件下で従来の手法を上回る理論的基礎 :ガウス分布下の推移性は本手法に理論的支援を提供推移性の仮定 :現在の設計は推移性を仮定しており、非推移性の場合はさらなる研究が必要オフライン評価 :実験はオフライン順序付けのみを評価しており、オンライン性能は検証待ち分布の仮定 :ガウス分布の仮定はすべての実際のシナリオに適用できない可能性があるビザンチン耐性 :悪意あるクライアントに対する防護メカニズムが欠けている理論的貢献 :古典的なhappened-before関係を拡張実用指向 :クラウド移行における実際の問題を解決汎用フレームワーク :任意の時計オフセット分布をサポート性能優位性 :現実的な条件下で既存手法を上回る完全性の欠如 :非推移性の処理方案が不十分セキュリティ分析 :深い安全脅威分析が不足実験の限界 :シミュレーション実験のみで、実システム検証が不足複数データセンター展開の金融取引システム 公正性に厳格な要件がある競価システム 汎用ネットワークインフラストラクチャ上で公正順序付けを実装する必要があるアプリケーション 本論文は確率的公正順序付けの思想を創造的に提案し、分散システムにおける公正性問題に新しい解決方向を提供している。理論的および実装上の課題が存在するが、その核心的思想は重要な学術的価値と実用的可能性を有しており、後続研究の基礎を築いている。
主要な参考文献には以下が含まれる:
Lamport, L. "Time, clocks, and the ordering of events in a distributed system" (古典的なhappened-before関係) Corbett, J.C. et al. "Spanner: Google's globally distributed database" (TrueTimeメカニズム) Ghalayini, A. et al. "Cloudex: A fair-access financial exchange in the cloud" (クラウド取引所関連研究)