2025-11-12T12:19:10.304562

Fair Ordering

Haseeb, Geng, Mittal et al.
A growing class of applications demands \emph{fair ordering/sequencing} of events which ensures that events generated earlier by one client are processed before later events from other clients. However, achieving such sequencing is fundamentally challenging due to the inherent limitations of clock synchronization. We advocate for an approach that embraces, rather than eliminates, clock variability. Instead of attempting to remove error from a timestamp, Tommy, our proposed system, leverages a statistical model to compare two noisy timestamps probabilistically by learning per-clock offset distributions. Our preliminary statistical model computes the probability that one event precedes another w.r.t. the wall-clock time without access to the wall-clock. This serves as a foundation for a new relation: \emph{likely-happened-before} denoted by $\xrightarrow{p}$ where $p$ represents the probability of an event to have happened before another. The $\xrightarrow{p}$ relation provides a basis for ordering multiple events which are otherwise considered \emph{concurrent} by the typical \emph{happened-before} ($\rightarrow$) relation. We highlight various related challenges including intransitivity of $\xrightarrow{p}$ relation as opposed to the transitive $\rightarrow$ relation. We also outline several research directions: online fair sequencing, stochastically fair total ordering, host-level support for fairness and more.
academic

За пределами Лампорта: К вероятностному справедливому упорядочению

Основная информация

  • ID статьи: 2510.13664
  • Название: Beyond Lamport, Towards Probabilistic Fair Ordering
  • Авторы: Muhammad Haseeb, Jinkun Geng, Radhika Mittal, Aurojit Panda, Srinivas Narayana, Anirudh Sivaraman
  • Категория: cs.NI (компьютерные сети)
  • Дата публикации: 15 октября 2025 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2510.13664v1

Аннотация

В данной работе предлагается новый подход к решению проблемы справедливого упорядочения (fair ordering) в распределённых системах, который заключается в принятии, а не устранении вариативности часов. Авторы разработали систему Tommy, которая посредством изучения распределения смещений каждых часов использует статистические модели для вероятностного сравнения зашумленных временных меток. Ключевым нововведением является введение отношения "likely-happened-before" (p\xrightarrow{p}), где pp обозначает вероятность того, что одно событие произошло раньше другого. Это отношение позволяет упорядочить события, которые классическое отношение happened-before (\rightarrow) считает одновременными, однако вносит новые вызовы, такие как нетранзитивность.

Исследовательский контекст и мотивация

1. Определение проблемы

Справедливое упорядочение в распределённых системах требует обеспечения того, чтобы события, созданные одним клиентом раньше, обрабатывались до событий, созданных другими клиентами позже. Это критически важно для конкурентных приложений, таких как финансовые биржи, рекламные биржи и другие, объединённые под термином "auction-apps".

2. Значимость проблемы

  • Финансовая справедливость: При финансовых операциях порядок обработки сообщений напрямую влияет на результаты торговли; несправедливое упорядочение может привести к огромным экономическим потерям
  • Требования облачной миграции: Традиционные финансовые биржи используют специализированную инфраструктуру для обеспечения справедливости, однако миграция в публичное облако требует новых сетевых примитивов
  • Расширение области применения: Помимо финансовых операций, конкурентные рынки, торговля NFT, распродажи ограниченных товаров и другие сценарии требуют справедливого упорядочения

3. Ограничения существующих методов

  • Предположение о идеальной синхронизации часов: Существующие решения предполагают почти идеальную синхронизацию часов, что невозможно в реальных асинхронных сетях
  • Зависимость от специальной инфраструктуры: Традиционные решения требуют кабелей одинаковой длины, коммутаторов с низкой дрожанием и другого специализированного оборудования
  • Связанность с приложением: Некоторые решения тесно связаны с логикой конкретного приложения, что затрудняет их универсализацию

4. Фундаментальные вызовы

Основное ограничение синхронизации часов: в асинхронных или ограниченно синхронных сетях точность синхронизации часов nn процессов не может превышать u(11/n)u(1-1/n), где uu обозначает неопределённость задержки канала.

Основные вклады

  1. Новое определение отношения: Введение отношения likely-happened-before (p\xrightarrow{p}), расширяющего классическое отношение happened-before Лампорта
  2. Статистическая модель: Разработка метода вероятностного сравнения временных меток на основе распределения смещений часов
  3. Система Tommy: Реализация прототипа справедливого упорядочивателя без требования идеальной синхронизации часов
  4. Теоретический анализ: Доказательство транзитивности вероятностного отношения при гауссовом распределении
  5. Направления исследований: Предложение нескольких направлений развития, включая онлайн справедливое упорядочение и случайный справедливый полный порядок

Подробное описание методики

Определение задачи

Определение справедливого упорядочения: Порядок, в котором сервер видит сообщения, должен совпадать с порядком, наблюдаемым всеведущим наблюдателем.

Входные данные: Поток сообщений клиентов с локальными временными метками Выходные данные: Пакеты сообщений, справедливо упорядоченные по времени создания Ограничения: Отсутствие доступа к глобальным часам; возможность использования только синхронизации часов по принципу "максимум усилий"

Архитектура модели

1. Системная модель

  • Каждый клиент ii отправляет сообщение с временной меткой TiT_i
  • Истинная временная метка: Ti=Ti+θiT_i^* = T_i + \theta_i, где θi\theta_i — смещение часов
  • Смещение θi\theta_i подчиняется распределению вероятностей fθif_{\theta_i}

2. Вероятностные вычисления

Вероятность предшествования двух событий: P(Ti<TjTi,Tj)=P(θjθi>TiTj)P(T_i^* < T_j^* | T_i, T_j) = P(\theta_j - \theta_i > T_i - T_j)

Определим Δθ=θjθifΔθ\Delta\theta = \theta_j - \theta_i \sim f_{\Delta\theta}, тогда: P(Ti<TjTi,Tj)=TiTjfΔθdΔP(T_i^* < T_j^* | T_i, T_j) = \int_{T_i-T_j}^{\infty} f_{\Delta\theta}d\Delta

3. Замкнутое решение для гауссова случая

Для независимо распределённых гауссовых ошибок: P(Ti<TjTi,Tj)=Φ(TjTi+(μiμj)σi2+σj2)P(T_i^* < T_j^* | T_i, T_j) = \Phi\left(\frac{T_j-T_i+(\mu_i-\mu_j)}{\sqrt{\sigma_i^2+\sigma_j^2}}\right)

где Φ(x)\Phi(x) — функция распределения стандартного нормального распределения.

4. Обработка произвольных распределений

  • Обучение на клиентской стороне: Каждый клиент изучает собственное распределение смещения часов fθif_{\theta_i}
  • Вычисление свёртки: Упорядочиватель вычисляет fΔθf_{\Delta\theta} посредством свёртки
  • Оптимизация БПФ: Использование быстрого преобразования Фурье для оптимизации вычисления свёртки

Технические инновации

1. Построение вероятностного отношения

Моделирование сообщений как узлов в графе, отношение p\xrightarrow{p} как взвешенные направленные рёбра. Для каждой пары узлов сохраняется ребро с более высоким весом.

2. Алгоритм справедливого упорядочения

  • Транзитивный случай: Граф образует транзитивный турнир с единственной топологической сортировкой
  • Нетранзитивный случай: Возможно наличие циклов, требующих удаления рёбер или вероятностной корректировки

3. Формирование пакетов

Создание границ пакетов на основе порога thresholdthreshold:

  • Если ipji \xrightarrow{p} j и p>thresholdp > threshold, создаётся граница пакета между ii и jj
  • Сообщения, порядок которых не может быть определён с уверенностью, входят в один пакет

4. Онлайн упорядочение

  • Гарантия полноты: Ожидание отправки всеми клиентами временных меток, превышающих tt
  • Безопасное отправление: Вычисление будущего времени TiBT_i^B такого, что P(Ti<TiB)>psafeP(T_i^* < T_i^B) > p_{safe}

Экспериментальная установка

Набор данных

  • Смоделированная среда: 500 клиентов, каждому назначено гауссово распределение смещения часов N(μ,σ2)\mathcal{N}(\mu, \sigma^2)
  • Генерация временных меток: Клиенты читают системное время tt, выбирают шум ϵ\epsilon, отмечают сообщение как T=t+ϵT = t + \epsilon
  • Сбор истинных значений: Сбор эталонных временных меток для оценки

Метрики оценки

Оценка согласованности рангов (RAS):

  • Правильно упорядоченные пары сообщений: +1 балл
  • Неправильно упорядоченные пары сообщений: -1 балл
  • Неразличимые пары (в одном пакете): 0 баллов

Методы сравнения

Базовый метод TrueTime: Моделирование TrueTime из Spanner, где каждому сообщению назначается интервал неопределённости [T3σ,T+3σ][T-3\sigma, T+3\sigma]; перекрывающимся интервалам присваивается одинаковый ранг.

Детали реализации

  • Установка порога: threshold=0.75threshold = 0.75
  • Режим оценки: Офлайн упорядочение (упорядочение после поступления всех сообщений)
  • Управляемые переменные: Стандартное отклонение ошибки часов, интервал между сообщениями

Результаты экспериментов

Основные результаты

На рисунке 5 показана производительность Tommy относительно TrueTime:

  • Низкая ошибка часов: Производительность обеих систем сопоставима
  • Высокая ошибка часов или малый интервал между сообщениями: Tommy значительно превосходит TrueTime
  • Экстремально высокая неопределённость: Вероятностная природа Tommy может привести к отрицательному RAS, тогда как TrueTime сохраняет консервативную оценку 0

Ключевые выводы

  1. Преимущество адаптивности: Tommy показывает лучшую производительность при низком качестве синхронизации часов
  2. Стоимость вероятностности: При высокой неопределённости возможны ошибки упорядочения
  3. Компромисс порога: Выбор порога влияет на размер пакета и уверенность в справедливости

Связанные работы

Облачные биржи

  • Onyx: Упорядочиватель WFO, предполагающий пренебрежимо малую ошибку синхронизации часов
  • CloudEx, DBO: Финансовые биржи для облачной среды, но зависящие от строгих предположений

Традиционные биржи

Инженерные решения, использующие кабели одинаковой длины и коммутаторы с низкой дрожанием, где обработка в порядке поступления эквивалентна обработке в порядке создания.

Византийская отказоустойчивость

Pompe: Механизм консенсуса, ограничивающий влияние византийских узлов на порядок событий, но не способный обеспечить справедливое упорядочение.

Теоретический анализ

Доказательство транзитивности

Предложение 1: Для независимых нормальных случайных величин XN(μX,σX2)X \sim \mathcal{N}(\mu_X, \sigma_X^2), YN(μY,σY2)Y \sim \mathcal{N}(\mu_Y, \sigma_Y^2), ZN(μZ,σZ2)Z \sim \mathcal{N}(\mu_Z, \sigma_Z^2), определим отношение предпочтения XYPr[X>Y]>12X \succ Y \Leftrightarrow \Pr[X > Y] > \frac{1}{2}, тогда \succ является транзитивным.

Ключевые моменты доказательства: Pr[A>B]>12μA>μB\Pr[A > B] > \frac{1}{2} \Leftrightarrow \mu_A > \mu_B

Благодаря транзитивности средних значений, вероятностное отношение также обладает транзитивностью.

Вызовы нетранзитивности

Для произвольных распределений транзитивность не гарантирована; возможны циклы вида ABA \succ B, BCB \succ C, CAC \succ A, аналогичные явлению "камень-ножницы-бумага".

Направления будущих исследований

1. Характеризация отношений

  • Исследование условий на распределения, при которых отношение p\xrightarrow{p} является транзитивным
  • Разработка методов преобразования для обработки нетранзитивности

2. Вариативность в хост-сетях

Исследование влияния дрожания пути передачи данных хоста на задержку доступа к часам и задержку отправки сообщений.

3. Расширение до справедливого полного порядка

Расширение справедливого частичного порядка до справедливого полного порядка; исследование механизмов случайной справедливости.

4. Обучение смещению часов

Разработка надёжных механизмов обучения распределению смещения часов, обработка аномальных условий, таких как резкие скачки температуры.

5. Византийские клиенты

Исследование гарантий справедливости при наличии византийских сбоев; предотвращение атак манипуляции временными метками.

Заключение и обсуждение

Основные выводы

  1. Концептуальное нововведение: Отношение likely-happened-before предлагает новый подход к упорядочению одновременных событий
  2. Практическая ценность: Tommy превосходит традиционные методы при реальных условиях синхронизации часов
  3. Теоретическая основа: Транзитивность при гауссовом распределении обеспечивает теоретическую поддержку метода

Ограничения

  1. Неполнота предположения о транзитивности: Текущая разработка предполагает транзитивность; случаи нетранзитивности требуют дальнейшего исследования
  2. Офлайн оценка: Эксперименты оценивают только офлайн упорядочение; онлайн производительность требует проверки
  3. Предположение о распределении: Предположение о гауссовом распределении может быть неприменимо ко всем практическим сценариям
  4. Отказоустойчивость к византийским сбоям: Отсутствие механизмов защиты от злонамеренных клиентов

Оценка влияния

Преимущества

  1. Теоретический вклад: Расширение классического отношения happened-before
  2. Практическая ориентация: Решение реальных проблем облачной миграции
  3. Универсальная структура: Поддержка произвольных распределений смещения часов
  4. Преимущество производительности: Превосходство над существующими методами в реальных условиях

Недостатки

  1. Неполнота решения: Недостаточно полное решение для обработки нетранзитивности
  2. Анализ безопасности: Отсутствие глубокого анализа угроз безопасности
  3. Ограничения экспериментов: Только смоделированные эксперименты; отсутствие проверки на реальных системах

Применимые сценарии

  • Системы финансовой торговли, развёрнутые в нескольких центрах обработки данных
  • Системы торгов с строгими требованиями справедливости
  • Приложения, требующие справедливого упорядочения на универсальной сетевой инфраструктуре

Научная ценность

Данная работа открывает новое направление в решении проблемы справедливого упорядочения в распределённых системах посредством вероятностного подхода. Хотя существуют определённые теоретические и практические вызовы, основная идея обладает значительной научной ценностью и практическим потенциалом, создавая основу для последующих исследований.

Библиография

Ключевые источники включают:

  • Lamport, L. "Time, clocks, and the ordering of events in a distributed system" (классическое отношение happened-before)
  • Corbett, J.C. et al. "Spanner: Google's globally distributed database" (механизм TrueTime)
  • Ghalayini, A. et al. "Cloudex: A fair-access financial exchange in the cloud" (связанные работы по облачным биржам)