2025-11-15T08:40:12.184468

Privacy-Preserving Distributed Estimation with Limited Data Rate

Ke, Wang, Zhang

This paper focuses on the privacy-preserving distributed estimation problem with a limited data rate, where the observations are the sensitive information. Specifically, a binary-valued quantizer-based privacy-preserving distributed estimation algorithm is developed, which improves the algorithm's privacy-preserving capability and simultaneously reduces the communication costs. The algorithm's privacy-preserving capability, measured by the Fisher information matrix, is dynamically enhanced over time. Notably, the Fisher information matrix of the output signals with respect to the sensitive information converges to zero at a polynomial rate, and the improvement in privacy brought by the quantizers is quantitatively characterized as a multiplicative effect. Regarding the communication costs, each sensor transmits only 1 bit of information to its neighbours at each time step. Additionally, the assumption on the negligible quantization error for real-valued messages is not required. While achieving the requirements of privacy preservation and reducing communication costs, the algorithm ensures that its estimates converge almost surely to the true value of the unknown parameter by establishing a co-design guideline for the time-varying privacy noises and step-sizes. A polynomial almost sure convergence rate is obtained, and then the trade-off between privacy and convergence rate is established. Numerical examples demonstrate the main results.

academic

Datenschutzwahrende verteilte Schätzung mit begrenzter Datenrate

Grundlegende Informationen

Papier-ID: 2510.12549
Titel: Privacy-Preserving Distributed Estimation with Limited Data Rate
Autoren: Jieming Ke, Jimin Wang, Ji-Feng Zhang
Klassifizierung: eess.SY (Systeme und Steuerung), cs.SY (Systeme und Steuerung)
Veröffentlichtes Journal: IEEE Transactions on Automatic Control
Papier-Link: https://arxiv.org/abs/2510.12549

Zusammenfassung

Dieses Papier untersucht das Problem der datenschutzwahrenden verteilten Schätzung unter begrenzter Datenübertragungsrate, wobei Beobachtungsdaten sensible Informationen darstellen. Der Artikel schlägt einen datenschutzwahrenden verteilten Schätzungsalgorithmus basierend auf binären Quantisierern vor, der die Datenschutzfähigkeit verbessert und gleichzeitig die Kommunikationskosten senkt. Die Datenschutzfähigkeit des Algorithmus wird durch die Fisher-Informationsmatrix gemessen und verstärkt sich dynamisch im Laufe der Zeit. Die Fisher-Informationsmatrix konvergiert mit polynomialer Rate gegen Null, und die Datenschutzverbesserung durch den Quantisierer wird als multiplikativer Effekt quantifiziert. Hinsichtlich der Kommunikationskosten überträgt jeder Sensor in jedem Zeitschritt nur 1 Bit Information an seine Nachbarn. Darüber hinaus ist keine Annahme erforderlich, dass Quantisierungsfehler von Echtwertnachrichten vernachlässigbar sind. Während Datenschutz und reduzierte Kommunikationskosten erreicht werden, stellt der Algorithmus durch die Etablierung von Richtlinien für das kooperative Design von zeitvarianten Datenschutzrauschen und Schrittweiten sicher, dass die Schätzung fast sicher gegen den wahren Wert des unbekannten Parameters konvergiert.

Forschungshintergrund und Motivation

Problemdefinition

Das Kernproblem, das dieses Papier lösen soll, besteht darin, wie in einem verteilten Sensornetzwerk Beobachtungsdaten geschützt werden können, während gleichzeitig eine genaue Parameterschätzung erreicht wird und die Kommunikationskosten minimiert werden.

Bedeutungsanalyse

Praktische Anwendungsanforderungen: In der medizinischen Forschung müssen verschiedene Krankenhäuser klinische Beobachtungsdaten für gemeinsame Analysen austauschen, aber diese Daten betreffen die Privatsphäre von Patienten
Kommunikationsressourcenbeschränkungen: In praktischen verteilten Systemen sind Kommunikationsbandbreite und Energieverbrauch wichtige Einschränkungen
Datenschutzlecks-Risiken: Traditionelle verteilte Schätzungsalgorithmen übertragen direkt Schätzwerte oder Beobachtungsdaten, was leicht zur Offenlegung sensibler Informationen führt

Einschränkungen bestehender Methoden

Homomorphe Verschlüsselungsmethoden: Bieten zwar hohe dimensionale Sicherheit, aber hohe Rechenkomplexität
Stochastische Verschleierungsmethoden: Erfordern die Übertragung von Echtwertnachrichten, was in digitalen Netzwerken Quantisierungsfehler und hohe Kommunikationskosten verursacht
Bestehende Quantisierungsmethoden: Beruhen auf der Annahme, dass Quantisierungsfehler von Echtwertnachrichten vernachlässigbar sind, und die Schätzung konvergiert nicht gegen den wahren Wert

Forschungsmotivation

Dieses Papier zielt darauf ab, einen Algorithmus zu entwerfen, der die folgenden drei Anforderungen gleichzeitig erfüllt:

Die Datenschutzfähigkeit verstärkt sich dynamisch im Laufe der Zeit
Jeder Sensor überträgt pro Zeitschritt nur 1 Bit Information
Die Schätzung konvergiert fast sicher gegen den wahren Wert

Kernbeiträge

Quantifizierte Datenschutzverbesserung: Erstmals quantitative Charakterisierung der Verbesserung des Datenschutzes durch den Quantisierer; unter Gaußschem Datenschutzrauschen kann ein binärer Quantisierer das Datenschutzniveau um mindestens π/2 erhöhen
Dynamisch verstärkter Datenschutz: Einführung des Konzepts des dynamisch verstärkten Datenschutzes; die Fisher-Informationsmatrix konvergiert mit polynomialer Rate gegen Null und unterstützt mehrere Rauschtypen (Gauß, Laplace, schwanzlastige Rauschvarianten)
Extrem niedrige Kommunikationskosten: Realisierung von 1 Bit pro Sensor pro Zeitschritt, die niedrigste Datenübertragungsrate unter bestehenden quantisierten Datenschutzalgorithmen
Kooperatives Designrahmenwerk: Etablierung von Richtlinien für das kooperative Design von zeitvarianten Datenschutzrauschen und Schrittweiten, um fast sichere Konvergenz unter quantisierter Kommunikation zu gewährleisten
Datenschutz-Konvergenz-Kompromiss: Etablierung der Kompromissbeziehung zwischen Datenschutz und Konvergenzrate, um Anleitung zur Parameterwahl für praktische Anwendungen zu bieten

Methodische Erklärung

Aufgabendefinition

Betrachten Sie ein verteiltes System mit N Sensoren, wobei Sensor i den unbekannten Parameter θ ∈ ℝⁿ beobachtet:

y_{i,k} = H_{i,k}θ + w_{i,k}

wobei y_{i,k} sensible Beobachtungsdaten sind, die unter Schutz der Privatsphäre einer verteilten Parameterschätzung unterliegen müssen.

Modellarchitektur

1. Binärer Quantisierer-Entwurf

Die Kernneuerung besteht darin, Echtwertnachrichten in binäre Signale umzuwandeln:

Wenn k = nq + l, generiert Sensor i einen komprimierten Vektor φ_k, dessen l-tes Element 1 ist und die übrigen 0 sind
Berechnung des Skalars x_{i,k} = φ_k^T θ̂_{i,k-1}
Generierung von Datenschutzrauschen d_{ij,k} und Erzeugung eines binären Signals:

s_{ij,k} = {
  1,  wenn x_{i,k} + d_{ij,k} ≤ C_{ij}
  -1, andernfalls
}

2. Algorithmus 1: Binärer Quantisierer für datenschutzwahrende verteilte Schätzung

Datenschutzschutz-Schritt: Verwendung des binären Quantisierers zur Umwandlung des Schätzwerts aus dem vorherigen Zeitschritt in ein binäres Signal
Informationsfusions-Schritt: θ̌_{i,k} = θ̂_{i,k-1} + φ_k ∑_{j∈N_{i,k}} α_{ij,k}a_{ij,k}(s_{ij,k} - s_{ji,k})
Schätzungs-Update-Schritt: θ̂_{i,k} = θ̌_{i,k} + β_{i,k}H̄_i^T(y_{i,k} - H̄_iθ̂_{i,k-1})

3. Fisher-Informations-Datenschutzmaß

Verwendung der Fisher-Informationsmatrix I_S(y) als Datenschutzmaß:

I_S(y) = E[[(∂ln(P(S|y))/∂y)][(∂ln(P(S|y))/∂y)]^T|y]

Eine kleinere Fisher-Information bedeutet besseren Datenschutz.

Technische Innovationspunkte

1. Signalvergleichsmechanismus

Im Gegensatz zu traditionellen Quantisierungsmethoden verwendet dieses Papier den Vergleich benachbarter binärer Signale (s_{ij,k} - s_{ji,k}) für die Informationsfusion, wodurch die Einschränkungen voreingenommener Kompressionsmechanismen vermieden werden.

2. Kooperative Designrichtlinien

Etablierung kooperativer Designrichtlinien für die Datenschutzrausch-Verteilungen {F_{ij,k}(·)} und Schrittweiten-Sequenzen {α_{ij,k}, β_{i,k}}:

Datenschutzrauschen kann zeitvariabel sein und sogar polynomiales Wachstum zulassen
Der Schrittweiten-Entwurf muss Bedingungen der stochastischen Approximation erfüllen und die Charakteristiken der quantisierten Kommunikation berücksichtigen

3. Markov-schaltende Topologie

Unterstützung von Kommunikationsgraphen, die zwischen G^{(1)}, ..., G^{(M)} Markov-schalten, um praktische Szenarien wie Verbindungsausfälle zu simulieren.

Experimentelle Einrichtung

Datensatz

Sensornetzwerk: 8-Sensor-System
Kommunikationstopologie: 4 schaltende Graphen (wie in Abbildung 1 gezeigt), Markov-Schaltung
Parametereinstellung: θ = 1, -1^T, Sensor-Ausfallwahrscheinlichkeit 0,5
Rauschmodell: Beobachtungsrauschen ist nullmittelwertiges Gaußsches Rauschen mit Standardabweichung 0,1

Bewertungsindikatoren

Schätzungsfehler: (1/100N)∑∑||θ̃^ς_{i,k}||²
Datenschutzniveau: Obergrenze von EI_S(y_{i,k})
Konvergenzrate: Polynomiale Konvergenzraten-Analyse

Vergleichsmethoden

Methode aus Referenz 18: Traditionelle differentielle Datenschutz-verteilte Schätzung
Algorithmus 2 aus Referenz 28: Binäre Kommunikation ohne Datenschutzberücksichtigung
Keine Kommunikation: Validierung der Kommunikationsnotwendigkeit

Implementierungsdetails

Schrittweiten: α_{ij,k} = 3/k^{0.8}, β_{i,k} = 3/k (für k≥8)
Datenschutzrauschen: Gauß N(0,σ²_{ij,k}), Laplace Lap(0,b_{ij,k}), Cauchy Cauchy(0,r_{ij,k})
Rauschparameter: σ_{ij,k} = b_{ij,k} = r_{ij,k} = k^{0.15}

Experimentelle Ergebnisse

Hauptergebnisse

1. Konvergenzvalidierung (Abbildung 2)

Der Algorithmus dieses Papiers konvergiert unter allen drei Arten von Datenschutzrauschen
Im Vergleich zu Referenz 18 wird ähnlicher Schätzungsfehler mit besserem Datenschutz erreicht
Im Vergleich zu Referenz 28 ist der Schätzungsfehler nach 1000 Iterationen kleiner
Ohne Kommunikation konvergiert die Schätzung nicht, was die Notwendigkeit der Kommunikation validiert

2. Datenschutzschutz-Effekt (Abbildung 3)

Die Obergrenze der Nicht-Null-Elemente der Fisher-Informationsmatrix nimmt mit der Zeit ab
Alle drei Arten von Datenschutzrausch-Typen erreichen dynamisch verstärkten Datenschutz
Das Datenschutzniveau ist deutlich besser als in Referenz 18

3. Datenschutz-Konvergenz-Kompromiss (Abbildung 4)

Verschiedene χ-Werte (1,3, 1,6, 1,9) zeigen die Kompromissbeziehung
Je größer der χ-Wert, desto besser der Datenschutz, aber desto langsamer die Konvergenz
Validiert die Kompromissbeziehung der theoretischen Analyse

Ablationsstudien

Auswirkung der Entfernung von φ_k: Im hochdimensionalen Fall (n=12) konvergiert der modifizierte Algorithmus ohne φ_k schneller
Vergleich verschiedener Rauschtypen: Gauß-, Laplace- und Cauchy-Rauschen sind alle wirksam

Fallstudie

Medizinische Anwendungsexperimente

Daten: Analyse der Bluthochdruck-Ereignisrate bei 281.299 britischen Weißen
Einrichtung: 20-Sensor-Netzwerk, Ereignisrate θ≈0,2699
Ergebnis: Erfolgreiche Realisierung datenschutzwahrener verteilter Schätzung

Experimentelle Erkenntnisse

1-Bit-Kommunikation ist machbar: Beweist, dass effektive Schätzung auch unter extrem niedrigen Kommunikationskosten möglich ist
Kompatibilität mit wachsendem Rauschen: Der Algorithmus kann Datenschutzrauschen verarbeiten, das mit der Zeit wächst
Robustheit gegenüber schwanzlastigem Rauschen: Schwanzlastiges Rauschen wie die Cauchy-Verteilung beeinträchtigt die Konvergenz nicht

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

Theoretischer Beitrag: Erstmals quantitative Charakterisierung des multiplikativen Verbesserungseffekts des Quantisierers auf den Datenschutz
Algorithmus-Leistung: Realisierung von dynamisch verstärktem Datenschutz, 1-Bit-Kommunikation und fast sicherer Konvergenz
Praktischer Wert: Bereitstellung von Anleitung zur Parameterwahl für den Datenschutz-Konvergenz-Kompromiss

Einschränkungen

Dimensionsbeschränkung: Der φ_k-Mechanismus konvergiert bei hochdimensionalen Parametern langsamer (kann durch Modifikation gemildert werden)
Rausch-Annahmen: Erfordert die Erfüllung spezifischer Rauschverteilungs-Annahmen
Netzwerktopologie: Annahme der gemeinsamen Konnektivität; praktische Netzwerke können komplexer sein

Zukünftige Richtungen

Verteilte Optimierungserweiterung: Anwendung der Methode auf verteilte Optimierungsprobleme
Beobachtungsmatrix-Schutz: Erweiterung auf den Schutz der Privatsphäre der Messmatrix H_{i,k}
Adaptive Parameterauswahl: Entwicklung adaptiver Strategien zur Auswahl von Datenschutzrauschen und Schrittweiten

Tiefgreifende Bewertung

Stärken

Theoretische Strenge: Vollständige Konvergenz- und Datenschutz-Theorieanalyse, einschließlich fast sicherer Konvergenzraten und Fisher-Informations-Konvergenzraten
Praktische Innovativität: 1-Bit-Kommunikation ist die niedrigste unter bestehenden Methoden mit wichtigem praktischem Wert
Einheitliches Rahmenwerk: Unterstützung mehrerer Rauschtypen (Gauß, Laplace, Cauchy) mit einheitlichem Analyserahmen
Quantitative Charakterisierung: Erstmals quantitative Analyse der Verbesserung des Datenschutzes durch den Quantisierer

Mängel

Fehlende Komplexitätsanalyse: Keine Analyse der Rechenkomplexität des Algorithmus
Anleitung zur Parameterwahl: Obwohl theoretische Anleitung vorhanden ist, erfordert die praktische Parameterwahl noch Erfahrung
Unzureichende Großmaßstab-Validierung: Experimenteller Maßstab ist relativ klein; Validierung in großen Netzwerken fehlt

Auswirkungen

Theoretischer Beitrag: Das Fisher-Informations-Rahmenwerk für die Datenschutzanalyse legt den Grundstein für nachfolgende Forschung
Praktischer Wert: Extrem niedrige Kommunikationskosten machen den Algorithmus für ressourcenbegrenzte Umgebungen geeignet
Interdisziplinäre Anwendungen: Anwendungsaussichten in mehreren Bereichen wie Medizin, intelligente Stromnetze usw.

Anwendungsszenarien

Medizinischer Datenaustausch: Szenarien mit gemeinsamer Forschung mehrerer Krankenhäuser
IoT-Sensorik: Ressourcenbegrenzte Sensornetzwerke
Intelligente Stromnetze: Verteilte Zustandsschätzung und Datenschutzwahrung
Finanzielle Risikokontrolle: Kooperative Risikobewertung mehrerer Institutionen

Literaturverzeichnis

Das Papier zitiert 60 verwandte Literaturquellen, die wichtige Arbeiten in mehreren Bereichen wie verteilte Schätzung, Datenschutzwahrung und quantisierte Kommunikation abdecken und eine solide theoretische Grundlage für die Forschung bieten.

Gesamtbewertung: Dies ist ein hochqualitatives Papier mit Fokus auf Theorie und Anwendung, das wichtige Beiträge im Bereich der datenschutzwahrenden verteilten Schätzung leistet. Der Algorithmus-Entwurf ist elegant, die theoretische Analyse ist streng, die experimentelle Validierung ist umfassend und das Papier hat wichtigen akademischen Wert und praktische Bedeutung.