2025-11-12T19:28:10.441432

AquaCluster: Using Satellite Images And Self-supervised Machine Learning Networks To Detect Water Hidden Under Vegetation

Iakovidis, Kalantari, Payberah et al.
In recent years, the wide availability of high-resolution radar satellite images has enabled the remote monitoring of wetland surface areas. Machine learning models have achieved state-of-the-art results in segmenting wetlands from satellite images. However, these models require large amounts of manually annotated satellite images, which are slow and expensive to produce. The need for annotated training data makes it difficult to adapt these models to changes such as different climates or sensors. To address this issue, we employed self-supervised training methods to develop a model, AquaCluster, which segments radar satellite images into water and land areas without manual annotations. Our final model outperformed other radar-based water detection techniques that do not require annotated data in our test dataset, having achieved a 0.08 improvement in the Intersection over Union metric. Our results demonstrate that it is possible to train machine learning models to detect vegetated water from radar images without the use of annotated data, which can make the retraining of these models to account for changes much easier.
academic

AquaCluster: Verwendung von Satellitenbildern und selbstüberwachten Machine-Learning-Netzwerken zur Erkennung von Wasser unter Vegetation

Grundinformationen

  • Paper-ID: 2506.08214
  • Titel: AquaCluster: Using Satellite Images And Self-supervised Machine Learning Networks To Detect Water Hidden Under Vegetation
  • Autoren: Ioannis Iakovidis, Zahra Kalantari, Amir H. Payberah, Fernando Jaramillo, Francisco J. Peña
  • Klassifizierung: cs.CV (Computervision)
  • Veröffentlichungsdatum: 16. Oktober 2025 (Preprint)
  • Paper-Link: https://arxiv.org/abs/2506.08214v3

Zusammenfassung

Die weit verbreitete Verfügbarkeit hochauflösender Radar-Satellitenbilder hat in den letzten Jahren die Fernüberwachung der Feuchtgebietsfläche ermöglicht. Machine-Learning-Modelle haben bei der Feuchtgebietssegmentierung in Satellitenbildern modernste Ergebnisse erreicht. Diese Modelle erfordern jedoch große Mengen manuell annotierter Satellitenbilder, deren Erstellung kostspielig und zeitaufwändig ist. Die Abhängigkeit von annotierten Trainingsdaten macht es diesen Modellen schwierig, sich an Veränderungen wie unterschiedliche Klimazonen oder Sensoren anzupassen. Um dieses Problem zu lösen, wurde in dieser Forschung die AquaCluster-Methode unter Verwendung selbstüberwachter Trainingsmethoden entwickelt. Diese kann Radar-Satellitenbilder ohne manuelle Annotation in Wasser- und Landflächen segmentieren. Im Testdatensatz zeigt das Modell die beste Leistung bei der Radar-Wasserkörpererkennung ohne Annotationsdaten und erreicht eine Verbesserung von 0,08 bei der Intersection-over-Union (IoU)-Metrik. Die Forschungsergebnisse zeigen, dass Machine-Learning-Modelle zur Erkennung von unter Vegetation verborgenen Wasserkörpern aus Radarbildern trainiert werden können, ohne annotierte Daten zu verwenden. Dies macht es einfacher, Modelle umzuschulen, um sich an Veränderungen anzupassen.

Forschungshintergrund und Motivation

Problemhintergrund

  1. Bedeutung der Feuchtgebietsüberwachung: Obwohl Feuchtgebiete nur einen kleinen Teil der Erdoberfläche ausmachen, spielen sie eine Schlüsselrolle beim Umweltschutz und der Abwehr von Klimaauswirkungen, einschließlich Wasserklärbarmachung, Hochwasserrisikominderung und Kohlenstoffspeicherung. Aufgrund des Klimawandels und menschlicher Aktivitäten verschwinden Feuchtgebiete jedoch in alarmierendem Tempo.
  2. Herausforderungen bei der Erkennung von unter Vegetation verborgenen Wasserkörpern: Herkömmliche optische Satellitenbilder funktionieren gut bei der Erkennung offener Wasserflächen, sind aber bei der Erkennung von teilweise oder vollständig von Vegetation bedeckten Feuchtgebietswasserkörpern schwierig, da optische Sensoren nicht durch Vegetation eindringen können. Obwohl Radarsensoren durch Vegetation eindringen und darunter liegende Wasserkörper erkennen können, enthalten Radarbilder Rauschen (wie Speckle-Rauschen), das die Unterscheidung zwischen Wasser und Land erschwert.
  3. Einschränkungen bestehender Methoden:
    • Obwohl tiefe Lernmodelle wie CNNs bei der Feuchtgebietssegmentierung hervorragende Ergebnisse erzielen, benötigen sie große Mengen annotierter Daten
    • Die Erstellung annotierter Daten ist kostspielig und zeitaufwändig, besonders in der Fernerkundung, die Fachkenntnisse erfordert
    • Modelle können sich schwer an unterschiedliche Klimabedingungen oder Sensorveränderungen anpassen
    • Sie sind auf globale oder nationale Datensätze angewiesen, die eine niedrige Aktualisierungsfrequenz haben und saisonale Wasserkörperüberwachung nicht erfüllen können

Forschungsmotivation

Die Kernmotivation dieser Forschung ist die Entwicklung eines vollständig selbstüberwachten Machine-Learning-Frameworks, das nur Radar-Satellitenbilder verwendet, um Feuchtgebietswasser- und Landsegmentierung zu erreichen. Dies löst das Problem der Abhängigkeit von annotierten Daten und verbessert die Skalierbarkeit und Anpassungsfähigkeit des Modells.

Kernbeiträge

  1. Vorstellung des AquaCluster-Frameworks: Ein vollständig selbstüberwachtes Machine-Learning-Framework, das nur Radar-Satellitenbilder für die semantische Feuchtgebietssegmentierung verwendet und die Herausforderung der Erkennung von Wasserkörpern unter Vegetation ohne annotierte Daten löst.
  2. Einführung einer Ensemble-Modellversion: Um Genauigkeit und Stabilität zu verbessern, wurde eine Ensemble-Version vorgeschlagen, die Vorhersageergebnisse mehrerer unabhängig trainierter Netzwerke kombiniert.
  3. Validierung der Wirksamkeit des Trainings ohne Annotation: Es wurde nachgewiesen, dass das Ensemble-AquaCluster-Modell auf demselben Datensatz besser ist als die statistische Baseline-Methode Otsu und das optische Dynamic-World-Modell.
  4. Bereitstellung einer Open-Source-Implementierung: Alle Quellcodes, Testdatensätze und vortrainierten Modelle werden auf GitHub veröffentlicht, um die Forschungsreplikation und Anwendungsförderung zu unterstützen.

Methodische Details

Aufgabendefinition

Eingabe: Radar-Satellitenbilder (Sentinel-1 C-Band) Ausgabe: Pixel-Level-Wasser-Land-Binärklassifizierungssegmentierungskarte Einschränkung: Vollständig unüberwachtes Training ohne manuelle Annotationsdaten

Modellarchitektur

AquaCluster verwendet eine selbstüberwachte Trainingstrategie, die tiefe Clusterung mit negativer Stichprobenziehung kombiniert und enthält hauptsächlich die folgenden Komponenten:

1. Kodierungs-Submodell (Encoding Sub-model)

  • Basierend auf verbesserter U-Net-Architektur
  • Enthält Kontraktions- und Expansionspfade
  • Ersetzt transponierte Faltungsschichten durch einfache Upsampling-Schichten, um Schachbrettartefakte zu vermeiden
  • Erzeugt Kodierungsvektoren für jeden Pixel

2. Vorhersage-Submodell (Prediction Sub-model)

  • Einschichtige CNN-Architektur
  • Konvertiert Pixel-Level-Kodierungen in Klassenwahrscheinlichkeiten
  • Gibt Klassenzahl (N_class=10) aus, die größer als die echte Klassenzahl (2) ist

3. Drei Trainingspfade

  • Standard-Trainingspfad: Verarbeitet ursprüngliche Bildblöcke
  • Verbesserter Trainingspfad: Verarbeitet mit Gaußscher Unschärfe verbesserte Bildblöcke
  • Verbesserter gemischter Trainingspfad: Verarbeitet gemischte verbesserte Bildblöcke

Trainingsalgorithmus

Der Trainingsprozess umfasst 11 Schritte, wobei die Kernidee tiefe Clusterung und negative Stichprobenziehung kombiniert:

Tiefe Clusterungs-Verlustfunktion

L_c = Σ gewichtete_Kreuzentropie(Pseudo-Labels, Vorhersagen)
L̂_c = Σ gewichtete_Kreuzentropie(verbesserte_Pseudo-Labels, verbesserte_Vorhersagen)

Räumliche Konsistenz-Verlustfunktion

  • Positive Stichprobenpaarverlust: L_p = Σ|P_original - P_verbessert|
  • Negative Stichprobenpaarverlust: L_n = -Σ|P_original - P_gemischt|

Gesamtverlustfunktion

L = α_c × (L_c + L̂_c) + α_p × L_p + α_n × L_n

Technische Innovationspunkte

  1. Nutzung räumlicher Informationen: Erstellt positive Stichprobenpaare durch Gaußsche Unschärfe und nutzt die räumliche Kontinuität von Satellitenbildern
  2. Multi-Klassen-Ausgabestrategie: Verwendet 10 Modellklassen statt 2 echte Klassen, um die Segmentierungsgranularität zu verbessern
  3. Nachbearbeitungs-Mapping: Bildet Modellklassen durch IoU-Messung auf echte Wasser-Land-Klassen ab
  4. Ensemble-Lernen: Reduziert die Instabilität einzelner Modelle durch Multi-Modell-Abstimmung

Experimentelle Einrichtung

Datensätze

Trainingsdatensatz

  • Örebro-Radardatensatz: Radar-Satellitenbilder von Feuchtgebieten in der Grafschaft Örebro, Schweden
  • Erfassungszeit: 4. Juli 2018
  • Auflösung: 10-Meter-Pixelauflösung
  • Datenteilung: 639 Bildblöcke mit 512×512 Pixeln, 80% Training, 20% Validierung
  • Wasserpixel-Verhältnis: 9,42%

Testdatensatz

  • Swedish Wetlands Radardatensatz: 39 Radarbilder von drei schwedischen Feuchtgebieten
  • Feuchtgebietsnamen: Hjalstaviken, Hornborgarsjon, Svartadalen
  • Zeitraum: 2018-2019 (Dezember bis März ausgeschlossen, um Schneeeinfluss zu vermeiden)
  • Bildgröße: 266×669 bis 1049×1667 Pixel
  • Wasserpixel-Verhältnis: 22,27%

Bewertungsmetriken

  1. Genauigkeit (Accuracy): (TP+TN)/(TP+TN+FP+FN)
  2. Präzision (Precision): TP/(TP+FP)
  3. Recall (Erinnerung): TP/(TP+FN)
  4. F1-Score: 2×(Präzision×Recall)/(Präzision+Recall)
  5. Intersection-over-Union (IoU): (A_pred ∩ A_gt + ε)/(A_pred ∪ A_gt + ε)

Vergleichsmethoden

  1. Otsu-Schwellenwert-Segmentierung: Unüberwachte statistische Methode, die die Klassenvarianz minimiert
  2. Dynamic World: Machine-Learning-Landbedeckungsdatensatz basierend auf optischen Bildern

Implementierungsdetails

  • Training von 10 unabhängigen AquaCluster-Modellen
  • Ensemble-Methode verwendet pixelweise einfache Mehrheitsabstimmung
  • Verwendung leichter Modellarchitektur zur Gewährleistung der Effizienz
  • Verlustgewichte: α_c, α_p, α_n müssen optimiert werden

Experimentelle Ergebnisse

Hauptergebnisse

ModellGenauigkeitPräzisionRecallF1-ScoreIoU
Otsu0,960,900,890,890,81
Dynamic World0,940,870,820,840,73
AquaCluster0,970,880,950,910,85
AquaCluster Ensemble0,980,920,960,940,89

Wichtigste Erkenntnisse

  1. Ensemble-Modell ist optimal: Die AquaCluster-Ensemble-Version zeigt die beste Leistung bei allen Metriken
  2. Signifikante Recall-Verbesserung: Im Vergleich zur Otsu-Methode zeigt AquaCluster erhebliche Verbesserungen bei Recall und IoU
  3. Überlegen gegenüber optischen Methoden: Dynamic World zeigt die schlechteste Leistung bei allen Metriken, was die Vorteile von Radardaten bei der Erkennung von unter Vegetation verborgenen Wasserkörpern demonstriert
  4. Modellstabilität: Einzelne AquaCluster-Modelle zeigen große Leistungsschwankungen (IoU von 0,7 bis 0,9), die Ensemble-Methode verbessert die Stabilität wirksam

Fallstudienanalyse

Aus den Visualisierungsergebnissen ist Folgendes ersichtlich:

  • Otsu-Methode: Erzeugt rauschreiche Annotationen, schwierig bei der Verarbeitung von Radarbildrauschen
  • Dynamic World: Zeigt schlechte Leistung in Wasser-Land-Grenzenbereichen
  • Einzelnes AquaCluster: Gute Segmentierungsqualität, aber Fehlklassifizierung einiger dunklerer Bodengebiete als Wasser
  • Ensemble AquaCluster: Reduziert Landflächen-Fehlklassifizierungsprobleme erheblich

Verwandte Arbeiten

Machine-Learning-Anwendungen in der Feuchtgebietserkennung

  1. Traditionelle Methoden: Zufallswälder, Support-Vector-Maschinen und andere Anwendungen auf Einzelpixel-Klassifizierung
  2. CNN-Methoden: Mahdianpari et al. waren die ersten, die CNN auf Feuchtgebietskartierung anwendeten und die Überlegenheit von CNN gegenüber traditionellen Methoden nachwiesen
  3. Komplexe Architekturen: Zwei-Pfad-CNN, Aufmerksamkeitsmechanismen, verbesserte U-Net und andere zur Leistungsverbesserung
  4. Multimodale Fusion: Kombination von optischen und Radardaten zur Nutzung ihrer jeweiligen Vorteile

Selbstüberwachtes Lernen in der Fernerkundung

  1. Kontrastives Lernen: SimCLR und andere Methoden angepasst an Multi-Label-Klassifizierung von Satellitenbildern
  2. Nutzung zeitlicher Daten: Verwendung von Bildern derselben Region in verschiedenen Jahreszeiten zur Erstellung positiver Stichprobenpaare
  3. Clusterungs-Methoden: Unüberwachte Bildsegmentierungsalgorithmen zur Generierung positiver und negativer Stichprobenpaare

Der Vorteil dieser Arbeit gegenüber bestehenden Arbeiten liegt in der speziellen Auslegung für Radarbilder, ohne optische Daten erforderlich zu sein, und vollständig selbstüberwachtem Training.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Technische Machbarkeit: Demonstriert die Machbarkeit der vollständig selbstüberwachten Feuchtgebietssegmentierung nur mit Radarbildern
  2. Überlegene Leistung: Erreicht eine Verbesserung von 0,08 bei der IoU-Metrik im Vergleich zu Baseline-Methoden mit einer hohen Leistung von 0,89
  3. Praktischer Wert: Beseitigt die Abhängigkeit von annotierten Daten und optischen Bildern, verbessert die Anpassungsfähigkeit und Skalierbarkeit des Modells

Einschränkungen

  1. Geografische Einschränkung: Nur in schwedischen Feuchtgebieten getestet, die Generalisierungsfähigkeit muss noch überprüft werden
  2. Saisonale Einschränkung: Winterdaten ausgeschlossen, die Verarbeitungsfähigkeit für schneebedeckte Gebiete ist unbekannt
  3. Modellinstabilität: Große Leistungsschwankungen einzelner Modelle, Ensemble-Methode erforderlich zur Stabilitätsverbesserung
  4. Abhängigkeit von Nachbearbeitung: Nachbearbeitungsschritte erforderlich, um Modellklassen auf echte Klassen abzubilden

Zukünftige Richtungen

  1. Validierung über Regionen hinweg: Testen der Modellgeneralisierungsfähigkeit unter verschiedenen Klima- und geografischen Bedingungen
  2. Multi-Sensor-Fusion: Erkundung der Kombination mit anderen Sensordaten
  3. Zeitliche Modellierung: Nutzung von Multi-Temporal-Daten zur Verbesserung der Erkennungsgenauigkeit
  4. End-to-End-Optimierung: Reduzierung von Nachbearbeitungsschritten, Erreichung direkterem Training

Tiefgreifende Bewertung

Stärken

  1. Starke Problemspezifität: Zielt auf das spezifische und wichtige Problem der Erkennung von unter Vegetation verborgenen Wasserkörpern ab
  2. Methodische Innovativität: Kombiniert tiefe Clusterung mit negativer Stichprobenziehung und nutzt vollständig die Eigenschaften von Radarbildern
  3. Angemessenes Experimentdesign: Angemessene Auswahl von Vergleichsmethoden, umfassende Bewertungsmetriken
  4. Open-Source-Beitrag: Bereitstellung vollständiger Codes und Daten zur Förderung der Forschungsreplikation
  5. Hoher praktischer Wert: Löst das praktische Problem der Knappheit annotierter Daten in Anwendungen

Mängel

  1. Datensatzgröße-Einschränkung: Der Testdatensatz ist relativ klein (39 Bilder), was die Universalität der Schlussfolgerungen beeinflussen kann
  2. Methodische Komplexität: Erfordert Training mehrerer Modelle und Ensemble, höhere Rechenkosten
  3. Hyperparameter-Empfindlichkeit: Die Auswahl von Verlustfunktionsgewichten und anderen Hyperparametern fehlt detaillierte Analyse
  4. Unzureichende theoretische Analyse: Mangel an Analyse der Konvergenz der Methode und theoretischer Garantien

Einfluss

  1. Akademischer Beitrag: Bietet neue Perspektiven für selbstüberwachte Fernerkundungsbildanalyse
  2. Praktischer Wert: Hat wichtige Anwendungswerte für Feuchtgebietsüberwachung und Umweltschutz
  3. Technologieförderung: Open-Source-Implementierung fördert die breite Anwendung und Verbesserung der Methode
  4. Interdisziplinärer Einfluss: Verbindet Computervision, Fernerkundung und Umweltwissenschaften

Anwendungsszenarien

  1. Feuchtgebietsüberwachung: Dynamische Überwachung saisonaler Feuchtgebiete
  2. Umweltbewertung: Bewertung der Ökosystemgesundheit
  3. Klimaforschung: Bewertung des Kohlenstoffspeichers und Analyse der Klimawandelauswirkungen
  4. Ressourcenmanagement: Wassermanagement und Schutzplanung
  5. Katastrophenüberwachung: Hochwasserüberwachung und Risikobewertung

Literaturverzeichnis

Das Papier zitiert 60 verwandte Literaturquellen, die wichtige Arbeiten in mehreren Bereichen abdecken, einschließlich Feuchtgebietsökologie, Fernerkundungstechnik, tiefes Lernen und selbstüberwachtes Lernen, und bietet eine solide theoretische Grundlage für die Forschung.


Gesamtbewertung: Dies ist ein hochwertiges anwendungsorientiertes Forschungspapier, das eine innovative Lösung für praktische Probleme bietet, mit gewissen technischen Beiträgen und hohem praktischem Wert. Obwohl es in theoretischer Analyse und Datensatzgröße einige Mängel aufweist, machen sein Open-Source-Beitrag und praktischer Anwendungswert es zu einer wichtigen Arbeit auf diesem Gebiet.