2025-11-12T19:28:10.441432

AquaCluster: Using Satellite Images And Self-supervised Machine Learning Networks To Detect Water Hidden Under Vegetation

Iakovidis, Kalantari, Payberah et al.

In recent years, the wide availability of high-resolution radar satellite images has enabled the remote monitoring of wetland surface areas. Machine learning models have achieved state-of-the-art results in segmenting wetlands from satellite images. However, these models require large amounts of manually annotated satellite images, which are slow and expensive to produce. The need for annotated training data makes it difficult to adapt these models to changes such as different climates or sensors. To address this issue, we employed self-supervised training methods to develop a model, AquaCluster, which segments radar satellite images into water and land areas without manual annotations. Our final model outperformed other radar-based water detection techniques that do not require annotated data in our test dataset, having achieved a 0.08 improvement in the Intersection over Union metric. Our results demonstrate that it is possible to train machine learning models to detect vegetated water from radar images without the use of annotated data, which can make the retraining of these models to account for changes much easier.

academic

AquaCluster : Utilisation d'Images Satellites et de Réseaux d'Apprentissage Automatique Auto-supervisés pour Détecter l'Eau Cachée sous la Végétation

Informations Fondamentales

ID de l'article : 2506.08214
Titre : AquaCluster: Using Satellite Images And Self-supervised Machine Learning Networks To Detect Water Hidden Under Vegetation
Auteurs : Ioannis Iakovidis, Zahra Kalantari, Amir H. Payberah, Fernando Jaramillo, Francisco J. Peña
Classification : cs.CV (Vision par Ordinateur)
Date de Publication : 16 octobre 2025 (Préimpression)
Lien de l'article : https://arxiv.org/abs/2506.08214v3

Résumé

La disponibilité croissante d'images satellites radar haute résolution a rendu possible la surveillance à distance de la superficie des zones humides. Les modèles d'apprentissage automatique ont atteint des résultats de pointe dans la segmentation des zones humides à partir d'images satellites. Cependant, ces modèles nécessitent un grand nombre d'images satellites annotées manuellement, dont la production est coûteuse et chronophage. La dépendance aux données d'entraînement annotées rend ces modèles difficiles à adapter à des changements tels que les différents climats ou capteurs. Pour résoudre ce problème, cette recherche développe le modèle AquaCluster en utilisant des méthodes d'entraînement auto-supervisées, qui peut segmenter les images satellites radar en zones aquatiques et terrestres sans annotation manuelle. Sur l'ensemble de données de test, le modèle affiche les meilleures performances parmi les techniques de détection d'eau radar ne nécessitant pas de données annotées, avec une amélioration de 0,08 sur la métrique d'intersection sur union (IoU). Les résultats montrent qu'il est possible d'entraîner des modèles d'apprentissage automatique pour détecter l'eau couverte de végétation à partir d'images radar sans utiliser de données annotées, ce qui facilite le réentraînement des modèles pour s'adapter aux changements.

Contexte et Motivation de la Recherche

Contexte du Problème

Importance de la surveillance des zones humides : Bien que les zones humides ne couvrent qu'une petite partie de la surface terrestre, elles jouent un rôle crucial dans la protection de l'environnement et l'atténuation des impacts climatiques, notamment en purifiant la qualité de l'eau, en réduisant les risques d'inondation et en stockant d'importantes quantités de carbone. Cependant, en raison du changement climatique et des activités humaines, les zones humides disparaissent à un rythme alarmant.
Défis de la détection d'eau couverte de végétation : Les images satellites optiques traditionnelles fonctionnent bien pour détecter les plans d'eau ouverts, mais ont des difficultés à détecter l'eau des zones humides partiellement ou complètement couverte de végétation, car les capteurs optiques ne peuvent pas pénétrer la végétation. Bien que les capteurs radar puissent pénétrer la végétation pour détecter l'eau en dessous, les images radar contiennent du bruit (comme le bruit de chatoiement), ce qui rend difficile la distinction entre l'eau et la terre.
Limitations des méthodes existantes :
- Bien que les modèles d'apprentissage profond tels que les CNN affichent d'excellentes performances dans les tâches de segmentation des zones humides, ils nécessitent de grandes quantités de données annotées
- La production de données annotées est coûteuse et chronophage, en particulier dans le domaine de la télédétection qui nécessite des connaissances spécialisées
- Les modèles sont difficiles à adapter à différentes conditions climatiques ou changements de capteurs
- Ils dépendent de jeux de données mondiaux ou nationaux avec une faible fréquence de mise à jour, ce qui ne peut pas répondre aux besoins de surveillance des zones aquatiques saisonnières

Motivation de la Recherche

La motivation centrale de cette recherche est de développer un cadre d'apprentissage automatique entièrement auto-supervisé capable de réaliser la segmentation eau-terre des zones humides en utilisant uniquement des images satellites radar, résolvant ainsi le problème de dépendance aux données annotées et améliorant la scalabilité et l'adaptabilité du modèle.

Contributions Principales

Proposition du cadre AquaCluster : Un cadre d'apprentissage automatique entièrement auto-supervisé pour la segmentation sémantique des zones humides utilisant uniquement des images satellites radar, résolvant le défi de la détection d'eau sous la végétation sans données annotées.
Introduction d'une version de modèle d'ensemble : Pour améliorer la précision et la stabilité, une version d'ensemble est proposée, combinant les résultats de prédiction de plusieurs réseaux entraînés indépendamment.
Validation de l'efficacité de l'entraînement sans annotation : Démonstration que le modèle AquaCluster d'ensemble surpasse les méthodes de base statistiques Otsu et le modèle Dynamic World basé sur l'optique sur le même ensemble de données.
Fourniture d'une implémentation open-source : Tous les codes source, ensembles de données de test et modèles pré-entraînés sont disponibles en open-source sur GitHub, favorisant la reproduction de la recherche et la promotion des applications.

Explication Détaillée de la Méthode

Définition de la Tâche

Entrée : Image satellite radar (bande C Sentinel-1) Sortie : Carte de segmentation binaire eau-terre au niveau des pixels Contrainte : Entraînement entièrement non supervisé sans utiliser de données annotées manuellement

Architecture du Modèle

AquaCluster adopte une stratégie d'entraînement auto-supervisée combinant le clustering profond et l'échantillonnage négatif, comprenant principalement les composants suivants :

1. Sous-modèle d'Encodage (Encoding Sub-model)

Basé sur une architecture U-Net améliorée
Contient des chemins de contraction et d'expansion
Remplace les couches de convolution transposée par des couches de suréchantillonnage simples pour éviter les artefacts en damier
Génère des vecteurs d'encodage pour chaque pixel

2. Sous-modèle de Prédiction (Prediction Sub-model)

Architecture CNN à une seule couche
Convertit les encodages au niveau des pixels en probabilités de classe
Produit un nombre de classes (N_class=10) supérieur au nombre réel de classes (2)

3. Trois Chemins d'Entraînement

Chemin d'entraînement standard : Traite les blocs d'image originaux
Chemin d'entraînement augmenté : Traite les blocs d'image augmentés par flou gaussien
Chemin d'entraînement augmenté mélangé : Traite les blocs d'image augmentés et mélangés

Algorithme d'Entraînement

Le processus d'entraînement comprend 11 étapes, l'idée centrale étant de combiner le clustering profond et l'échantillonnage négatif :

Perte de Clustering Profond

L_c = Σ weighted_cross_entropy(pseudo_labels, predictions)
L̂_c = Σ weighted_cross_entropy(augmented_pseudo_labels, augmented_predictions)

Perte de Cohérence Spatiale

Perte de paires positives : L_p = Σ|P_original - P_augmented|
Perte de paires négatives : L_n = -Σ|P_original - P_shuffled|

Fonction de Perte Totale

L = α_c × (L_c + L̂_c) + α_p × L_p + α_n × L_n

Points d'Innovation Technique

Utilisation d'informations spatiales : Création de paires positives par flou gaussien, exploitant la continuité spatiale des images satellites
Stratégie de sortie multi-classe : Utilisation de 10 classes de modèle plutôt que 2 classes réelles, améliorant la granularité de la segmentation
Mappage post-traitement : Mappage des classes de modèle aux classes réelles eau-terre via la métrique IoU
Apprentissage d'ensemble : Réduction de l'instabilité des modèles individuels par vote multi-modèles

Configuration Expérimentale

Ensembles de Données

Ensemble de Données d'Entraînement

Ensemble de données radar d'Örebro : Images satellites radar de zones humides du comté d'Örebro, Suède
Date de collecte : 4 juillet 2018
Résolution : Résolution de pixel de 10 mètres
Division des données : 639 blocs d'image de 512×512 pixels, 80% entraînement, 20% validation
Proportion de pixels d'eau : 9,42%

Ensemble de Données de Test

Ensemble de données radar des zones humides suédoises : 39 images radar de trois zones humides suédoises
Noms des zones humides : Hjalstaviken, Hornborgarsjon, Svartadalen
Plage temporelle : 2018-2019 (excluant décembre à mars pour éviter l'interférence de la neige)
Taille des images : 266×669 à 1049×1667 pixels
Proportion de pixels d'eau : 22,27%

Métriques d'Évaluation

Précision (Accuracy) : (TP+TN)/(TP+TN+FP+FN)
Précision (Precision) : TP/(TP+FP)
Rappel (Recall) : TP/(TP+FN)
Score F1 : 2×(Precision×Recall)/(Precision+Recall)
Intersection sur Union (IoU) : (A_pred ∩ A_gt + ε)/(A_pred ∪ A_gt + ε)

Méthodes de Comparaison

Seuillage Otsu : Méthode non supervisée basée sur les statistiques, minimisant la variance intra-classe
Dynamic World : Ensemble de données d'apprentissage automatique de couverture terrestre basé sur des images optiques

Détails d'Implémentation

Entraînement de 10 modèles AquaCluster indépendants
Méthode d'ensemble utilisant un vote à majorité simple au niveau des pixels
Utilisation d'une architecture de modèle légère pour assurer l'efficacité
Poids de perte : α_c, α_p, α_n nécessitant un ajustement

Résultats Expérimentaux

Résultats Principaux

Modèle	Précision	Précision	Rappel	Score F1	IoU
Otsu	0,96	0,90	0,89	0,89	0,81
Dynamic World	0,94	0,87	0,82	0,84	0,73
AquaCluster	0,97	0,88	0,95	0,91	0,85
Ensemble AquaCluster	0,98	0,92	0,96	0,94	0,89

Résultats Clés

Optimalité du modèle d'ensemble : La version d'ensemble d'AquaCluster affiche les meilleures performances sur toutes les métriques
Amélioration significative du rappel : Par rapport à la méthode Otsu, AquaCluster montre une amélioration significative du rappel et de l'IoU
Supériorité par rapport aux méthodes optiques : Dynamic World affiche les pires performances sur toutes les métriques, démontrant l'avantage des données radar dans la détection d'eau couverte de végétation
Stabilité du modèle : Les modèles AquaCluster individuels montrent une grande variabilité de performance (IoU de 0,7 à 0,9), la méthode d'ensemble améliorant efficacement la stabilité

Analyse de Cas

À partir des résultats de visualisation, on peut observer :

Méthode Otsu : Produit des annotations bruitées, difficiles à traiter avec le bruit des images radar
Dynamic World : Performance médiocre dans les zones de transition eau-terre
AquaCluster individuel : Bonne qualité de segmentation mais classifie à tort certaines zones de sol plus sombre comme eau
Ensemble AquaCluster : Réduit significativement les erreurs de classification terrestre

Travaux Connexes

Applications de l'Apprentissage Automatique dans la Détection des Zones Humides

Méthodes traditionnelles : Forêts aléatoires, machines à vecteurs de support et autres appliquées à la classification au niveau des pixels
Méthodes CNN : Mahdianpari et al. ont été les premiers à appliquer les CNN à la cartographie des zones humides, démontrant la supériorité des CNN par rapport aux méthodes traditionnelles
Architectures complexes : CNN à deux chemins, mécanismes d'attention, U-Net amélioré et autres améliorant les performances
Fusion multimodale : Combinaison de données optiques et radar exploitant les avantages respectifs

Apprentissage Auto-supervisé en Télédétection

Apprentissage contrastif : Méthodes SimCLR et autres adaptées à la classification multi-étiquettes d'images satellites
Utilisation de données temporelles : Exploitation d'images du même secteur à différentes saisons pour créer des paires positives
Méthodes de clustering : Algorithmes de segmentation d'image non supervisée générant des paires positives et négatives

L'avantage de cet article par rapport aux travaux existants réside dans sa conception spécifique pour les images radar, sans nécessiter de données optiques, avec un entraînement entièrement auto-supervisé.

Conclusions et Discussion

Conclusions Principales

Faisabilité technique : Démontre la faisabilité de la segmentation des zones humides entièrement auto-supervisée utilisant uniquement des images radar
Supériorité des performances : Amélioration de 0,08 sur la métrique IoU par rapport aux méthodes de base, atteignant une performance élevée de 0,89
Valeur pratique : Élimine la dépendance aux données annotées et aux images optiques, améliorant l'adaptabilité et la scalabilité du modèle

Limitations

Limitation géographique : Testé uniquement sur les zones humides suédoises, la capacité de généralisation reste à vérifier
Restriction saisonnière : Exclusion des données hivernales, la capacité de traitement des zones couvertes de neige reste inconnue
Instabilité du modèle : Grande variabilité de performance des modèles individuels, nécessitant des méthodes d'ensemble pour améliorer la stabilité
Dépendance au post-traitement : Nécessite des étapes de post-traitement pour mapper les classes de modèle aux classes réelles

Directions Futures

Validation inter-régions : Test de la capacité de généralisation du modèle sous différentes conditions climatiques et géographiques
Fusion multi-capteurs : Exploration de la combinaison avec d'autres données de capteurs
Modélisation temporelle : Utilisation de données multi-temporelles pour améliorer la précision de détection
Optimisation bout-à-bout : Réduction des étapes de post-traitement, réalisant un entraînement plus direct

Évaluation Approfondie

Points Forts

Forte pertinence du problème : Adresse un problème spécifique et important de détection d'eau couverte de végétation
Innovation méthodologique : Combine le clustering profond et l'échantillonnage négatif, exploitant pleinement les caractéristiques des images radar
Conception expérimentale appropriée : Sélection judicieuse des méthodes de comparaison, métriques d'évaluation complètes
Contribution open-source : Fournit un code complet et des données, favorisant la reproduction de la recherche
Valeur pratique élevée : Résout le problème critique de rareté des données annotées dans les applications réelles

Insuffisances

Limitation de la taille de l'ensemble de données : L'ensemble de données de test est relativement petit (39 images), ce qui peut affecter la généralité des conclusions
Complexité de la méthode : Nécessite l'entraînement de plusieurs modèles et leur ensemble, avec un coût de calcul élevé
Sensibilité des hyperparamètres : Le choix des poids de la fonction de perte et autres hyperparamètres manque d'analyse détaillée
Analyse théorique insuffisante : Manque d'analyse de la convergence et des garanties théoriques de la méthode

Impact

Contribution académique : Fournit de nouvelles perspectives pour l'analyse auto-supervisée d'images de télédétection
Valeur pratique : Importance significative pour la surveillance des zones humides et la protection de l'environnement
Promotion technologique : L'implémentation open-source facilite l'application et l'amélioration largement répandues de la méthode
Impact interdisciplinaire : Relie les domaines de la vision par ordinateur, de la télédétection et des sciences de l'environnement

Scénarios d'Application

Surveillance des zones humides : Surveillance dynamique des zones humides saisonnières
Évaluation environnementale : Évaluation de la santé des écosystèmes
Recherche climatique : Évaluation des stocks de carbone et analyse des impacts du changement climatique
Gestion des ressources : Gestion et planification de la protection des ressources en eau
Surveillance des catastrophes : Surveillance des inondations et évaluation des risques

Références Bibliographiques

L'article cite 60 références pertinentes, couvrant plusieurs domaines incluant l'écologie des zones humides, la télédétection, l'apprentissage profond et l'apprentissage auto-supervisé, fournissant une base théorique solide pour la recherche.

Évaluation Globale : Cet article est une recherche de haute qualité orientée vers les applications, proposant des solutions innovantes à des problèmes pratiques, avec certaines contributions techniques et une valeur pratique considérable. Bien qu'il présente certaines insuffisances dans l'analyse théorique et la taille de l'ensemble de données, sa contribution open-source et sa valeur d'application pratique en font un travail important dans ce domaine.