AquaCluster: Using Satellite Images And Self-supervised Machine Learning Networks To Detect Water Hidden Under Vegetation
Iakovidis, Kalantari, Payberah et al.
In recent years, the wide availability of high-resolution radar satellite images has enabled the remote monitoring of wetland surface areas. Machine learning models have achieved state-of-the-art results in segmenting wetlands from satellite images. However, these models require large amounts of manually annotated satellite images, which are slow and expensive to produce. The need for annotated training data makes it difficult to adapt these models to changes such as different climates or sensors. To address this issue, we employed self-supervised training methods to develop a model, AquaCluster, which segments radar satellite images into water and land areas without manual annotations. Our final model outperformed other radar-based water detection techniques that do not require annotated data in our test dataset, having achieved a 0.08 improvement in the Intersection over Union metric. Our results demonstrate that it is possible to train machine learning models to detect vegetated water from radar images without the use of annotated data, which can make the retraining of these models to account for changes much easier.
academic
AquaCluster : Utilisation d'Images Satellites et de Réseaux d'Apprentissage Automatique Auto-supervisés pour Détecter l'Eau Cachée sous la Végétation
La disponibilité croissante d'images satellites radar haute résolution a rendu possible la surveillance à distance de la superficie des zones humides. Les modèles d'apprentissage automatique ont atteint des résultats de pointe dans la segmentation des zones humides à partir d'images satellites. Cependant, ces modèles nécessitent un grand nombre d'images satellites annotées manuellement, dont la production est coûteuse et chronophage. La dépendance aux données d'entraînement annotées rend ces modèles difficiles à adapter à des changements tels que les différents climats ou capteurs. Pour résoudre ce problème, cette recherche développe le modèle AquaCluster en utilisant des méthodes d'entraînement auto-supervisées, qui peut segmenter les images satellites radar en zones aquatiques et terrestres sans annotation manuelle. Sur l'ensemble de données de test, le modèle affiche les meilleures performances parmi les techniques de détection d'eau radar ne nécessitant pas de données annotées, avec une amélioration de 0,08 sur la métrique d'intersection sur union (IoU). Les résultats montrent qu'il est possible d'entraîner des modèles d'apprentissage automatique pour détecter l'eau couverte de végétation à partir d'images radar sans utiliser de données annotées, ce qui facilite le réentraînement des modèles pour s'adapter aux changements.
Importance de la surveillance des zones humides : Bien que les zones humides ne couvrent qu'une petite partie de la surface terrestre, elles jouent un rôle crucial dans la protection de l'environnement et l'atténuation des impacts climatiques, notamment en purifiant la qualité de l'eau, en réduisant les risques d'inondation et en stockant d'importantes quantités de carbone. Cependant, en raison du changement climatique et des activités humaines, les zones humides disparaissent à un rythme alarmant.
Défis de la détection d'eau couverte de végétation : Les images satellites optiques traditionnelles fonctionnent bien pour détecter les plans d'eau ouverts, mais ont des difficultés à détecter l'eau des zones humides partiellement ou complètement couverte de végétation, car les capteurs optiques ne peuvent pas pénétrer la végétation. Bien que les capteurs radar puissent pénétrer la végétation pour détecter l'eau en dessous, les images radar contiennent du bruit (comme le bruit de chatoiement), ce qui rend difficile la distinction entre l'eau et la terre.
Limitations des méthodes existantes :
Bien que les modèles d'apprentissage profond tels que les CNN affichent d'excellentes performances dans les tâches de segmentation des zones humides, ils nécessitent de grandes quantités de données annotées
La production de données annotées est coûteuse et chronophage, en particulier dans le domaine de la télédétection qui nécessite des connaissances spécialisées
Les modèles sont difficiles à adapter à différentes conditions climatiques ou changements de capteurs
Ils dépendent de jeux de données mondiaux ou nationaux avec une faible fréquence de mise à jour, ce qui ne peut pas répondre aux besoins de surveillance des zones aquatiques saisonnières
La motivation centrale de cette recherche est de développer un cadre d'apprentissage automatique entièrement auto-supervisé capable de réaliser la segmentation eau-terre des zones humides en utilisant uniquement des images satellites radar, résolvant ainsi le problème de dépendance aux données annotées et améliorant la scalabilité et l'adaptabilité du modèle.
Proposition du cadre AquaCluster : Un cadre d'apprentissage automatique entièrement auto-supervisé pour la segmentation sémantique des zones humides utilisant uniquement des images satellites radar, résolvant le défi de la détection d'eau sous la végétation sans données annotées.
Introduction d'une version de modèle d'ensemble : Pour améliorer la précision et la stabilité, une version d'ensemble est proposée, combinant les résultats de prédiction de plusieurs réseaux entraînés indépendamment.
Validation de l'efficacité de l'entraînement sans annotation : Démonstration que le modèle AquaCluster d'ensemble surpasse les méthodes de base statistiques Otsu et le modèle Dynamic World basé sur l'optique sur le même ensemble de données.
Fourniture d'une implémentation open-source : Tous les codes source, ensembles de données de test et modèles pré-entraînés sont disponibles en open-source sur GitHub, favorisant la reproduction de la recherche et la promotion des applications.
Entrée : Image satellite radar (bande C Sentinel-1)
Sortie : Carte de segmentation binaire eau-terre au niveau des pixels
Contrainte : Entraînement entièrement non supervisé sans utiliser de données annotées manuellement
AquaCluster adopte une stratégie d'entraînement auto-supervisée combinant le clustering profond et l'échantillonnage négatif, comprenant principalement les composants suivants :
Optimalité du modèle d'ensemble : La version d'ensemble d'AquaCluster affiche les meilleures performances sur toutes les métriques
Amélioration significative du rappel : Par rapport à la méthode Otsu, AquaCluster montre une amélioration significative du rappel et de l'IoU
Supériorité par rapport aux méthodes optiques : Dynamic World affiche les pires performances sur toutes les métriques, démontrant l'avantage des données radar dans la détection d'eau couverte de végétation
Stabilité du modèle : Les modèles AquaCluster individuels montrent une grande variabilité de performance (IoU de 0,7 à 0,9), la méthode d'ensemble améliorant efficacement la stabilité
Méthodes traditionnelles : Forêts aléatoires, machines à vecteurs de support et autres appliquées à la classification au niveau des pixels
Méthodes CNN : Mahdianpari et al. ont été les premiers à appliquer les CNN à la cartographie des zones humides, démontrant la supériorité des CNN par rapport aux méthodes traditionnelles
Architectures complexes : CNN à deux chemins, mécanismes d'attention, U-Net amélioré et autres améliorant les performances
Fusion multimodale : Combinaison de données optiques et radar exploitant les avantages respectifs
Apprentissage contrastif : Méthodes SimCLR et autres adaptées à la classification multi-étiquettes d'images satellites
Utilisation de données temporelles : Exploitation d'images du même secteur à différentes saisons pour créer des paires positives
Méthodes de clustering : Algorithmes de segmentation d'image non supervisée générant des paires positives et négatives
L'avantage de cet article par rapport aux travaux existants réside dans sa conception spécifique pour les images radar, sans nécessiter de données optiques, avec un entraînement entièrement auto-supervisé.
Limitation de la taille de l'ensemble de données : L'ensemble de données de test est relativement petit (39 images), ce qui peut affecter la généralité des conclusions
Complexité de la méthode : Nécessite l'entraînement de plusieurs modèles et leur ensemble, avec un coût de calcul élevé
Sensibilité des hyperparamètres : Le choix des poids de la fonction de perte et autres hyperparamètres manque d'analyse détaillée
Analyse théorique insuffisante : Manque d'analyse de la convergence et des garanties théoriques de la méthode
L'article cite 60 références pertinentes, couvrant plusieurs domaines incluant l'écologie des zones humides, la télédétection, l'apprentissage profond et l'apprentissage auto-supervisé, fournissant une base théorique solide pour la recherche.
Évaluation Globale : Cet article est une recherche de haute qualité orientée vers les applications, proposant des solutions innovantes à des problèmes pratiques, avec certaines contributions techniques et une valeur pratique considérable. Bien qu'il présente certaines insuffisances dans l'analyse théorique et la taille de l'ensemble de données, sa contribution open-source et sa valeur d'application pratique en font un travail important dans ce domaine.