2025-11-12T19:28:10.441432

AquaCluster: Using Satellite Images And Self-supervised Machine Learning Networks To Detect Water Hidden Under Vegetation

Iakovidis, Kalantari, Payberah et al.

In recent years, the wide availability of high-resolution radar satellite images has enabled the remote monitoring of wetland surface areas. Machine learning models have achieved state-of-the-art results in segmenting wetlands from satellite images. However, these models require large amounts of manually annotated satellite images, which are slow and expensive to produce. The need for annotated training data makes it difficult to adapt these models to changes such as different climates or sensors. To address this issue, we employed self-supervised training methods to develop a model, AquaCluster, which segments radar satellite images into water and land areas without manual annotations. Our final model outperformed other radar-based water detection techniques that do not require annotated data in our test dataset, having achieved a 0.08 improvement in the Intersection over Union metric. Our results demonstrate that it is possible to train machine learning models to detect vegetated water from radar images without the use of annotated data, which can make the retraining of these models to account for changes much easier.

academic

AquaCluster: Utilizzo di Immagini Satellitari e Reti di Apprendimento Automatico Auto-Supervisionate per Rilevare l'Acqua Nascosta sotto la Vegetazione

Informazioni Fondamentali

ID Articolo: 2506.08214
Titolo: AquaCluster: Using Satellite Images And Self-supervised Machine Learning Networks To Detect Water Hidden Under Vegetation
Autori: Ioannis Iakovidis, Zahra Kalantari, Amir H. Payberah, Fernando Jaramillo, Francisco J. Peña
Classificazione: cs.CV (Visione Artificiale)
Data di Pubblicazione: 16 ottobre 2025 (Preprint)
Link Articolo: https://arxiv.org/abs/2506.08214v3

Riassunto

La disponibilità diffusa di immagini satellitari radar ad alta risoluzione ha recentemente reso possibile il monitoraggio remoto della superficie delle zone umide. I modelli di apprendimento automatico hanno raggiunto risultati all'avanguardia nei compiti di segmentazione delle zone umide da immagini satellitari. Tuttavia, questi modelli richiedono grandi quantità di immagini satellitari annotate manualmente, con costi di produzione elevati e tempi lunghi. La necessità di dati di addestramento annotati rende difficile l'adattamento di questi modelli a variazioni climatiche diverse o a sensori differenti. Per affrontare questo problema, la presente ricerca sviluppa il modello AquaCluster utilizzando metodi di addestramento auto-supervisionato, che può segmentare immagini satellitari radar in aree acquose e terrestri senza annotazioni manuali. Sul set di dati di test, il modello raggiunge le prestazioni migliori tra le tecniche di rilevamento dell'acqua radar senza necessità di dati annotati, ottenendo un miglioramento di 0,08 nell'indice di intersezione su unione (IoU). I risultati della ricerca dimostrano che è possibile addestrare modelli di apprendimento automatico per rilevare corpi idrici coperti da vegetazione da immagini radar senza utilizzare dati annotati, rendendo più facile il riaddestramento del modello per adattarsi ai cambiamenti.

Contesto di Ricerca e Motivazione

Contesto del Problema

Importanza del Monitoraggio delle Zone Umide: Sebbene le zone umide occupino solo una piccola frazione della superficie terrestre, svolgono un ruolo cruciale nella protezione ambientale e nella mitigazione degli impatti climatici, inclusa la purificazione della qualità dell'acqua, la riduzione del rischio di inondazioni e l'immagazzinamento di grandi quantità di carbonio. Tuttavia, a causa del cambiamento climatico e delle attività umane, le zone umide stanno scomparendo a un ritmo allarmante.
Sfide nel Rilevamento di Corpi Idrici Coperti da Vegetazione: Le immagini satellitari ottiche tradizionali funzionano bene nel rilevamento di acque aperte, ma hanno difficoltà nel rilevare corpi idrici di zone umide parzialmente o completamente coperti da vegetazione, poiché i sensori ottici non possono penetrare la vegetazione. Sebbene i sensori radar possano penetrare la vegetazione per rilevare l'acqua sottostante, le immagini radar contengono rumore (come il rumore di speckle), rendendo difficile la distinzione tra acqua e terra.
Limitazioni dei Metodi Esistenti:
- I modelli di apprendimento profondo come le CNN, sebbene eccellenti nei compiti di segmentazione delle zone umide, richiedono grandi quantità di dati annotati
- La produzione di dati annotati è costosa e dispendiosa in termini di tempo, in particolare nel campo della telerilevamento dove è richiesta competenza specializzata
- I modelli hanno difficoltà ad adattarsi a condizioni climatiche diverse o a variazioni dei sensori
- Dipendono da set di dati globali o nazionali con bassa frequenza di aggiornamento, incapaci di soddisfare le esigenze di monitoraggio dei corpi idrici stagionali

Motivazione della Ricerca

La motivazione centrale di questa ricerca è sviluppare un framework di apprendimento automatico completamente auto-supervisionato che utilizzi solo immagini satellitari radar per realizzare la segmentazione acqua-terra delle zone umide, risolvendo il problema della dipendenza dai dati annotati e migliorando la scalabilità e l'adattabilità del modello.

Contributi Fondamentali

Propone il Framework AquaCluster: Un framework di apprendimento automatico completamente auto-supervisionato che utilizza solo immagini satellitari radar per la segmentazione semantica delle zone umide, affrontando la sfida del rilevamento di corpi idrici sotto vegetazione senza dati annotati.
Introduce una Versione di Modello Ensemble: Per migliorare l'accuratezza e la stabilità, propone una versione ensemble che combina i risultati di previsione di più reti addestrate indipendentemente.
Verifica l'Efficacia dell'Addestramento Senza Annotazioni: Dimostra che il modello AquaCluster ensemble supera i metodi statistici di base Otsu e il modello Dynamic World basato su immagini ottiche sullo stesso set di dati.
Fornisce Implementazione Open Source: Tutto il codice sorgente, i set di dati di test e i modelli pre-addestrati sono disponibili in open source su GitHub, promuovendo la riproducibilità della ricerca e l'adozione pratica.

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: Immagini satellitari radar (Sentinel-1 banda C) Output: Mappa di segmentazione binaria acqua-terra a livello di pixel Vincoli: Addestramento completamente non supervisionato senza l'uso di dati annotati manualmente

Architettura del Modello

AquaCluster adotta una strategia di addestramento auto-supervisionato che combina clustering profondo e campionamento negativo, contenente i seguenti componenti:

1. Sottommodello di Codifica (Encoding Sub-model)

Basato su un'architettura U-Net migliorata
Contiene percorsi di contrazione e dilatazione
Sostituisce i livelli di convoluzione trasposta con semplici livelli di upsampling per evitare artefatti a scacchiera
Genera vettori di codifica per ogni pixel

2. Sottommodello di Previsione (Prediction Sub-model)

Architettura CNN a singolo strato
Converte codifiche a livello di pixel in probabilità di classe
Produce numero di classi (N_class=10) maggiore del numero di classi reali (2)

3. Tre Percorsi di Addestramento

Percorso di Addestramento Standard: Elabora blocchi di immagini originali
Percorso di Addestramento Aumentato: Elabora blocchi di immagini aumentati con sfocatura gaussiana
Percorso di Addestramento Aumentato Mescolato: Elabora blocchi di immagini aumentate e mescolate

Algoritmo di Addestramento

Il processo di addestramento comprende 11 passaggi, con l'idea centrale di combinare clustering profondo e campionamento negativo:

Perdita di Clustering Profondo

L_c = Σ weighted_cross_entropy(pseudo_labels, predictions)
L̂_c = Σ weighted_cross_entropy(augmented_pseudo_labels, augmented_predictions)

Perdita di Coerenza Spaziale

Perdita di Coppie Positive: L_p = Σ|P_original - P_augmented|
Perdita di Coppie Negative: L_n = -Σ|P_original - P_shuffled|

Funzione di Perdita Totale

L = α_c × (L_c + L̂_c) + α_p × L_p + α_n × L_n

Punti di Innovazione Tecnica

Utilizzo di Informazioni Spaziali: Crea coppie di campioni positivi attraverso sfocatura gaussiana, sfruttando la continuità spaziale delle immagini satellitari
Strategia di Output Multi-classe: Utilizza 10 classi di modello anziché 2 classi reali, aumentando la granularità della segmentazione
Mappatura Post-elaborazione: Mappa le classi del modello alle classi reali acqua-terra attraverso la metrica IoU
Apprendimento Ensemble: Riduce l'instabilità del singolo modello attraverso il voto di più modelli

Configurazione Sperimentale

Set di Dati

Set di Dati di Addestramento

Set di Dati Radar Örebro: Immagini satellitari radar di zone umide nella contea di Örebro, Svezia
Tempo di Acquisizione: 4 luglio 2018
Risoluzione: Risoluzione di 10 metri per pixel
Divisione dei Dati: 639 blocchi di immagini 512×512 pixel, 80% addestramento, 20% validazione
Proporzione di Pixel Acquosi: 9,42%

Set di Dati di Test

Set di Dati Radar Swedish Wetlands: 39 immagini radar di tre zone umide svedesi
Nomi delle Zone Umide: Hjalstaviken, Hornborgarsjon, Svartadalen
Intervallo Temporale: 2018-2019 (escludendo dicembre-marzo per evitare interferenze dalla neve)
Dimensioni Immagine: Da 266×669 a 1049×1667 pixel
Proporzione di Pixel Acquosi: 22,27%

Metriche di Valutazione

Accuratezza (Accuracy): (TP+TN)/(TP+TN+FP+FN)
Precisione (Precision): TP/(TP+FP)
Richiamo (Recall): TP/(TP+FN)
Punteggio F1: 2×(Precision×Recall)/(Precision+Recall)
Intersezione su Unione (IoU): (A_pred ∩ A_gt + ε)/(A_pred ∪ A_gt + ε)

Metodi di Confronto

Soglia Otsu: Metodo non supervisionato basato su statistiche, minimizza la varianza intra-classe
Dynamic World: Set di dati di copertura terrestre di apprendimento automatico basato su immagini ottiche

Dettagli di Implementazione

Addestramento di 10 modelli AquaCluster indipendenti
Metodo ensemble utilizza votazione a maggioranza semplice a livello di pixel
Utilizzo di architettura di modello leggera per garantire efficienza
Pesi di perdita: α_c, α_p, α_n richiedono ottimizzazione

Risultati Sperimentali

Risultati Principali

Modello	Accuratezza	Precisione	Richiamo	Punteggio F1	IoU
Otsu	0,96	0,90	0,89	0,89	0,81
Dynamic World	0,94	0,87	0,82	0,84	0,73
AquaCluster	0,97	0,88	0,95	0,91	0,85
Ensemble AquaCluster	0,98	0,92	0,96	0,94	0,89

Scoperte Chiave

Modello Ensemble Ottimale: La versione ensemble di AquaCluster raggiunge le migliori prestazioni in tutte le metriche
Miglioramento Significativo del Richiamo: Rispetto al metodo Otsu, AquaCluster mostra miglioramenti significativi nel richiamo e nell'IoU
Superiorità rispetto ai Metodi Ottici: Dynamic World mostra le peggiori prestazioni in tutte le metriche, dimostrando il vantaggio dei dati radar nel rilevamento di corpi idrici coperti da vegetazione
Stabilità del Modello: I singoli modelli AquaCluster mostrano fluttuazioni significative nelle prestazioni (IoU da 0,7 a 0,9), il metodo ensemble migliora efficacemente la stabilità

Analisi di Casi

Dai risultati di visualizzazione si può osservare:

Metodo Otsu: Produce annotazioni con molto rumore, difficile da gestire il rumore nelle immagini radar
Dynamic World: Prestazioni scadenti nelle aree di confine acqua-terra
AquaCluster Singolo: Buona qualità di segmentazione ma classifica erroneamente alcune aree di terreno più scuro come acqua
Ensemble AquaCluster: Riduce significativamente i problemi di classificazione errata del terreno

Lavori Correlati

Applicazioni di Apprendimento Automatico nel Rilevamento delle Zone Umide

Metodi Tradizionali: Foreste casuali, macchine a vettori di supporto e altri applicati alla classificazione di singoli pixel
Metodi CNN: Mahdianpari et al. per la prima volta hanno applicato CNN alla cartografia delle zone umide, dimostrando la superiorità delle CNN rispetto ai metodi tradizionali
Architetture Complesse: CNN a doppio percorso, meccanismi di attenzione, U-Net migliorato e altri per migliorare le prestazioni
Fusione Multimodale: Combinazione di dati ottici e radar per sfruttare i vantaggi di ciascuno

Apprendimento Auto-Supervisionato nel Telerilevamento

Apprendimento Contrastivo: Metodi come SimCLR adattati alla classificazione multi-etichetta di immagini satellitari
Utilizzo di Dati Temporali: Utilizzo di immagini della stessa area in diverse stagioni per creare coppie di campioni positivi
Metodi di Clustering: Algoritmi di segmentazione di immagini non supervisionati per generare coppie di campioni positivi e negativi

Il vantaggio di questo lavoro rispetto ai lavori esistenti risiede nel fatto che è specificamente progettato per immagini radar, non richiede dati ottici e utilizza addestramento completamente auto-supervisionato.

Conclusioni e Discussione

Conclusioni Principali

Fattibilità Tecnica: Dimostra la fattibilità della segmentazione delle zone umide completamente auto-supervisionata utilizzando solo immagini radar
Superiorità delle Prestazioni: Raggiunge un miglioramento di 0,08 nell'indice IoU rispetto ai metodi di base, raggiungendo un'alta prestazione di 0,89
Valore Pratico: Elimina la dipendenza dai dati annotati e dalle immagini ottiche, migliorando l'adattabilità e la scalabilità del modello

Limitazioni

Limitazioni Geografiche: Testato solo su zone umide svedesi, la capacità di generalizzazione rimane da verificare
Restrizioni Stagionali: Esclude dati invernali, la capacità di gestire aree coperte da neve rimane sconosciuta
Instabilità del Modello: Le singole prestazioni del modello mostrano grandi fluttuazioni, richiedendo metodi ensemble per migliorare la stabilità
Dipendenza dalla Post-elaborazione: Richiede passaggi di post-elaborazione per mappare le classi del modello alle classi reali

Direzioni Future

Validazione Cross-Regionale: Testare la capacità di generalizzazione del modello in diverse condizioni climatiche e geografiche
Fusione Multi-Sensore: Esplorare la combinazione con dati di altri sensori
Modellazione Temporale: Utilizzare dati multi-temporali per migliorare la precisione del rilevamento
Ottimizzazione End-to-End: Ridurre i passaggi di post-elaborazione, realizzare un addestramento più diretto

Valutazione Approfondita

Punti di Forza

Forte Specificità del Problema: Affronta il problema specifico e importante del rilevamento di corpi idrici coperti da vegetazione
Innovazione Metodologica: Combina clustering profondo e campionamento negativo, sfruttando pienamente le caratteristiche delle immagini radar
Progettazione Sperimentale Ragionevole: Scelta appropriata dei metodi di confronto, metriche di valutazione complete
Contributo Open Source: Fornisce codice e dati completi, promuovendo la riproducibilità della ricerca
Alto Valore Pratico: Risolve il problema critico della scarsità di dati annotati nelle applicazioni pratiche

Insufficienze

Limitazioni della Dimensione del Set di Dati: Il set di dati di test è relativamente piccolo (39 immagini), potrebbe influenzare l'universalità delle conclusioni
Complessità del Metodo: Richiede l'addestramento di più modelli e l'ensemble, con costi computazionali più elevati
Sensibilità ai Iperparametri: La scelta dei pesi della funzione di perdita e altri iperparametri manca di analisi dettagliata
Analisi Teorica Insufficiente: Manca l'analisi della convergenza del metodo e delle garanzie teoriche

Impatto

Contributo Accademico: Fornisce nuove prospettive per l'analisi auto-supervisionata di immagini di telerilevamento
Valore Pratico: Ha importante valore applicativo per il monitoraggio delle zone umide e la protezione ambientale
Promozione Tecnologica: L'implementazione open source facilita l'applicazione diffusa e il miglioramento del metodo
Impatto Interdisciplinare: Connette i campi della visione artificiale, del telerilevamento e della scienza ambientale

Scenari Applicabili

Monitoraggio delle Zone Umide: Monitoraggio dinamico stagionale delle zone umide
Valutazione Ambientale: Valutazione della salute degli ecosistemi
Ricerca Climatica: Valutazione delle riserve di carbonio e analisi degli impatti del cambiamento climatico
Gestione delle Risorse: Gestione e pianificazione della protezione delle risorse idriche
Monitoraggio dei Disastri: Monitoraggio delle inondazioni e valutazione del rischio

Bibliografia

L'articolo cita 60 lavori correlati, coprendo importanti ricerche in ecologia delle zone umide, telerilevamento, apprendimento profondo e apprendimento auto-supervisionato, fornendo una solida base teorica per la ricerca.

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità orientato alle applicazioni, che propone soluzioni innovative per problemi pratici, con contributi tecnici e valore pratico considerevole. Sebbene presenti alcune insufficienze nell'analisi teorica e nella dimensione del set di dati, il suo contributo open source e il valore applicativo pratico lo rendono un lavoro importante in questo campo.