2025-11-12T19:28:10.441432

AquaCluster: Using Satellite Images And Self-supervised Machine Learning Networks To Detect Water Hidden Under Vegetation

Iakovidis, Kalantari, Payberah et al.

In recent years, the wide availability of high-resolution radar satellite images has enabled the remote monitoring of wetland surface areas. Machine learning models have achieved state-of-the-art results in segmenting wetlands from satellite images. However, these models require large amounts of manually annotated satellite images, which are slow and expensive to produce. The need for annotated training data makes it difficult to adapt these models to changes such as different climates or sensors. To address this issue, we employed self-supervised training methods to develop a model, AquaCluster, which segments radar satellite images into water and land areas without manual annotations. Our final model outperformed other radar-based water detection techniques that do not require annotated data in our test dataset, having achieved a 0.08 improvement in the Intersection over Union metric. Our results demonstrate that it is possible to train machine learning models to detect vegetated water from radar images without the use of annotated data, which can make the retraining of these models to account for changes much easier.

academic

AquaCluster: Utilizando Imágenes de Satélite y Redes de Aprendizaje Automático Auto-supervisadas para Detectar Agua Oculta Bajo la Vegetación

Información Básica

ID del Artículo: 2506.08214
Título: AquaCluster: Using Satellite Images And Self-supervised Machine Learning Networks To Detect Water Hidden Under Vegetation
Autores: Ioannis Iakovidis, Zahra Kalantari, Amir H. Payberah, Fernando Jaramillo, Francisco J. Peña
Clasificación: cs.CV (Visión por Computadora)
Fecha de Publicación: 16 de octubre de 2025 (Preimpresión)
Enlace del Artículo: https://arxiv.org/abs/2506.08214v3

Resumen

La disponibilidad generalizada de imágenes de satélite de radar de alta resolución ha permitido recientemente el monitoreo remoto de la superficie de humedales. Los modelos de aprendizaje automático han alcanzado resultados de última generación en tareas de segmentación de humedales a partir de imágenes de satélite. Sin embargo, estos modelos requieren grandes cantidades de imágenes de satélite etiquetadas manualmente, lo que es costoso y requiere mucho tiempo. La necesidad de datos de entrenamiento etiquetados hace que estos modelos sean difíciles de adaptar a cambios como diferentes climas o sensores. Para abordar este problema, esta investigación desarrolló el modelo AquaCluster utilizando métodos de entrenamiento auto-supervisado, que puede segmentar imágenes de satélite de radar en regiones de agua y tierra sin etiquetado manual. En el conjunto de datos de prueba, el modelo mostró el mejor desempeño entre las técnicas de detección de cuerpos de agua de radar sin necesidad de datos etiquetados, logrando una mejora de 0.08 en la métrica de Intersección sobre Unión (IoU). Los resultados demuestran que es posible entrenar modelos de aprendizaje automático para detectar cuerpos de agua cubiertos por vegetación a partir de imágenes de radar sin utilizar datos etiquetados, lo que facilita el reentrenamiento del modelo para adaptarse a cambios.

Antecedentes y Motivación de la Investigación

Contexto del Problema

Importancia del Monitoreo de Humedales: Aunque los humedales ocupan solo una pequeña fracción de la superficie terrestre, desempeñan un papel crucial en la protección ambiental y la mitigación del cambio climático, incluyendo la purificación del agua, la reducción del riesgo de inundaciones y el almacenamiento de grandes cantidades de carbono. Sin embargo, debido al cambio climático y las actividades humanas, los humedales están desapareciendo a un ritmo alarmante.
Desafíos en la Detección de Cuerpos de Agua Cubiertos por Vegetación: Las imágenes de satélite ópticas tradicionales funcionan bien en la detección de cuerpos de agua abiertos, pero tienen dificultades para detectar cuerpos de agua en humedales parcial o completamente cubiertos por vegetación, ya que los sensores ópticos no pueden penetrar la vegetación. Aunque los sensores de radar pueden penetrar la vegetación para detectar cuerpos de agua debajo, las imágenes de radar contienen ruido (como ruido de speckle), lo que dificulta la distinción entre agua y tierra.
Limitaciones de los Métodos Existentes:
- Aunque los modelos de aprendizaje profundo como CNN funcionan bien en tareas de segmentación de humedales, requieren grandes cantidades de datos etiquetados
- La creación de datos etiquetados es costosa y requiere mucho tiempo, especialmente en teledetección donde se requiere conocimiento especializado
- Los modelos son difíciles de adaptar a diferentes condiciones climáticas o cambios de sensores
- Dependen de conjuntos de datos globales o nacionales con baja frecuencia de actualización, lo que no satisface las necesidades de monitoreo de cuerpos de agua estacionales

Motivación de la Investigación

La motivación central de esta investigación es desarrollar un marco de aprendizaje automático completamente auto-supervisado que pueda lograr la segmentación agua-tierra de humedales utilizando solo imágenes de satélite de radar, resolviendo el problema de la dependencia de datos etiquetados y mejorando la escalabilidad y adaptabilidad del modelo.

Contribuciones Principales

Propuesta del Marco AquaCluster: Un marco de aprendizaje automático completamente auto-supervisado que realiza segmentación semántica de humedales utilizando solo imágenes de satélite de radar, abordando el desafío de detectar cuerpos de agua bajo vegetación sin datos etiquetados.
Introducción de una Versión de Modelo Conjunto: Para mejorar la precisión y estabilidad, se propone una versión conjunto que combina los resultados de predicción de múltiples redes entrenadas independientemente.
Validación de la Efectividad del Entrenamiento sin Etiquetas: Se demuestra que el modelo AquaCluster conjunto supera al método estadístico de línea base Otsu y al modelo Dynamic World basado en óptica en el mismo conjunto de datos.
Provisión de Implementación de Código Abierto: Todo el código fuente, conjuntos de datos de prueba y modelos preentrenados se publican en código abierto en GitHub, promoviendo la reproducción de la investigación y la adopción de aplicaciones.

Explicación Detallada del Método

Definición de la Tarea

Entrada: Imagen de satélite de radar (Sentinel-1 banda C) Salida: Mapa de segmentación binaria agua-tierra a nivel de píxel Restricción: Entrenamiento completamente no supervisado, sin utilizar datos etiquetados manualmente

Arquitectura del Modelo

AquaCluster adopta una estrategia de entrenamiento auto-supervisado que combina agrupamiento profundo y muestreo negativo, que incluye principalmente los siguientes componentes:

1. Submodelo de Codificación (Encoding Sub-model)

Basado en arquitectura U-Net mejorada
Incluye rutas de contracción y expansión
Reemplaza capas de convolución transpuesta con capas de muestreo simple para evitar artefactos de tablero de ajedrez
Genera vectores de codificación para cada píxel

2. Submodelo de Predicción (Prediction Sub-model)

Arquitectura CNN de una sola capa
Convierte codificaciones a nivel de píxel en probabilidades de clase
Produce número de clases (N_class=10) mayor que el número real de clases (2)

3. Tres Rutas de Entrenamiento

Ruta de Entrenamiento Estándar: Procesa bloques de imagen original
Ruta de Entrenamiento Aumentada: Procesa bloques de imagen aumentados con desenfoque gaussiano
Ruta de Entrenamiento Aumentada Barajada: Procesa bloques de imagen aumentados y barajados

Algoritmo de Entrenamiento

El proceso de entrenamiento incluye 11 pasos, con la idea central de combinar agrupamiento profundo y muestreo negativo:

Pérdida de Agrupamiento Profundo

L_c = Σ weighted_cross_entropy(pseudo_labels, predictions)
L̂_c = Σ weighted_cross_entropy(augmented_pseudo_labels, augmented_predictions)

Pérdida de Consistencia Espacial

Pérdida de Pares Positivos: L_p = Σ|P_original - P_augmented|
Pérdida de Pares Negativos: L_n = -Σ|P_original - P_shuffled|

Función de Pérdida Total

L = α_c × (L_c + L̂_c) + α_p × L_p + α_n × L_n

Puntos de Innovación Técnica

Utilización de Información Espacial: Crea pares positivos mediante desenfoque gaussiano, aprovechando la continuidad espacial de imágenes de satélite
Estrategia de Salida Multiclase: Utiliza 10 clases de modelo en lugar de 2 clases reales, mejorando la granularidad de segmentación
Mapeo de Postprocesamiento: Mapea clases de modelo a clases reales agua-tierra mediante métrica IoU
Aprendizaje Conjunto: Reduce la inestabilidad de modelos individuales mediante votación de múltiples modelos

Configuración Experimental

Conjuntos de Datos

Conjunto de Datos de Entrenamiento

Conjunto de Datos de Radar de Örebro: Imágenes de satélite de radar de humedales en el condado de Örebro, Suecia
Tiempo de Adquisición: 4 de julio de 2018
Resolución: Resolución de píxel de 10 metros
División de Datos: 639 bloques de imagen de 512×512 píxeles, 80% entrenamiento, 20% validación
Proporción de Píxeles de Agua: 9.42%

Conjunto de Datos de Prueba

Conjunto de Datos de Radar de Humedales Suecos: 39 imágenes de radar de tres humedales suecos
Nombres de Humedales: Hjalstaviken, Hornborgarsjon, Svartadalen
Rango Temporal: 2018-2019 (excluyendo diciembre a marzo para evitar interferencia de nieve)
Tamaño de Imagen: 266×669 a 1049×1667 píxeles
Proporción de Píxeles de Agua: 22.27%

Métricas de Evaluación

Precisión (Accuracy): (TP+TN)/(TP+TN+FP+FN)
Precisión (Precision): TP/(TP+FP)
Exhaustividad (Recall): TP/(TP+FN)
Puntuación F1: 2×(Precision×Recall)/(Precision+Recall)
Intersección sobre Unión (IoU): (A_pred ∩ A_gt + ε)/(A_pred ∪ A_gt + ε)

Métodos de Comparación

Segmentación por Umbral de Otsu: Método no supervisado basado en estadísticas que minimiza la varianza intraclase
Dynamic World: Conjunto de datos de cobertura terrestre de aprendizaje automático basado en imágenes ópticas

Detalles de Implementación

Entrenamiento de 10 modelos AquaCluster independientes
Método conjunto utiliza votación por mayoría simple a nivel de píxel
Utilización de arquitectura de modelo ligero para garantizar eficiencia
Pesos de pérdida: α_c, α_p, α_n requieren ajuste

Resultados Experimentales

Resultados Principales

Modelo	Precisión	Precisión	Exhaustividad	Puntuación F1	IoU
Otsu	0.96	0.90	0.89	0.89	0.81
Dynamic World	0.94	0.87	0.82	0.84	0.73
AquaCluster	0.97	0.88	0.95	0.91	0.85
Conjunto AquaCluster	0.98	0.92	0.96	0.94	0.89

Hallazgos Clave

Modelo Conjunto Óptimo: La versión conjunto de AquaCluster muestra el mejor desempeño en todas las métricas
Mejora Significativa en Exhaustividad: En comparación con el método Otsu, AquaCluster muestra mejoras significativas en exhaustividad e IoU
Superioridad sobre Métodos Ópticos: Dynamic World muestra el peor desempeño en todas las métricas, demostrando la ventaja de los datos de radar en la detección de cuerpos de agua cubiertos por vegetación
Estabilidad del Modelo: Los modelos AquaCluster individuales muestran gran variabilidad en desempeño (IoU de 0.7 a 0.9), y el método conjunto mejora efectivamente la estabilidad

Análisis de Casos

A partir de los resultados de visualización se puede observar:

Método Otsu: Produce anotaciones con mucho ruido, difícil de procesar el ruido en imágenes de radar
Dynamic World: Desempeño deficiente en regiones de límites agua-tierra
AquaCluster Individual: Buena calidad de segmentación pero clasifica erróneamente algunas áreas de suelo oscuro como agua
Conjunto AquaCluster: Reduce significativamente los problemas de clasificación errónea en tierra

Trabajo Relacionado

Aplicaciones de Aprendizaje Automático en Detección de Humedales

Métodos Tradicionales: Bosques aleatorios, máquinas de vectores de soporte y otras aplicaciones en clasificación de píxeles individuales
Métodos CNN: Mahdianpari et al. fueron los primeros en aplicar CNN a cartografía de humedales, demostrando la superioridad de CNN sobre métodos tradicionales
Arquitecturas Complejas: CNN de doble ruta, mecanismos de atención, U-Net mejorado y otros para mejorar el desempeño
Fusión Multimodal: Combinación de datos ópticos y de radar aprovechando las ventajas de cada uno

Aprendizaje Auto-supervisado en Teledetección

Aprendizaje Contrastivo: Métodos como SimCLR adaptados a clasificación multiétiqueta de imágenes de satélite
Utilización de Datos Temporales: Uso de imágenes de la misma región en diferentes estaciones para crear pares positivos
Métodos de Agrupamiento: Algoritmos de segmentación de imagen no supervisada para generar pares positivos y negativos

La ventaja de este trabajo sobre trabajos existentes radica en su diseño específico para imágenes de radar, sin necesidad de datos ópticos, con entrenamiento completamente auto-supervisado.

Conclusiones y Discusión

Conclusiones Principales

Viabilidad Técnica: Demuestra la viabilidad de la segmentación de humedales completamente auto-supervisada utilizando solo imágenes de radar
Superioridad en Desempeño: Logra una mejora de 0.08 en la métrica IoU en comparación con métodos de línea base, alcanzando un alto desempeño de 0.89
Valor Práctico: Elimina la dependencia de datos etiquetados e imágenes ópticas, mejorando la adaptabilidad y escalabilidad del modelo

Limitaciones

Limitación Geográfica: Solo probado en humedales suecos, la capacidad de generalización requiere verificación
Restricción Estacional: Exclusión de datos invernales, capacidad de manejo de áreas cubiertas de nieve desconocida
Inestabilidad del Modelo: Gran variabilidad en desempeño de modelos individuales, requiere método conjunto para mejorar estabilidad
Dependencia de Postprocesamiento: Requiere pasos de postprocesamiento para mapear clases de modelo a clases reales

Direcciones Futuras

Validación Transregional: Prueba de capacidad de generalización del modelo bajo diferentes condiciones climáticas y geográficas
Fusión Multisensor: Exploración de combinación con datos de otros sensores
Modelado Temporal: Utilización de datos multitemporales para mejorar precisión de detección
Optimización Extremo a Extremo: Reducción de pasos de postprocesamiento, logro de entrenamiento más directo

Evaluación Profunda

Fortalezas

Especificidad del Problema: Aborda un problema específico e importante de detección de cuerpos de agua cubiertos por vegetación
Innovación Metodológica: Combina agrupamiento profundo con muestreo negativo, aprovechando plenamente las características de imágenes de radar
Diseño Experimental Razonable: Selección apropiada de métodos de comparación, métricas de evaluación completas
Contribución de Código Abierto: Proporciona código completo y datos, promoviendo reproducibilidad de investigación
Alto Valor Práctico: Resuelve el problema práctico de escasez de datos etiquetados en aplicaciones reales

Insuficiencias

Limitación de Escala de Conjunto de Datos: Conjunto de datos de prueba relativamente pequeño (39 imágenes), puede afectar la universalidad de conclusiones
Complejidad del Método: Requiere entrenamiento de múltiples modelos e integración, costo computacional más alto
Sensibilidad de Hiperparámetros: Falta análisis detallado sobre selección de pesos de función de pérdida y otros hiperparámetros
Análisis Teórico Insuficiente: Falta análisis de convergencia del método y garantías teóricas

Impacto

Contribución Académica: Proporciona nuevas perspectivas para análisis auto-supervisado de imágenes de teledetección
Valor Práctico: Tiene importante valor de aplicación para monitoreo de humedales y protección ambiental
Promoción Tecnológica: La implementación de código abierto facilita la aplicación amplia y mejora del método
Impacto Interdisciplinario: Conecta los campos de visión por computadora, teledetección y ciencias ambientales

Escenarios de Aplicación

Monitoreo de Humedales: Monitoreo dinámico de humedales estacionales
Evaluación Ambiental: Evaluación de salud de ecosistemas
Investigación Climática: Evaluación de almacenamiento de carbono e impacto del cambio climático
Gestión de Recursos: Gestión de recursos hídricos y planificación de protección
Monitoreo de Desastres: Monitoreo de inundaciones y evaluación de riesgo

Referencias

El artículo cita 60 referencias relacionadas, cubriendo múltiples campos incluyendo ecología de humedales, tecnología de teledetección, aprendizaje profundo y aprendizaje auto-supervisado, proporcionando una base teórica sólida para la investigación.

Evaluación General: Este es un artículo de investigación de alta calidad orientado a aplicaciones, que propone soluciones innovadoras para problemas prácticos, con contribuciones técnicas ciertas y valor práctico considerable. Aunque tiene algunas insuficiencias en análisis teórico y escala de conjunto de datos, su contribución de código abierto y valor de aplicación práctica lo convierten en un trabajo importante en este campo.