AquaCluster: Using Satellite Images And Self-supervised Machine Learning Networks To Detect Water Hidden Under Vegetation
Iakovidis, Kalantari, Payberah et al.
In recent years, the wide availability of high-resolution radar satellite images has enabled the remote monitoring of wetland surface areas. Machine learning models have achieved state-of-the-art results in segmenting wetlands from satellite images. However, these models require large amounts of manually annotated satellite images, which are slow and expensive to produce. The need for annotated training data makes it difficult to adapt these models to changes such as different climates or sensors. To address this issue, we employed self-supervised training methods to develop a model, AquaCluster, which segments radar satellite images into water and land areas without manual annotations. Our final model outperformed other radar-based water detection techniques that do not require annotated data in our test dataset, having achieved a 0.08 improvement in the Intersection over Union metric. Our results demonstrate that it is possible to train machine learning models to detect vegetated water from radar images without the use of annotated data, which can make the retraining of these models to account for changes much easier.
academic
AquaCluster: Использование спутниковых снимков и самообучающихся сетей машинного обучения для обнаружения воды под растительностью
В последние годы широкая доступность высокоразрешающих радиолокационных спутниковых снимков сделала возможным дистанционный мониторинг площади поверхности водно-болотных угодий. Модели машинного обучения достигли передовых результатов в задаче сегментации водно-болотных угодий на спутниковых снимках. Однако эти модели требуют большого количества вручную аннотированных спутниковых снимков, которые дорогостоящи и трудозатратны в создании. Потребность в аннотированных данных обучения затрудняет адаптацию этих моделей к различиям в климате или датчиках. Для решения этой проблемы в данном исследовании использован метод самообучения для разработки модели AquaCluster, которая может сегментировать радиолокационные спутниковые снимки на водные и наземные области без ручной аннотации. На тестовом наборе данных модель показала лучший результат среди методов обнаружения воды на радиолокационных снимках без аннотированных данных, достигнув улучшения на 0,08 по метрике пересечения над объединением (IoU). Результаты исследования показывают, что возможно обучить модели машинного обучения обнаруживать водные объекты под растительностью на радиолокационных снимках без использования аннотированных данных, что облегчает переобучение моделей для адаптации к изменениям.
Важность мониторинга водно-болотных угодий: Хотя водно-болотные угодья занимают небольшую часть земной поверхности, они играют ключевую роль в охране окружающей среды и защите от климатических воздействий, включая очистку воды, снижение риска наводнений и накопление больших объемов углерода. Однако из-за изменения климата и деятельности человека водно-болотные угодья исчезают с угрожающей скоростью.
Вызовы обнаружения водных объектов под растительностью: Традиционные оптические спутниковые снимки хорошо работают при обнаружении открытых водных объектов, но испытывают трудности при обнаружении водно-болотных угодий, частично или полностью покрытых растительностью, поскольку оптические датчики не могут проникать сквозь растительность. Хотя радиолокационные датчики могут проникать сквозь растительность и обнаруживать воду под ней, радиолокационные снимки содержат шум (такой как пятнистый шум), что затрудняет различие между водой и сушей.
Ограничения существующих методов:
Модели глубокого обучения, такие как CNN, хотя и показывают отличные результаты в задачах сегментации водно-болотных угодий, требуют больших объемов аннотированных данных
Создание аннотированных данных дорогостояще и трудозатратно, особенно в области дистанционного зондирования, требующей специальных знаний
Модели сложно адаптировать к различиям в климатических условиях или датчиках
Зависимость от глобальных или национальных наборов данных с низкой частотой обновления не может удовлетворить потребности мониторинга сезонных водных объектов
Основная мотивация данного исследования заключается в разработке полностью самообучающейся системы машинного обучения, которая использует только радиолокационные спутниковые снимки для сегментации водно-болотных угодий, решая проблему зависимости от аннотированных данных и повышая масштабируемость и адаптивность модели.
Предложена структура AquaCluster: Полностью самообучающаяся система машинного обучения, использующая только радиолокационные спутниковые снимки для семантической сегментации водно-болотных угодий, решающая задачу обнаружения воды под растительностью без аннотированных данных.
Введена версия ансамблевой модели: Для повышения точности и стабильности предложена ансамблевая версия модели, объединяющая прогнозы нескольких независимо обученных сетей.
Подтверждена эффективность обучения без аннотаций: Доказано, что ансамблевая модель AquaCluster превосходит базовые статистические методы Otsu и модель Dynamic World на основе оптических данных на одном и том же наборе данных.
Предоставлена реализация с открытым исходным кодом: Весь исходный код, тестовые наборы данных и предварительно обученные модели доступны в открытом доступе на GitHub, способствуя воспроизведению исследований и распространению приложений.
Входные данные: Радиолокационные спутниковые снимки (Sentinel-1 C-диапазон)
Выходные данные: Пиксельная двоичная классификация вода-суша
Ограничение: Полностью неконтролируемое обучение без использования каких-либо вручную аннотированных данных
Использование пространственной информации: Создание положительных пар через гауссово размытие, использование пространственной непрерывности спутниковых снимков
Стратегия многоклассового выхода: Использование 10 классов модели вместо 2 реальных классов для повышения детализации сегментации
Постобработка и отображение: Отображение классов модели на реальные классы вода-суша через метрику IoU
Ансамблевое обучение: Использование голосования нескольких моделей для снижения нестабильности отдельной модели
Оптимальность ансамблевой модели: Ансамблевая версия AquaCluster показывает лучший результат по всем метрикам
Значительное улучшение чувствительности: По сравнению с методом Otsu, AquaCluster показывает значительное улучшение в чувствительности и IoU
Превосходство над оптическими методами: Dynamic World показывает худший результат по всем метрикам, демонстрируя преимущества радиолокационных данных при обнаружении воды под растительностью
Стабильность модели: Отдельные модели AquaCluster показывают большую волатильность производительности (IoU от 0,7 до 0,9), ансамблевый метод эффективно повышает стабильность
Контрастивное обучение: Адаптация методов, таких как SimCLR, к многолабельной классификации спутниковых снимков
Использование временных данных: Использование снимков одного района в разные сезоны для создания положительных пар
Методы кластеризации: Алгоритмы неконтролируемой сегментации изображений для генерации положительных и отрицательных пар
Преимущество данной работы по сравнению с существующими исследованиями заключается в специальной разработке для радиолокационных снимков, отсутствии необходимости в оптических данных и полностью самообучающемся обучении.
Техническая осуществимость: Доказана осуществимость полностью самообучающейся сегментации водно-болотных угодий с использованием только радиолокационных снимков
Превосходство производительности: Улучшение на 0,08 по метрике IoU по сравнению с базовыми методами, достигнув высокой производительности 0,89
Практическая ценность: Устранение зависимости от аннотированных данных и оптических снимков, повышение адаптивности и масштабируемости модели
Статья ссылается на 60 соответствующих источников, охватывающих важные работы в области экологии водно-болотных угодий, технологии дистанционного зондирования, глубокого обучения и самообучения, обеспечивая прочную теоретическую основу для исследования.
Общая оценка: Это высококачественная прикладная исследовательская работа, предлагающая инновационное решение практической проблемы с определенным техническим вкладом и высокой практической ценностью. Хотя она имеет некоторые недостатки в теоретическом анализе и размере набора данных, ее вклад в открытый исходный код и практическая ценность делают ее важной работой в данной области.