Brain tumor segmentation is crucial for diagnosis and treatment planning, yet challenges such as class imbalance and limited model generalization continue to hinder progress. This work presents a reproducible evaluation of U-Net segmentation performance on brain tumor MRI using focal loss and basic data augmentation strategies. Experiments were conducted on a publicly available MRI dataset, focusing on focal loss parameter tuning and assessing the impact of three data augmentation techniques: horizontal flip, rotation, and scaling. The U-Net with focal loss achieved a precision of 90%, comparable to state-of-the-art results. By making all code and results publicly available, this study establishes a transparent, reproducible baseline to guide future research on augmentation strategies and loss function design in brain tumor segmentation.
- ID de l'article : 2510.08617
- Titre : Reproducible Evaluation of Data Augmentation and Loss Functions for Brain Tumor Segmentation
- Auteur : Saumya B (Institut Indien des Sciences)
- Classification : cs.CV cs.LG
- Date de publication : 8 octobre 2025 (prépublication arXiv)
- Lien de l'article : https://arxiv.org/abs/2510.08617
La segmentation des tumeurs cérébrales est cruciale pour le diagnostic et la planification thérapeutique, mais des défis tels que le déséquilibre des classes et la généralisation limitée des modèles entravent les progrès. Cette étude propose une évaluation reproductible de la performance du U-Net utilisant la perte focale et des stratégies d'augmentation de données fondamentales pour la segmentation des tumeurs cérébrales sur IRM. Les expériences sont menées sur des ensembles de données IRM publics, en mettant l'accent sur l'ajustement des paramètres de la perte focale et l'évaluation de l'impact de trois techniques d'augmentation de données : retournement horizontal, rotation et mise à l'échelle. Le U-Net utilisant la perte focale atteint une précision de 90%, comparable aux résultats de pointe. En rendant public tout le code et les résultats, cette étude établit un repère transparent et reproductible, guidant les recherches futures sur les stratégies d'augmentation et la conception des fonctions de perte pour la segmentation des tumeurs cérébrales.
Les tumeurs cérébrales constituent l'une des maladies médicales les plus difficiles, nécessitant une identification précise des limites tumorales pour une planification thérapeutique efficace. L'imagerie par résonance magnétique (IRM) est une modalité d'imagerie largement utilisée pour la détection des tumeurs cérébrales, mais la délimitation manuelle des régions tumorales par les radiologues présente les problèmes suivants :
- Processus chronophage et sujet aux erreurs
- Variabilité inter-observateurs importante
- Difficultés de mise à l'échelle dans les environnements cliniques
- Déséquilibre des classes : Les pixels tumoraux sont rares par rapport aux pixels de fond, ce qui rend les fonctions de perte traditionnelles inefficaces
- Rareté des données : Le coût élevé de l'annotation des images médicales limite les données d'entraînement disponibles
- Capacité de généralisation : La généralisation des modèles entre différents scanners et populations de patients est limitée
Cette étude vise à établir un repère reproductible pour la segmentation des tumeurs cérébrales par une évaluation systématique des paramètres de la perte focale et des stratégies d'augmentation de données, comblant ainsi les lacunes en matière de transparence et de reproductibilité dans les recherches existantes.
- Établissement d'un repère reproductible : Fourniture d'une implémentation de référence du U-Net utilisant la perte focale pour la segmentation des tumeurs cérébrales sur IRM
- Analyse systématique des paramètres : Analyse approfondie de l'impact des paramètres de la perte focale (α et γ) sur la performance du modèle
- Évaluation des stratégies d'augmentation de données : Évaluation de l'effet de trois techniques d'augmentation de données différentes sur la performance du modèle
- Contribution en source ouverte : Publication de tout le code et des configurations expérimentales pour assurer la transparence et la reproductibilité de la recherche
Entrée : Images IRM pondérées en T1 rehaussées par contraste de 256×256 pixels
Sortie : Masque de segmentation binaire identifiant la région tumorale
Objectif : Segmenter précisément les limites des tumeurs cérébrales en traitant le problème du déséquilibre des classes
- Encodeur : Quatre blocs de sous-échantillonnage, chaque bloc contenant deux couches de convolution (noyau 3×3, activation ReLU, initialisation normale de He), suivis d'un pooling maximal 2×2 et d'une suppression aléatoire de 0,3
- Couche goulot : Deux couches de convolution avec 1024 filtres, capturant les représentations de caractéristiques de haut niveau
- Décodeur : Quatre blocs de sur-échantillonnage utilisant des convolutions transposées, combinés avec des connexions de saut pour préserver les détails spatiaux
- Couche de sortie : Convolution 1×1 + activation Sigmoid, générant une carte de segmentation binaire
La perte focale résout le déséquilibre des classes en ajustant dynamiquement la contribution de la perte de chaque pixel :
FL(pt)=−α(1−pt)γlog(pt)
Où :
- pt : Probabilité prédite par le modèle pour la classe réelle
- α : Facteur de pondération d'équilibre des classes
- γ : Paramètre de focalisation, contrôlant l'attention portée aux échantillons difficiles
- (1−pt) : Facteur de modulation, donnant un poids plus élevé aux échantillons mal classifiés
- Étude paramétrée : Comparaison systématique de deux ensembles de paramètres de perte focale :
- α=0,25, γ=2,0 : Mettant l'accent sur les échantillons difficiles et les limites tumorales
- α=2,0, γ=0,75 : Accordant plus d'attention à la classe minoritaire mais réduisant la focalisation sur les échantillons difficiles
- Comparaison des stratégies d'augmentation : Évaluation indépendante de l'effet de trois techniques d'augmentation fondamentales, fournissant des orientations pour les applications pratiques
- Source : Hôpital du Sud et Université Médicale de Tianjin (2005-2010), collectées par Jun Cheng
- Échelle : 3064 images IRM pondérées en T1 rehaussées par contraste, provenant de 233 patients
- Types de tumeurs :
- Méningiomes : 708 cas
- Gliomes : 1426 cas
- Adénomes hypophysaires : 930 cas
- Annotation : Délimitation manuelle des limites tumorales par trois radiologues expérimentés
- Division des données : Ensemble d'entraînement 1838 échantillons, ensemble de validation 613 échantillons, ensemble de test 613 échantillons
- Coefficient Dice : Mesure le degré de chevauchement de la segmentation
- IoU (Intersection sur Union) : Évalue le chevauchement entre la région prédite et la région réelle
- Précision : Proportion de pixels prédits comme tumoraux qui sont réellement tumoraux
- Rappel : Proportion de pixels tumoraux réels correctement identifiés
- Exactitude : Taux global de classification correcte des pixels
- Arafat et al. (2023) : Méthode de segmentation des tumeurs cérébrales basée sur l'apprentissage profond
- Gupta et al. (2021) : Segmentation des tumeurs cérébrales sur IRM utilisant l'apprentissage profond
- Optimiseur : Adam, taux d'apprentissage 1×10⁻⁴
- Taille de lot : 8
- Nombre d'époques : 200
- Matériel : Google Colab TPUv2-8
- Framework : TensorFlow
| Paramètres | Exactitude | Perte | Précision | Rappel | IoU | Coefficient Dice |
|---|
| α=0,25, γ=2,0 | 0,9941 | 0,0082 | 0,9014 | 0,7681 | 0,7082 | 0,7867 |
| α=2,0, γ=0,75 | 0,9939 | 0,0154 | 0,8778 | 0,7789 | 0,7004 | 0,7839 |
Découvertes clés : La combinaison de paramètres α=0,25, γ=2,0 présente de meilleures performances sur la plupart des métriques, particulièrement en termes de précision et de valeur de perte.
| Technique d'Augmentation | Exactitude | Perte | Précision | Rappel | IoU | Coefficient Dice |
|---|
| Pas d'augmentation | 0,9941 | 0,0082 | 0,9014 | 0,7681 | 0,7082 | 0,7867 |
| Retournement horizontal | 0,9942 | 0,0053 | 0,9001 | 0,7779 | 0,7152 | 0,8041 |
| Rotation (±15°) | 0,9940 | 0,0029 | 0,8774 | 0,7892 | 0,7090 | 0,7955 |
| Mise à l'échelle aléatoire | 0,9934 | 0,0064 | 0,9097 | 0,7106 | 0,6643 | 0,7486 |
- Retournement horizontal : Amélioration sur toutes les métriques, avec l'augmentation la plus significative du coefficient Dice (+0,0174)
- Rotation : Amélioration du rappel et du coefficient Dice, démontrant une bonne capacité de généralisation
- Mise à l'échelle : Performance la plus faible, voire inférieure au modèle de base sur certaines métriques
- Retournement horizontal et rotation : Produisent des courbes de validation plus stables avec un écart plus petit entre les performances d'entraînement et de validation
- Mise à l'échelle : Fluctuations plus importantes de la perte de validation, capacité de généralisation plus faible
- Pas d'augmentation : Courbes lisses mais avec un léger surapprentissage
| Modèle | Précision | Rappel | IoU | Coefficient Dice |
|---|
| Cette étude | 0,9001 | 0,7779 | 0,7152 | 0,8041 |
| Arafat et al. | 0,82 | 0,74 | 0,68 | 0,94 |
| Gupta et al. | 0,89 | 0,91 | - | 0,90 |
Remarque : Bien que cette étude montre une excellente performance en précision, son coefficient Dice est légèrement inférieur à celui de certaines méthodes de comparaison.
- Segmentation par seuillage : Méthode d'Otsu basée sur l'histogramme de niveaux de gris
- Détection de contours : Modèles de contours actifs
- Croissance de régions : Extension de régions basée sur des points de départ
- Limitations : Sensibilité au bruit, capacité de généralisation faible
- Architectures CNN : Apprentissage automatique de caractéristiques hiérarchiques, surpassant les méthodes de caractéristiques manuelles traditionnelles
- U-Net : Structure encodeur-décodeur avec connexions de saut, devenue l'étalon-or pour la segmentation biomédicale
- Évolution des fonctions de perte : De l'entropie croisée binaire à la perte Dice, puis à la perte focale
- Transformations géométriques : Retournement, rotation, mise à l'échelle
- Déformation élastique : Simulation de déformations tissulaires
- Perturbation d'intensité : Simulation de différentes conditions de balayage
- Le choix des paramètres de la perte focale est crucial : La combinaison α=0,25, γ=2,0 est plus efficace pour traiter le déséquilibre des classes
- Les stratégies d'augmentation simples sont efficaces : Le retournement horizontal est la technique d'augmentation la plus efficace, suivi de la rotation
- L'efficacité limitée de la mise à l'échelle : Sur cet ensemble de données, les variations de taille contribuent peu à l'amélioration des performances
- L'importance de la reproductibilité : Établissement d'un repère expérimental transparent
- Ensemble de données unique : Validation sur un seul ensemble de données, la généralisation reste à vérifier
- Stratégies d'augmentation fondamentales : N'explore pas les techniques d'augmentation plus avancées comme la déformation élastique
- Architecture fixe : Utilise uniquement le U-Net standard, sans comparaison avec d'autres architectures avancées
- Métriques d'évaluation : Se concentre principalement sur les métriques au niveau des pixels, manquant d'évaluation de la pertinence clinique
- Stratégies d'augmentation avancées : Déformation élastique, transformations spécifiques aux modalités
- Augmentation de données générative : Utilisation de GANs pour synthétiser des données d'entraînement
- Apprentissage multitâche : Combinaison de la segmentation et de la classification des types de tumeurs
- Validation inter-ensembles de données : Vérification de la généralisation de la méthode sur plusieurs ensembles de données
- Transparence élevée de la recherche : Fourniture du code complet et des configurations expérimentales, assurant la reproductibilité
- Conception expérimentale systématique : Expériences par étapes, optimisant d'abord les paramètres de la fonction de perte, puis évaluant les stratégies d'augmentation
- Valeur pratique : Fournit des orientations claires sur le choix des paramètres et des stratégies d'augmentation pour les applications pratiques
- Établissement d'un repère : Fournit un repère d'évaluation standardisé pour le domaine
- Innovativité limitée : Principalement une combinaison et une évaluation de méthodes existantes, manquant d'innovation technique
- Profondeur expérimentale insuffisante : N'analyse pas en profondeur les mécanismes d'action des différentes stratégies d'augmentation
- Limitations de l'ensemble de données : Un seul ensemble de données peut limiter la généralité des conclusions
- Comparaisons insuffisantes : Comparaisons limitées avec les méthodes de pointe, manquant de tests de signification statistique
- Contribution académique : Fournit un repère fiable et un point de référence pour la recherche en segmentation des tumeurs cérébrales
- Valeur pratique : Fournit une solution technique pratique pour les applications cliniques
- Reproductibilité : Promeut la transparence et la reproductibilité dans le domaine
- Valeur pédagogique : Fournit une référence d'implémentation complète pour les débutants
- Assistance au diagnostic clinique : Peut servir d'outil d'assistance pour les radiologues
- Repère de recherche : Fournit un repère de comparaison pour les nouvelles méthodes
- Applications pédagogiques : Cas pratique pour les cours de traitement d'images médicales
- Développement de produits : Base technique pour les produits d'IA médicale
- Ronneberger et al. (2015) - Article original U-Net
- Lin et al. (2017) - Article présentant la perte focale
- Cheng et al. (2015) - Article source de l'ensemble de données
- Nalepa et al. (2019) - Revue de synthèse sur l'augmentation de données pour la segmentation des tumeurs cérébrales
Évaluation Globale : Cet article est une recherche empirique solide qui, bien que d'innovation technique limitée, possède une valeur importante dans l'établissement de repères reproductibles et l'évaluation systématique. La transparence et l'exhaustivité de l'article sont louables, jetant une base solide pour le développement futur du domaine.