PET/CT imaging is the gold standard for tumor detection, offering high accuracy in identifying local and metastatic lesions. Radiologists often begin assessment with rotational Multi-Angle Maximum Intensity Projections (MIPs) from PET, confirming findings with volumetric slices. This workflow is time-consuming, especially in metastatic cases. Despite their clinical utility, MIPs are underutilized in automated tumor segmentation, where 3D volumetric data remains the norm. We propose an alternative approach that trains segmentation models directly on MIPs, bypassing the need to segment 3D volumes and then project. This better aligns the model with its target domain and yields substantial gains in computational efficiency and training time. We also introduce a novel occlusion correction method that restores MIP annotations occluded by high-intensity structures, improving segmentation. Using the autoPET 2022 Grand Challenge dataset, we evaluate our method against standard 3D pipelines in terms of performance and training/computation efficiency for segmentation and classification, and analyze how MIP count affects segmentation. Our MIP-based approach achieves segmentation performance on par with 3D (<=1% Dice difference, 26.7% better Hausdorff Distance), while reducing training time (convergence time) by 55.8-75.8%, energy per epoch by 71.7-76%, and TFLOPs by two orders of magnitude, highlighting its scalability for clinical use. For classification, using 16 MIPs only as input, we surpass 3D performance while reducing training time by over 10x and energy consumption per epoch by 93.35%. Our analysis of the impact of MIP count on segmentation identified 48 views as optimal, offering the best trade-off between performance and efficiency.
- Paper-ID: 2510.09326
- Titel: MIP-Based Tumor Segmentation: A Radiologist-Inspired Approach
- Autoren: Romario Zarik, Nahum Kiryati, Michael Green, Liran Domachevsky, Arnaldo Mayer
- Klassifizierung: eess.IV (Electrical Engineering and Systems Science - Image and Video Processing)
- Veröffentlichungsdatum: 10. Oktober 2025
- Paper-Link: https://arxiv.org/abs/2510.09326v1
In diesem Artikel wird eine Tumorsegmentierungsmethode basierend auf Multi-Winkel-Maximumintensitätsprojektionen (MIPs) vorgestellt, die Segmentierungsmodelle direkt auf MIPs trainiert, anstatt die traditionelle Methode der 3D-Volumensegmentierung gefolgt von Projektion zu verwenden. Die Studie nutzt den autoPET 2022-Datensatz und erreicht dabei eine vergleichbare Leistung mit 3D-Methoden (Dice-Differenz ≤1%, Hausdorff-Distanz-Verbesserung 26,7%), während gleichzeitig die Recheneffizienz erheblich verbessert wird: Trainingszeit um 55,8-75,8% reduziert, Energieverbrauch pro Epoche um 71,7-76% gesenkt, Rechenaufwand um zwei Größenordnungen verringert. Für Klassifizierungsaufgaben werden 3D-Leistungen bereits mit nur 16 MIPs übertroffen, mit einer Trainingszeit-Reduktion von über 10×.
PET/CT-Bildgebung ist der Goldstandard für die Tumordetektion. In der klinischen Praxis betrachten Radiologen typischerweise zunächst rotierte Multi-Winkel-Maximumintensitätsprojektionen (MIPs), um einen Fall zu bewerten, und bestätigen dann Befunde durch Volumenslices. Dieser Arbeitsablauf ist besonders bei metastatischen Fällen zeitaufwändig.
- Klinische Praxis und Algorithmen-Misalignment: Obwohl MIPs in der Klinik weit verbreitet sind, beruht die automatisierte Tumorsegmentierung hauptsächlich auf 3D-Volumendaten
- Anforderungen an Recheneffizienz: Traditionelle 3D-Segmentierungsmethoden haben hohe Rechenkomplexität und lange Trainingszeiten, was die klinische Bereitstellung behindert
- Ressourcenbeschränkungen: Schwierig, großskalige 3D-Daten auf Standard-Hardware zu verarbeiten
- Domänen-Alignment: Das direkte Training auf MIPs entspricht besser der diagnostischen Denkweise von Radiologen
- Traditioneller Arbeitsablauf der 3D-Volumensegmentierung gefolgt von MIP-Projektion hat großen Rechenaufwand
- Bestehende MIP-Anwendungen sind hauptsächlich auf Detektion und Klassifizierung beschränkt, Segmentierungsanwendungen sind selten
- Fehlende effektive Lösungen für MIP-Verdeckungsprobleme
- Unzureichende Nutzung der Recheneffizienz-Vorteile von MIPs
- Direkte MIP-Segmentierungsmethode: Vorschlag einer Methode zum direkten Training von Segmentierungsmodellen auf MIPs, wodurch der komplexe Arbeitsablauf der 3D-Segmentierung gefolgt von Projektion vermieden wird
- Verdeckungskorrektur-Technik: Einführung einer neuartigen MIP-Annotations-Verdeckungskorrektur-Methode zur Lösung von Verdeckungsproblemen durch hochintensive Strukturen
- Erhebliche Effizienzsteigerung: Erreichen signifikanter Reduktionen in Trainingszeit, Energieverbrauch und Rechenaufwand bei Beibehaltung vergleichbarer Leistung
- Analyse der optimalen MIP-Anzahl: Systematische Analyse des Einflusses der MIP-Anzahl auf die Segmentierungsleistung, Bestimmung von 48 Winkeln als optimale Konfiguration
Eingabe: 3D-PET-Scandaten
Ausgabe: Tumorsegmentierungsergebnis
Ziel: Direkte semantische Segmentierung auf Multi-Winkel-MIPs durchführen, 3D-Volumensegmentierung vermeiden
MIP-Bilder werden durch folgende Formel generiert:
Fk(i,j)=maxdfk(i,j,d)
Wobei:
- Fk(i,j): Wert des k-ten MIP-Bildes am Pixel (i,j)
- fk(i,j,d): 3D-Daten nach Rotation um kΔΘ um die vertikale Achse
- Winkelschrittweite: ΔΘ(N)=N180°, N ist die Anzahl der MIPs
Zur Behandlung des Problems, dass hochintensive Organe (wie Gehirn, Herz, Nieren) Tumor-Annotationen verdecken, wird ein dreistufiger Verarbeitungsprozess entwickelt:
- Verdeckungserkennung: Überprüfung, dass mindestens 75% der Pixel in jeder markierten Tumor tatsächlich aus dem Tumor in den Volumen-PET-Daten stammen
- Annotations-Segmentierung: Für markierte Tumoren mit <75% Tumor-Pixeln werden nur Pixel beibehalten, die bestätigt aus dem Tumor stammen
- Niedriger Kontrast-Filter: Entfernung von Tumor-Resten mit extrem niedrigem Kontrast, die nicht mit bloßem Auge erkennbar sind
- Segmentierungsmodell: Attention U-Net, zeigt beste Leistung unter verschiedenen CNN-Architekturen
- 3D-Baseline: Swin-UNETR-Architektur, basierend auf dem 5. Platz der autoPET 2022 Challenge
- Klassifizierungsmodell: CNN-Encoder + Attention-Pooling + vollständig verbundener Kopf
- Domänen-Alignment-Design: Direktes Training auf MIP-Ansichten, die von Radiologen häufig verwendet werden, erhöht klinische Relevanz
- Recheneffizienz-Optimierung: 16 MIPs machen nur etwa 4% der Volumeninformation aus, reduzieren drastisch Speicher- und Rechenanforderungen
- Verdeckungsproblem-Lösung: Erste systematische Lösung von Verdeckungsproblemen in MIP-Annotationen
- End-to-End-Optimierung: Vermeidung des zweistufigen Prozesses der 3D-Segmentierung gefolgt von Projektion
- Datenquelle: autoPET 2022 Open-Source-Datensatz
- Umfang: 1.014 PET/CT-Scans von 900 Patienten
- Krankheitstypen: Lungenkrebs, Lymphom, Melanom, gesunde Kontrollen
- Datenverteilung: Gesund (513), Lymphom (145), Melanom (188), Lungenkrebs (168)
- Unabhängiger Testset: 15%
- 5-fache Kreuzvalidierung: 85%
- Beibehaltung konsistenter Klassenverteilung
Segmentierungsaufgabe:
- Dice Score: Überlappungsmaß
- IoU: Schnittunion-Verhältnis
- Hausdorff Distance: Grenzgenauigkeit
Klassifizierungsaufgabe:
- Accuracy, Precision, Recall, F1-score
Effizienzmetriken:
- Konvergenzzeit (CT): Zeit bis zur Erreichung der Spitzen-Validierungsleistung
- Trainingszeit pro Epoche (TPE) und Energieverbrauch (EPE)
- Rechenkomplexität (TFLOPs)
- 3D Swin-UNETR-Segmentierung gefolgt von MIP-Projektion
- 3D-Klassifizierungsmodell mit gleicher CNN-Architektur
| Methode | Dice Score | IoU | Hausdorff Distance |
|---|
| 3D-Projektion | 0,597±0,05 | 0,471±0,04 | 139,614±8,42 |
| OR-MIPs | 0,578±0,01 | 0,452±0,01 | 102,813±9,61 |
| OC-MIPs | 0,591±0,01 | 0,466±0,01 | 102,26±9,53 |
| Metrik | 3D-Methode | OC-MIPs | Verbesserungsfaktor |
|---|
| Trainingszeit (Stunden) | 54,64±19,22 | 13,18±4,1 | 4,1× |
| Energieverbrauch pro Epoche (Wh) | 142,2±79,1 | 34,194±4,7 | 4,2× |
| TFLOPs | 317,42±144,05 | 0,97±0,29 | 327× |
| Metrik | 3D-Daten | 16 MIPs | Verbesserung |
|---|
| Genauigkeit (%) | 72,8±3,2 | 80,5±1,7 | +7,7% |
| F1-Score (%) | 82,3±1,2 | 86,4±0,8 | +4,1% |
| Trainingszeit | 44,7±1,5 Stunden | 4,2±0,2 Stunden | 10,6× |
Durch systematische Analyse von 16, 32, 48, 64, 80 MIPs:
- Optimale Konfiguration: 48 MIPs bieten höchsten und stabilsten Dice-Score
- Statistische Signifikanz: 16 und 32 MIPs zeigen statistisch signifikante Unterschiede im Trainingsset
- Effizienz-Balance: 48 MIPs erreichen optimales Gleichgewicht zwischen Leistung und Recheneffizienz
- Leistungs-Äquivalenz: Wilcoxon-Vorzeichenrang-Test zeigt keine statistisch signifikanten Unterschiede zwischen MIP- und 3D-Methoden (p=0,22)
- Grenzgenauigkeit: MIP-Methode zeigt überlegene Leistung in Hausdorff-Distanz, 26,7% Verbesserung
- Verdeckungskorrektur-Effektivität: Nur 0,57% der Tumoren wurden vollständig ausgeschlossen, Annotations-Integrität bleibt erhalten
- Skalierbarkeit: Rechenaufwand um zwei Größenordnungen reduziert, signifikante Verbesserung der klinischen Anwendbarkeit
- Detektionsaufgaben: Kawakami et al. verwenden YOLOv2 zur Detektion physiologischer Aufnahmen auf Multi-Richtungs-MIPs
- Klassifizierungsanwendungen: Takahashi et al. nutzen Xception-Modell zur Verbesserung der Brustkrebs-Klassifizierung
- Merkmalsextraktion: Toosi et al. extrahieren Merkmale aus 72 MIPs für Überlebensprognose
- 3D-Segmentierung-Verbesserung: Constantino et al. zeigen, dass MIP 3D-PET/CT-Segmentierung verbessert
- Volumen-Rekonstruktion: Toosi et al. rekonstruieren Volumen-Segmentierung aus 2D-MIPs
- 2,75D-Methoden: Wang et al. kombinieren mehrere 2D-Ansichten zur Bereicherung des 3D-Lernens
- Erste systematische direkte MIP-Segmentierungsmethode
- Innovative Technik zur Lösung von MIP-Verdeckungsproblemen
- Umfassende Effizienz- und Leistungsbewertung
- Klinischer Arbeitsablauf-Alignment-Design
- Leistungs-Äquivalenz: MIP-direkte Segmentierung behält vergleichbare Leistung mit 3D-Methoden bei, während Recheneffizienz erheblich verbessert wird
- Optimale Konfiguration: 48 MIP-Winkel sind der optimale Ausgleichspunkt zwischen Leistung und Effizienz
- Klinische Anwendbarkeit: Drastisch reduzierte Rechenanforderungen machen die Methode für ressourcenbegrenzte klinische Umgebungen geeigneter
- Methoden-Universalität: Zeigt Vorteile sowohl bei Segmentierungs- als auch bei Klassifizierungsaufgaben
- Einzelner Datensatz: Validierung nur auf autoPET 2022-Datensatz, breitere Validierung erforderlich
- PET-spezifisch: Aktuelle Methode hauptsächlich für PET-Daten, CT-Integration noch zu erforschen
- 3D-Informationsverlust: Projektionsprozess führt unvermeidlich zu Verlust von 3D-Raumsinformation
- Verdeckungsbehandlung: Obwohl verbessert, können komplexe Verdeckungsfälle die Leistung noch beeinflussen
- Multimodale Integration: CT-Informationen in MIPs abbilden, um kombinierte PET/CT-Analyse zu erreichen
- 3D-Rekonstruktion: Erforschung von Methoden zur Rekonstruktion von 3D-Annotationen aus MIP-Segmentierungsergebnissen
- Erweiterte Validierung: Validierung der Methode auf mehr Datensätzen und Krankheitstypen
- Echtzeit-Anwendung: Entwicklung von Echtzeit-MIP-Segmentierungssystemen zur Unterstützung klinischer Entscheidungsfindung
- Hohe Innovativität: Erste systematische Methode zur direkten MIP-Segmentierung, stark an klinische Praxis ausgerichtet
- Hoher praktischer Wert: Signifikante Effizienzsteigerung bietet starkes Potenzial für klinische Anwendung
- Umfassende Technik: Von Verdeckungskorrektur bis zur Analyse optimaler Parameter, vollständige technische Lösung
- Ausreichende Validierung: Umfassende Bewertung sowohl bei Segmentierungs- als auch bei Klassifizierungsaufgaben
- Gute Reproduzierbarkeit: Code und Tools sind öffentlich verfügbar
- Unzureichende theoretische Analyse: Fehlende tiefgreifende theoretische Analyse, warum MIP-Methoden vergleichbare Leistung erreichen
- Datensatz-Limitierung: Einzelner Datensatz könnte die Universalität von Schlussfolgerungen einschränken
- Fehlende klinische Validierung: Keine Validierungsstudien in tatsächlicher klinischer Umgebung durchgeführt
- Begrenzte Vergleichsmethoden: Hauptsächlich Vergleich mit grundlegenden 3D-Methoden, fehlender Vergleich mit neuesten SOTA-Methoden
- Akademischer Beitrag: Bietet neues hocheffizientes Paradigma für medizinische Bildgebungs-Segmentierung
- Klinischer Wert: Könnte Effizienz der automatisierten PET-Scan-Analyse erheblich verbessern
- Technologie-Verbreitung: Methode ist auf andere medizinische Bildgebungs-Projektionsanalyse-Aufgaben erweiterbar
- Ressourcen-Optimierung: Bietet praktikable Lösung für ressourcenbegrenzte Umgebungen
- Klinisches Screening: Schnelle vorläufige Analyse bei großflächigen Tumor-Screenings
- Ressourcenbegrenzte Umgebungen: Medizinische Einrichtungen mit begrenzten Rechenressourcen
- Echtzeit-Anwendungen: Klinische Entscheidungsunterstützungssysteme, die schnelle Reaktion erfordern
- Mobile Medizin: Medizinische Bildgebungsanalyse auf tragbaren Geräten
Der Artikel zitiert 34 relevante Referenzen, hauptsächlich einschließlich:
- Medizinische Bildgebungs-Verarbeitungs-Frameworks (MONAI, PyTorch)
- Grundlagen der PET/CT-Bildgebungstechnik
- Deep-Learning-Segmentierungs- und Klassifizierungsmethoden
- MIP-Anwendungen in der medizinischen Bildgebung
- Relevante Bewertungsmetriken und Datensätze
Gesamtbewertung: Dies ist ein hochqualitatives Papier zur medizinischen Bildgebungsverarbeitung, das eine innovative und praktische Methode zur direkten MIP-Segmentierung vorschlägt. Das Papier behält akademische Strenge bei, während es gleichzeitig praktische klinische Anwendbarkeit betont, und bietet eine neue hocheffiziente Lösung für die Anwendung von KI in der medizinischen Bildgebung. Obwohl einige Einschränkungen bestehen, machen die signifikanten Effizienzsteigerungen und gute Leistungsmerkmale es von wichtigem akademischem und praktischem Wert.