2025-11-14T03:19:10.909198

Post-surgical Endometriosis Segmentation in Laparoscopic Videos

Leibetseder, Schoeffmann, Keckstein et al.
Endometriosis is a common women's condition exhibiting a manifold visual appearance in various body-internal locations. Having such properties makes its identification very difficult and error-prone, at least for laymen and non-specialized medical practitioners. In an attempt to provide assistance to gynecologic physicians treating endometriosis, this demo paper describes a system that is trained to segment one frequently occurring visual appearance of endometriosis, namely dark endometrial implants. The system is capable of analyzing laparoscopic surgery videos, annotating identified implant regions with multi-colored overlays and displaying a detection summary for improved video browsing.
academic

Segmentierung von postoperativer Endometriose in laparoskopischen Videos

Grundinformationen

  • Paper-ID: 2510.13899
  • Titel: Post-surgical Endometriosis Segmentation in Laparoscopic Videos
  • Autoren: Andreas Leibetseder, Klaus Schoeffmann (Universität Klagenfurt), Jörg Keckstein (Universität Ulm), Simon Keckstein (Ludwig-Maximilians-Universität München)
  • Klassifizierung: cs.CV cs.LG cs.MM
  • Veröffentlichungsdatum: 14. Oktober 2025 (arXiv-Preprint)
  • Paper-Link: https://arxiv.org/abs/2510.13899

Zusammenfassung

Endometriose ist eine häufige Frauenerkrankung, die an verschiedenen Körperstellen eine vielfältige visuelle Erscheinung aufweist. Diese Eigenschaft macht die Erkennung äußerst schwierig und fehleranfällig, besonders für unerfahrene Ärzte. Um Gynäkologen bei der Behandlung von Endometriose zu unterstützen, beschreibt dieses Demonstrationspapier ein System, das zur Segmentierung häufiger visueller Manifestationen von Endometriose trainiert wurde, nämlich dunkle Endometrioseherde. Das System kann laparoskopische Operationsvideos analysieren, erkannte Herdbereiche mit mehrfarbigen Overlays kennzeichnen und Erkennungszusammenfassungen anzeigen, um das Videobrowsing-Erlebnis zu verbessern.

Forschungshintergrund und Motivation

1. Forschungsfrage

Die Studie zielt darauf ab, das Problem der automatischen Erkennung und Segmentierung von Endometrioseherden bei laparoskopischen Operationen zu lösen. Endometriose ist eine Erkrankung, bei der sich gebärmutterähnliches Gewebe außerhalb der Gebärmutter abnorm ausbreitet und Frauen im gebärfähigen Alter betrifft.

2. Bedeutung des Problems

  • Diagnoseschwierigkeit: Endometriose zeigt an verschiedenen Stellen unterschiedliche visuelle Erscheinungsformen, was die Erkennungsschwierigkeit erhöht
  • Medizinische Qualität: Die vollständige Erkennung und Dokumentation aller Herde ist entscheidend für die Verbesserung der Patientensymptome und Lebensqualität
  • Schulungsbedarf: Unerfahrene Ärzte unter Zeitdruck riskieren unvollständige Diagnosen
  • Klassifizierungssysteme: Es existieren zwei Hauptklassifizierungssysteme (rASRM und Enzian), die genaue visuelle Bewertung erfordern

3. Einschränkungen bestehender Methoden

  • Abhängigkeit von subjektiver visueller Bewertung durch Chirurgen
  • Begrenzte Erkennung über große Becken- und Peritonealbereiche
  • Erhöhte Erkennungsschwierigkeit durch unterschiedliche Farben und Erscheinungsformen von Endometrioseherden
  • Fehldiagnoserisiko durch unzureichende Schulung und Zeitdruck

4. Forschungsmotivation

Nutzung der erfolgreichen Anwendung von Deep Learning in der medizinischen Bildgebung zur Entwicklung eines Systems, das automatisch dunkle Endometrioseherde erkennen und segmentieren kann, um intraoperative oder postoperative Analysen zu unterstützen und die Schulungseffektivität zu verbessern.

Kernbeiträge

  1. Modellanpassung: Anpassung von Mask R-CNN für die binäre Segmentierungsaufgabe von Endometrioseherden
  2. Visualisierungssystem: Bereitstellung lokaler und zeitlicher Visualisierung von Endometrioseherden in laparoskopischen Operationsvideos
  3. Open-Source-Tool: Bereitstellung von Quellcode und vortrainierten Modellen für akademische Nutzung
  4. Praktische Demonstration: Nachweis der Machbarkeit der Anwendung traditioneller maschineller Lernzielerkennungsmethoden auf praktische medizinische Anwendungsfälle

Methodische Details

Aufgabendefinition

Eingabe: Laparoskopisches Operationsvideo Ausgabe: Kennzeichnung dunkler Endometrioseherde mit Segmentierungsmasken und Konfidenzwerten Einschränkung: Fokus auf die Erkennung einer einzelnen Klasse von dunklen Endometrioseherden

Modellarchitektur

1. Gesamtarchitektur

Das System besteht aus drei Hauptschritten:

  • Datensatzerstellung: Extraktion eines Einklassen-Herddatensatzes aus dem GLENDA-Datensatz
  • Modelltraining: Transferlernen mit Mask R-CNN
  • Videoanalyse: Modellanwendung und Ergebnisvisualisierung

2. Datensatzkonstruktion

  • Basisdaten: Extraktion aus dem Gynecologic Laparoscopy Endometriosis Dataset (GLENDA)
  • Umfang: Über 350 regionenbasierte Endometrioseherd-Annotationen, umfassend 160 Bilder aus über 100 Patientenfällen
  • Datenerweiterung: Anwendung von Rotations-, Unschärfe-, Perspektivtransformations-, Entsättigungs- und Zielverfolgungs-Techniken

3. Modelldesign

  • Basisnetzwerk: Mask R-CNN mit ResNet-101 als Backbone-Netzwerk
  • Verlustfunktion: Multitask-Verlustfunktion, einschließlich:
    • Klassifizierungsverlust (Log-Verlust)
    • Bounding-Box-Verlust (Smooth L1-Verlust)
    • Maskensegmentierungsverlust (Binärer Kreuzentropie-Verlust)
  • Trainingsparameter: 50 Epochen, Lernrate 0,001, Stochastischer Gradientenabstieg-Optimierer

4. Videobearbeitungsablauf

Rohes Operationsvideo → Rahmen-für-Rahmen-Analyse → Extraktion von Bounding Boxes, Masken und Labels → Erzeugung annotierter Rahmen → Erstellung von Erkennungszusammenfassungsleisten → Ausgabe annotiertes Video

Technische Innovationen

  1. Medizinische Domänenanpassung: Erfolgreiche Anpassung eines universellen Zielerkennungsnetzwerks an ein spezifisches medizinisches Szenario
  2. Zeitliche Visualisierung: Innovative Bereitstellung zeitlicher Indikatoren für Erkennungsvertrauen zur schnellen Lokalisierung von Schlüsselbildern
  3. Echtzeit-Verarbeitungsfähigkeit: Optimierte Verarbeitungsgeschwindigkeit mit durchschnittlich 150-250 ms pro Rahmen
  4. Multimodale Ausgabe: Gleichzeitige Bereitstellung visueller Annotationen und strukturierter Daten im JSON-Format

Experimentelle Einrichtung

Datensatz

  • Name: Benutzerdefinierter Einklassen-Datensatz basierend auf GLENDA
  • Umfang: 350+ Annotationen, 160 Bilder, 100+ Patientenfälle
  • Merkmale: Fokus auf dunkle Endometrioseherde
  • Aufteilung: Trainings-, Validierungs- und Testsätze

Bewertungsmetriken

  • Hauptmetriken: Mittlere durchschnittliche Präzision (mAP) für Maskensegmentierung
  • Schwellenwerteinstellung: IoU-Schwellenwert 0,5 und Bereich 0,5-0,95
  • Konfidenz: Erkennungsvertrauens-Schwellenwert 0,50

Implementierungsdetails

  • Bildeingabe: Größenänderung auf 800 Pixel (kurze Seite) und 1333 Pixel (lange Seite)
  • Bestes Modell: Optimale Leistung nach 29 Epochen erreicht
  • Augmentierungsstrategie: Rotations- und Zuschnitt-Augmentierung zeigen beste Ergebnisse

Experimentelle Ergebnisse

Hauptergebnisse

  • Optimale Leistung:
    • mAP@0.50IoU: 0,642 (IoU-Schwellenwert 0,5)
    • mAP@0.50:0.95: 0,324 (IoU-Schwellenwert 0,5-0,95)
  • Trainingseffizienz: Modelltraining in etwa 2 Stunden abgeschlossen
  • Verarbeitungsgeschwindigkeit: Vergleich der Verarbeitungszeiten bei verschiedenen Auflösungen
AuflösungDurchschnittliche Verarbeitungszeit (ms)
640×360153
1280×720158
1920×1080170
3840×2160207

Leistungsanalyse

  • Verarbeitungsschätzung: 1-Stunden-Video in HD-Auflösung (25fps) erfordert etwa 4 Stunden 15 Minuten Verarbeitung
  • Hardwareanforderungen: Intel Core i7-5820K, 32GB RAM, GTX 1080
  • Plattformübergreifende Kompatibilität: Unterstützung für Linux, Windows, geplante MacOS-Unterstützung

Fallstudien

Das Papier bietet vier Annotationsbeispiele für dunkle Endometrioseherde und zeigt, dass das System pathologische Bereiche erkennen kann, die sich deutlich von umgebendem Gewebe unterscheiden, aber Blutflecken oder dunklen Blutgefäßen ähneln.

Verwandte Arbeiten

1. Medizinische Bildsegmentierung

Die weit verbreitete Anwendung von Deep Learning in der medizinischen Bildgebung bietet die technische Grundlage für diese Forschung.

2. Zielerkennungsnetzwerke

  • Faster R-CNN: Bietet Grundlagen für Regions-Proposal-Netzwerk
  • Mask R-CNN: Kern-Segmentierungsnetzwerk-Architektur
  • ResNet: Als Backbone-Merkmalextraktionsnetzwerk

3. Endometriose-Klassifizierung

  • rASRM-Klassifizierung: Anwendbar auf Dokumentation von peritonealen Läsionen
  • Enzian-Klassifizierung: Abdeckung tiefe Endometriose

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Erfolgreiche Demonstration der Machbarkeit von Mask R-CNN bei der Endometriose-Segmentierungsaufgabe
  2. Entwicklung einer vollständigen Video-Analyse-Toolchain zur Unterstützung postoperativer Videoarchiv-Analyse
  3. Bereitstellung einer Visualisierungsschnittstelle zur Unterstützung von Behandlungsplanung und klinischer Ausbildung

Einschränkungen

  1. Einzelner Typ: Nur auf dunkle Endometrioseherde beschränkt, andere visuelle Manifestationen nicht abgedeckt
  2. Datengröße: Relativ kleiner Datensatz kann die Modellverallgemeinerungsfähigkeit einschränken
  3. Demonstrationscharakter: Aktuelle Version ist ein Konzeptnachweis, mangelnde vollständige Benutzeroberfläche
  4. Verarbeitungsgeschwindigkeit: Echtzeit-Verarbeitungsfähigkeit muss verbessert werden

Zukünftige Richtungen

  1. Erweiterung auf Multi-Klassen-Endometriose-Herderkennung
  2. Aufbau eines interaktiven postoperativen Video-Browsing-Systems
  3. Verbesserung der Benutzeroberfläche und Benutzererfahrung
  4. Erweiterung des größeren annotierten Datensatzes

Tiefgreifende Bewertung

Stärken

1. Technische Innovation

  • Domänenanpassung: Erfolgreiche Anpassung universeller Computer-Vision-Technologie an professionelle medizinische Szenarien
  • Praktische Tools: Bereitstellung einer vollständigen End-to-End-Lösung vom Modelltraining bis zur Videoanalyse
  • Open-Source-Beitrag: Bereitstellung von Quellcode und vortrainierten Modellen zur Förderung der akademischen Forschung

2. Experimentelle Vollständigkeit

  • Mehrdimensionale Bewertung: Umfassende Analyse einschließlich Leistungsmetriken, Verarbeitungszeit und Hardwareanforderungen
  • Praktische Anwendung: Basierend auf echten Patientendaten und klinischen Anforderungen konzipiert
  • Reproduzierbarkeit: Detaillierte Implementierungsdetails und Open-Source-Code unterstützen Ergebnisreproduzierbarkeit

3. Klinischer Wert

  • Schulungsbedeutung: Unterstützt Ärzteschulung und Kompetenzentwicklung
  • Diagnoseunterstützung: Reduziert Übersehungsrisiko und verbessert Diagnosegenauigkeit
  • Effizienzsteigerung: Automatisierte Analyse spart Ärztzeit

Mängel

1. Methodische Einschränkungen

  • Einzelne Klasse: Behandelt nur eine visuelle Manifestation, praktische Anwendung erfordert Erkennung mehrerer Herdtypen
  • Datenabhängigkeit: Relativ kleiner Datensatz kann die Modellverallgemeinerung zwischen verschiedenen Krankenhäusern und Geräten beeinflussen
  • Schwellenwert-Empfindlichkeit: Fester Vertrauens-Schwellenwert kann nicht für alle Situationen geeignet sein

2. Unzureichende Bewertung

  • Fehlende klinische Validierung: Keine Validierungsstudien in echten klinischen Umgebungen durchgeführt
  • Begrenzte Vergleichsbaselines: Mangel an detaillierten Vergleichen mit anderen medizinischen Segmentierungsmethoden
  • Fehlende Benutzerstudien: Keine Bewertung der Effektivität und Akzeptanz durch tatsächliche Ärzte

3. Technische Details

  • Unzureichende Echtzeit-Fähigkeit: Verarbeitungsgeschwindigkeit erfüllt schwer intraoperative Echtzeit-Analyseanforderungen
  • Primitive Schnittstelle: Aktuelle Version mangelt an durchdachtem Benutzeroberflächen-Design

Auswirkungen

1. Akademischer Beitrag

  • Bietet neue Forschungsrichtung für medizinische Videoanalyse
  • Zeigt Anwendungspotenzial von Deep Learning in der gynäkologischen Diagnose
  • Bietet wiederverwendbare Datensätze und Tools

2. Praktischer Wert

  • Potenziell zur Verbesserung der Diagnosegenauigkeit von Endometriose
  • Anwendbar in medizinischer Ausbildung und Schulung
  • Legt Grundlagen für Entwicklung umfassenderer medizinischer Diagnoseunterstützungssysteme

3. Reproduzierbarkeit

  • Detaillierte technische Implementierungsdetails
  • Open-Source-Code und vorgenerierte Modelle
  • Klare Installations- und Nutzungsanweisungen

Anwendungsszenarien

  1. Postoperative Analyse: Rückblickende Analyse von Operationsvideos zur Sicherstellung vollständiger Herderkennung
  2. Medizinische Ausbildung: Schulung junger Ärzte zur Erkennung von Endometrioseherden
  3. Forschungstool: Unterstützung großflächiger klinischer Forschung bei Herd-Annotation und Analyse
  4. Qualitätskontrolle: Validierung der Operationsvollständigkeit und Diagnosegenauigkeit

Literaturverzeichnis

  1. Canis, M., et al. "Revised american society for reproductive medicine classification of endometriosis: 1996." Fertility and Sterility, 1997.
  2. He, K., et al. "Mask R-CNN." IEEE Trans. Pattern Anal. Mach. Intell., 2020.
  3. Leibetseder, A., et al. "GLENDA: gynecologic laparoscopy endometriosis dataset." MultiMedia Modeling, 2020.

Zusammenfassung: Dies ist ein Demonstrationspapier, das die Anwendung von Deep Learning in der gynäkologischen medizinischen Videoanalyse zeigt. Obwohl die aktuelle Version einige Einschränkungen aufweist, bietet sie wertvolle Erkundungen für das Feld der medizinischen KI-gestützten Diagnoseunterstützung mit guten Entwicklungsperspektiven und praktischem Wert. Die Open-Source-Natur dieser Arbeit wird die weitere Entwicklung verwandter Forschung fördern.