Untersuchung der Klassifizierung von Gewebeläsionen

Das Mikroskop war ein Werkzeug für das Auge des Pathologen, um Gewebe auf zellulärer Ebene zu betrachten. Mit der Reifung der Bereiche Deep Learning und Computer Vision haben Pathologen nun ein Werkzeug, um ihre Fähigkeiten zu ergänzen und sie bei der Bildklassifizierung zu unterstützen. Eine häufige Aufgabe für einen Pathologen ist die Untersuchung von Gewebe aus einer Biopsie auf mikroskopischer Ebene, um Krebs zu diagnostizieren. Die Inspektion von Gewebeschnitten ist eine sorgfältige und präzise Arbeit, für deren Beherrschung jahrelange Spezialschulungen erforderlich sind. Computer Vision ist ein naheliegendes Werkzeug, das schnellere und genauere Diagnosen ermöglichen kann. Die Nützlichkeit des Computer-Sehens im Bereich der Pathologie wurde insbesondere durch die Weiterentwicklung der digitalen Pathologie weiter etabliert. Durch die Delegierung bestimmter Aufgaben an Computer-Vision-Software kann der Pathologe seine Aufmerksamkeit auf Prozesse auf höherer Ebene richten, einschließlich der Synthese von Informationen für klinische Interpretations- und Entscheidungszwecke.

Problembeschreibung

Die Franzosen Die Gesellschaft für Pathologie ( SFP ) veranstaltete einen Wettbewerb am DrivenData ,

Diese Herausforderung konzentriert sich auf epitheliale Läsionen des Gebärmutterhalses und umfasst eine einzigartige Sammlung von Tausenden von Experten WSIs wurden von medizinischen Zentren in ganz Frankreich gesammelt. Die Läsionen in solchen Objektträgern sind meistens gutartig (class 0), aber einige andere haben ein geringes bösartiges Potenzial (class 1) oder ein hohes bösartiges Potenzial (class 2) und andere können bereits invasive Krebsarten sein (class 3).

zu entwickeln ein maßgeschneiderter Bildklassifikator auf Objektträgern von Gebärmutterhalsgewebe-Biopsien, die aus der französischen Bevölkerung entnommen wurden. Der SFP und Frankreichs Health Data Hub lieferten einen 928-GB-Trainingssatz mit beschrifteten Bildern ganzer Objektträger, wobei jeder Objektträger von anatomischen Pathologen nach Schweregrad der Läsion klassifiziert wurde:

  • 0 Normal oder subnormal
  • 1 Niedriggradige Plattenepithel-intraepitheliale Läsion
  • 2 Hochgradige Plattenepithel-intraepitheliale Läsion
  • 3 Invasives Plattenepithelkarzinom

Es wurden ganze Objektträgerbilder ( WSIs: ein WSI ist eine digitale Darstellung eines Objektträgers mit hoher Vergrößerung) bereitgestellt in einer Vielzahl von Formaten, obwohl wir am pyramidenförmigen TIF-Format interessiert waren. Pyramidale TIFs sind ein Format mit mehreren Auflösungen, wobei jede Auflösung als separate Ebene in der TIF-Datei gespeichert wird. Diese Bilder werden leicht komprimiert, um sie weniger hardwareintensiv zu machen, behalten jedoch einen Detaillierungsgrad bei, den Pathologen für Diagnosen verwenden können.

Schema des pyramidenförmigen TIF. Cmglee , CC BY-SA 3.0 über Wikimedia Commons

Anmerkungsdaten wurden auch für die Trainingsbilder bereitgestellt. Hier hatten die Pathologen 300 × 300 Mikron-Regionen als läsioniertes oder normales Gewebe markiert. Die annotierten Regionen umfassten jedoch nicht notwendigerweise das gesamte verletzte / normale Gewebe auf dem Objektträger, und Läsionen konnten sich über die Grenzen der annotierten Regionen hinaus erstrecken.

Letztendlich war es unser Ziel, nicht auf Objektträgerebene zu klassifizieren die Annotationsebene. Beispielsweise könnte ein als Klasse 3 gekennzeichnetes Bild Anmerkungen enthalten, die allen Klassen 0, 1, 2 und 3 entsprechen, aber mindestens eine Region würde eine Läsion der Klasse 3 enthalten.

Methodik

Ganze Folienbilder in diesem Datensatz können bei der höchsten Auflösung (100.000 x 100.000 Pixel oder höher) sehr groß sein. Ein Großteil der Objektträger enthält auch erhebliche Mengen an gewebellosem Hintergrund, verschiedenen Artefakten und unscharfen Bereichen.

WSI mit niedriger Auflösung und Kandidaten für gefiltertes Gewebe

Um den WSI zu analysieren, teilen wir das Bild in viele Gewebekandidaten mit einer Größe von 300 x 300 Mikron auf. Zu diesem Zweck haben wir einen benutzerdefinierten Gewebemaskenfilter verwendet, der nicht überlappende Bereiche des WSI extrahiert. Wir führen diesen Filter mit einer niedrigen Auflösung aus, die eine extrem schnelle Gewebesegmentierung ermöglicht, aber eine gewisse Genauigkeit für diese Geschwindigkeit eintauscht.

Sobald wir eine Reihe von Gewebekandidaten haben, sagen wir für jeden eine Bezeichnung voraus, und Stellen Sie sie zu einer Reihe von Kandidaten für das WSI zusammen. Das Problem ist jetzt eine Instanz von Multiple Instance Learning , bei der wir ein einzelnes Etikett aus einer Tüte etikettierter Kandidaten vorhersagen müssen.Aus zeitlichen Gründen haben wir uns für eine sehr einfache Vorhersagemethode zur Verwendung eines Quantilschwellenwerts entschieden. Dazu bauen wir eine Verteilung der Kandidatenetiketten auf und wählen den Wert, der bei der 70. Perzentile auftritt. Dieser Wert hat in der Praxis trotz strengerer Methoden gut funktioniert.

Für unser Kandidatenklassifizierungsmodell haben wir eine Standard-CNN-Architektur im ResNet-Stil verwendet. Das Modell wurde auf den von den Pathologen beschrifteten 300 x 300 Mikron-Bildern trainiert.

Flussdiagramm für die Verarbeitung von WSIs

Für das Training unseres CNN verwendeten wir einen einzelnen Desktop-Titan RTX, einen Ryzen 2700x und 64 GB RAM.

Ergebnisse

Die Leistung wurde anhand einer von einer Gruppe von Pathologen erstellten Metrik bewertet. Jede Klassifizierung wurde mit 1 minus dem Fehler bewertet und die Gesamtbewertung war der Durchschnitt aller Vorhersagen.

Aufgrund der Art des Problems ist es wichtig, dass die Vorhersage korrekt ist. Es sind jedoch nicht alle Fehlklassifizierungen gleichwertig. Es ist viel schlimmer, einen Objektträger als normal zu klassifizieren, wenn ein invasives Karzinom vorliegt, das möglicherweise einen viel größeren Nachteil aufweist als das entgegengesetzte Szenario.

Innerhalb einer einzigen Arbeitswoche konnten wir ein Objektträger zusammenstellen System, das eine Punktzahl von 0,8933 erreichte. Dies stellt einen durchschnittlichen Fehler von ~ 0,1 dar, was einer durchschnittlichen Vorhersage entspricht, die innerhalb eines Labels von der Wahrheit liegt.

Vielen Dank an DrivenData, die French Pathology Society und den Health Data Hub für die Organisation Wettbewerb. Ein besonderes Dankeschön an alle einzelnen Pathologen, die die Daten beschriftet und kommentiert haben. Die Erstellung von Datensätzen wie dem hier verwendeten ist eine wertvolle Ressource, die das kollektive Fachwissen des Pathologen erfasst und Fortschritte in der medizinischen Computer-Vision ermöglicht.