Onderzoek naar classificatie van weefselletsels

De microscoop is een hulpmiddel geweest voor het oog van de patholoog om weefsels op cellulair niveau te bekijken. Met het volwassen worden van de gebieden van diep leren en computervisie, hebben pathologen nu een hulpmiddel om hun vaardigheden aan te vullen en hen te helpen bij het classificeren van afbeeldingen. Een veel voorkomende taak voor een patholoog is het onderzoeken van weefsel uit een biopsie op microscopisch niveau om kankers te diagnosticeren. Het inspecteren van objectglaasjes is een nauwgezet, nauwkeurig werk dat jaren van gespecialiseerde training vereist om het onder de knie te krijgen. Computervisie is een voor de hand liggend hulpmiddel dat snellere en nauwkeurigere diagnoses kan vergemakkelijken. Het nut van computervisie op het gebied van pathologie, in het bijzonder, is verder vastgesteld door de vooruitgang van digitale pathologie. Door specifieke taken te delegeren aan computer vision-software, kan de patholoog zijn aandacht richten op processen op een hoger niveau, waaronder het synthetiseren van informatie voor klinische interpretatie en besluitvormingsdoeleinden.

Probleembeschrijving

The French Society of Pathology ( SFP ) organiseerde een wedstrijd op DrivenData ,

Deze uitdaging richt zich op epitheliale laesies van de baarmoederhals en bevatte een unieke verzameling van duizenden expert-gelabelde WSIs verzameld in medische centra in heel Frankrijk. De laesies in objectglaasjes zoals deze zijn meestal goedaardig (class 0), maar sommige andere hebben een laag kwaadaardig potentieel (class 1) of een hoog kwaadaardig potentieel (class 2), en andere zijn mogelijk al invasieve kankers (class 3).

om te ontwikkelen een op maat gemaakte beeldclassificator op microscoopglaasjes van biopsieën van baarmoederhalsweefsel verzameld bij de Franse bevolking. De SFP en de Health Data Hub van Frankrijk leverden een trainingsset van 928 GB met gelabelde afbeeldingen van hele objectglaasjes, waarbij elk objectglaasje door anatomische pathologen werd geclassificeerd op basis van de ernst van de laesie:

  • 0 Normaal of subnormaal
  • 1 Laaggradige squameuze intra-epitheliale laesie
  • 2 Hooggradige squameuze intra-epitheliale laesie
  • 3 Invasief plaveiselcarcinoom

Hele dia-afbeeldingen ( WSIs: een WSI is een digitale weergave van een microscoopglaasje bij hoge vergrotingsniveaus) in verschillende formaten, hoewel we geïnteresseerd waren in het piramidale TIF-formaat. Piramidale TIFs zijn een indeling met meerdere resoluties waarbij elke resolutie als een afzonderlijke laag in het TIF-bestand wordt opgeslagen. Deze afbeeldingen worden enigszins gecomprimeerd om ze minder hardware-intensief te maken, maar behouden een gedetailleerd detailniveau dat pathologen kunnen gebruiken voor diagnoses.

Schematische voorstelling van piramidale TIF. Cmglee , CC BY-SA 3.0 , via Wikimedia Commons

Er werden ook annotatiegegevens geleverd voor de trainingsafbeeldingen. Hier hadden de pathologen gebieden van 300×300 micron gelabeld als laesie of normaal weefsel . De geannoteerde gebieden omvatten echter niet noodzakelijkerwijs al het beschadigde / normale weefsel op het objectglaasje, en laesies kunnen zich buiten de grenzen van de geannoteerde gebieden uitstrekken.

Uiteindelijk was ons doel om te classificeren op objectglaasje niveau, niet het annotatieniveau. Een afbeelding met het label klasse 3 kan bijvoorbeeld annotaties hebben die overeenkomen met alle klassen 0, 1, 2 en 3, maar ten minste één regio zou een laesie van klasse 3 bevatten.

Methodologie

Hele dia Afbeeldingen in deze dataset kunnen enorm groot zijn bij de hoogste resolutie (100.000 x 100.000 pixels of hoger). Veel van de dias bevatten ook aanzienlijke hoeveelheden weefselloze achtergrond, verschillende artefacten en wazige gebieden.

Lage resolutie WSI met gefilterde weefselkandidaten

Om de WSI te analyseren, verdelen we het beeld in vele 300×300 micron weefselkandidaten. Om dit te doen, hebben we een aangepast weefselmaskerfilter gebruikt, dat niet-overlappende gebieden van de WSI extraheert. We gebruiken dit filter met een lage resolutie, wat een extreem snelle weefselsegmentatie mogelijk maakt, maar voor deze snelheid enige nauwkeurigheid inruilen.

Zodra we een set weefselkandidaten hebben, voorspellen we voor elk een label, en compileer ze in een reeks kandidaten voor de WSI. Het probleem is nu een instantie van Leren van meerdere instanties , waarbij we een enkel label moeten voorspellen uit een zak met gelabelde kandidaten.Vanwege tijdgebrek hebben we besloten om een ​​zeer eenvoudige voorspellingsmethode te gebruiken door een kwantieldrempel te gebruiken. Hiervoor bouwen we een verdeling op van de kandidaat-labels, en kiezen we de waarde die voorkomt op het 70e percentiel. Deze waarde werkte goed in de praktijk, ondanks dat er meer rigoureuze methoden waren.

Voor ons kandidaat-classificatiemodel hebben we een standaard ResNet-stijl CNN-architectuur gebruikt. Het model is getraind op de afbeeldingen van 300 x 300 micron die zijn gelabeld door de pathologen.

Stroomdiagram voor het verwerken van WSIs

Voor het trainen van onze CNN hebben we een enkele desktop Titan RTX, een Ryzen 2700x en 64GB RAM gebruikt.

Resultaten

De prestatie werd geëvalueerd volgens een meeteenheid die was opgesteld door een panel van pathologen. Elke classificatie werd gescoord als 1 minus de fout en de totale score was het gemiddelde van alle voorspellingen.

Vanwege de aard van het probleem is het essentieel om de voorspelling correct te krijgen; niet alle misclassificaties zijn echter gelijkwaardig. Het is veel erger om een ​​objectglaasje als normaal te classificeren als er een invasief carcinoom aanwezig is en potentieel een veel grotere keerzijde heeft dan het tegenovergestelde scenario.

Binnen een week werk waren we in staat om een systeem dat een score van 0,8933 behaalde. Dit vertegenwoordigt een gemiddelde fout van ~ 0,1, wat overeenkomt met een gemiddelde voorspelling die binnen 1 label van de waarheid ligt.

Bedankt aan DrivenData, de French Pathology Society, en de Health Data Hub voor het organiseren van dit wedstrijd. Een speciaal bedankje voor alle individuele pathologen die de gegevens hebben gelabeld en geannoteerd. Het creëren van datasets zoals die hier worden gebruikt, is een waardevolle bron die de collectieve expertise van pathologen vastlegt en waarmee vooruitgang kan worden geboekt op het gebied van medische computervisie.