Zkoumání klasifikace lézí v tkáních

Mikroskop byl nástrojem pro oko patologa k prohlížení tkání na buněčné úrovni. S dozráváním oborů hlubokého učení a počítačového vidění mají nyní patologové nástroj, který doplňuje jejich dovednosti a pomáhá jim při klasifikaci obrazu. Běžným úkolem patologa je vyšetření tkáně z biopsie na mikroskopické úrovni k diagnostice rakoviny. Inspekce tkáňových sklíček je pečlivá a precizní práce, jejíž zvládnutí vyžaduje roky specializovaného školení. Počítačové vidění je zřejmý nástroj, který může usnadnit rychlejší a přesnější diagnózy. Užitečnost počítačového vidění v oblasti patologie, konkrétně, byla dále prokázána rozvojem digitální patologie. Delegováním konkrétních úkolů na software pro počítačové vidění je patolog schopen soustředit svou pozornost na procesy vyšší úrovně, včetně syntézy informací pro účely klinické interpretace a rozhodování.

Popis problému

Francouzština Společnost patologie ( SFP ) uspořádala soutěž na DrivenData ,

Tato výzva se zaměřuje na epiteliální léze děložního čípku a představovala jedinečnou sbírku tisíců odborně označených WSI shromážděné z lékařských center ve Francii. Léze na snímkách, jako jsou tyto, jsou nejčastěji benigní (class 0), ale některé další mají nízký maligní potenciál (class 1) nebo vysoký maligní potenciál (class 2) a další již mohou být invazivními druhy rakoviny (class 3).

rozvíjet klasifikátor obrazu na zakázku na mikroskopických sklíčkách biopsií děložní cervikální tkáně shromážděných od francouzské populace. SFP a francouzský Health Data Hub poskytl 928 GB tréninkovou sadu označených celých snímků snímků, přičemž každý snímek byl klasifikován anatomickými patology podle závažnosti léze:

  • 0 Normální nebo subnormální
  • 1 dlaždicová intraepiteliální léze nízkého stupně
  • 2 dlaždicová intraepiteliální léze vysoké kvality
  • 3 invazivní dlaždicový karcinom

Byly poskytnuty celé snímky snímků ( WSI: a WSI je digitální reprezentace mikroskopického sklíčka při vysokých úrovních zvětšení) v různých formátech, i když nás zajímal pyramidový formát TIF. Pyramidální TIF jsou formátem s více rozlišeními, přičemž každé rozlišení je uloženo jako samostatná vrstva v souboru TIF. Tyto obrázky jsou mírně komprimovány, aby byly méně náročné na hardware, ale zachovávají si úroveň podrobností adekvátní patologům k použití pro diagnózy.

Schéma pyramidového TIF. Cmglee , CC BY-SA 3.0 , přes Wikimedia Commons

Data tréninku byla také poskytnuta. Patologové zde označili oblasti o rozměrech 300 x 300 mikronů jako poškozené nebo normální tkáně . Anotované oblasti nemusí nutně zahrnovat veškerou poškozenou / normální tkáň na sklíčku a léze by mohly přesahovat hranice anotovaných oblastí.

Naším cílem bylo nakonec klasifikovat na úrovni sklíčka, nikoli úroveň anotace. Například obrázek označený jako třída 3 může mít anotace odpovídající všem třídám 0, 1, 2 a 3, ale alespoň jedna oblast bude obsahovat lézi třídy 3.

Metodika

Celé snímky snímků v této datové sadě mohou mít obrovské rozměry při nejvyšším rozlišení (100 000 x 100 000 pixelů nebo vyšší). Velká část snímků také obsahuje značné množství pozadí bez tkáně, různé artefakty a rozmazané oblasti.

WSI s nízkým rozlišením s kandidáty na filtrovanou tkáň

Abychom mohli analyzovat WSI, rozdělíme obrázek na mnoho kandidátů na tkáně o velikosti 300 x 300 mikronů. K tomu jsme použili vlastní filtr tkáňové masky, který extrahuje nepřekrývající se oblasti WSI. Tento filtr používáme při nízkém rozlišení, což umožňuje extrémně rychlou segmentaci tkáně, ale za tuto rychlost se obchoduje určitá přesnost.

Jakmile máme sadu kandidátů na tkáň, předpovídáme každému štítek a sestavit je do sady kandidátů na WSI. Problémem je nyní instance Multiple Instance Learning , kde je třeba předpovědět jeden štítek ze sáčku označených kandidátů.Kvůli časovým omezením jsme se rozhodli pro velmi jednoduchou metodu predikce použití kvantilové prahové hodnoty. K tomu vytvoříme distribuci kandidátských štítků a vybereme hodnotu, která se vyskytuje na 70. percentilu. Tato hodnota v praxi fungovala dobře, přestože existují přísnější metody.

U našeho modelu klasifikace kandidátů jsme použili standardní architekturu CNN ve stylu ResNet. Model byl proškolen na mikronových obrázcích o rozměrech 300 x 300 označených patology.

Vývojový diagram pro zpracování WSI

Pro školení naší CNN jsme použili jeden desktop Titan RTX, Ryzen 2700x a 64 GB RAM.

Výsledky

Výkon byl hodnocen podle metriky navržené skupinou patologů. Každá klasifikace byla hodnocena jako 1 minus chyba a celkové skóre bylo průměrem všech předpovědí.

Vzhledem k povaze problému je důležité získat správnou předpověď; ne všechny nesprávné klasifikace jsou však rovnocenné. Je mnohem horší klasifikovat snímek jako normální, když je přítomný invazivní karcinom, který má potenciál pro mnohem větší nevýhodu než opačný scénář.

Během jediného týdne práce jsme byli schopni dát dohromady systém, který dosáhl skóre 0,8933. To představuje průměrnou chybu ~ 0,1, což odpovídá průměrné předpovědi, která je od pravdy do 1 štítku.

Děkuji DrivenData, Francouzské patologické společnosti a Health Data Hub za organizaci této soutěž. Zvláštní poděkování patří všem jednotlivým patologům, kteří údaje označili a anotovali. Vytváření datových souborů, jako je ten, který se zde používá, je cenným zdrojem, který zachycuje kolektivní odbornost patologa a umožňuje pokrok v lékařském počítačovém vidění.