Explorarea clasificării leziunii țesuturilor

Microscopul a fost un instrument pentru ochiul patologului de a vizualiza țesuturile la nivel celular. Odată cu maturizarea câmpurilor de învățare profundă și viziune pe computer, patologii au acum un instrument pentru a-și completa setul de abilități și a-i ajuta în clasificarea imaginilor. O sarcină comună pentru un patolog este examinarea țesutului dintr-o biopsie la nivel microscopic pentru diagnosticarea cancerelor. Inspectarea lamelelor de țesut este o muncă precisă și dureroasă, care necesită ani de pregătire specializată pentru a fi stăpânită. Viziunea pe computer este un instrument evident care poate facilita diagnosticarea mai rapidă și mai precisă. Utilitatea viziunii computerizate în domeniul patologiei, în mod specific, a fost stabilită în continuare prin avansarea patologiei digitale. Prin delegarea sarcinilor specifice către software-ul de viziune pe computer, patologul își poate concentra atenția asupra proceselor de nivel superior, inclusiv sintetizarea informațiilor în scopuri de interpretare clinică și luare a deciziilor.

Descrierea problemei

Francezii Society of Pathology ( SFP ) a găzduit un concurs pe DrivenData ,

Această provocare se concentrează pe leziunile epiteliale ale colului uterin și prezintă o colecție unică de mii de experți etichetați WSI colectate din centre medicale din Franța. Leziunile din aceste diapozitive sunt cel mai adesea benigne (class 0), dar unele altele au potențial malign scăzut (class 1) sau potențial malign ridicat (class 2), iar altele pot fi deja tipuri de cancer invazive (class 3).

pentru a dezvolta un clasificator de imagine personalizat pe diapozitive de microscop de biopsii de țesut cervical uterin colectate de la populația franceză. SFP și Health Data Hub din Franța au furnizat un set de antrenament de 928 GB de imagini de diapozitive întregi etichetate, fiecare diapozitiv fiind clasificat de anatomopatologi în funcție de severitatea leziunii:

  • 0 Normal sau subnormal
  • 1 Leziune intraepitelială scuamoasă de grad scăzut
  • 2 Leziune intraepitelială scuamoasă de înaltă calitate
  • 3 Carcinom scuamos invaziv

Au fost furnizate imagini de diapozitive întregi ( WSIs: un WSI este o reprezentare digitală a unui diapozitiv de microscop la niveluri ridicate de mărire) într-o varietate de formate, deși am fost interesați de formatul piramidal TIF. TIF-urile piramidale sunt un format multi-rezoluție cu fiecare rezoluție stocată ca un strat separat în fișierul TIF. Aceste imagini sunt ușor comprimate pentru a le face mai puțin hardware, dar păstrează un nivel de detaliu adecvat pe care patologii îl pot utiliza pentru diagnostic.

Schema TIF piramidal. Cmglee , CC BY-SA 3.0 , prin Wikimedia Commons

Datele de adnotare au fost furnizate și pentru imaginile de antrenament. Aici, patologii au etichetat regiunile de 300×300 microni ca leziunate sau țesut normal . Regiunile adnotate nu cuprindeau neapărat toate țesuturile leziunile / normale de pe diapozitiv, însă leziunile s-ar putea extinde dincolo de limitele regiunilor adnotate. nivelul adnotării. De exemplu, o imagine etichetată ca clasa 3 ar putea avea adnotări corespunzătoare tuturor claselor 0, 1, 2 și 3, dar cel puțin o regiune ar conține o leziune de clasa 3.

Metodologie

Whole Slide Imaginile din acest set de date pot avea dimensiuni masive la cea mai mare rezoluție (100.000 x 100.000 pixeli sau mai mare). Multe dintre diapozitive conțin, de asemenea, cantități semnificative de fundal fără țesut, diverse artefacte și regiuni neclare.

WSI cu rezoluție redusă cu candidați de țesut filtrat

Pentru a analiza WSI, împărțim imaginea în mulți candidați de țesut de 300×300 microni. Pentru a face acest lucru, am folosit un filtru personalizat pentru mască de țesut, care extrage regiuni care nu se suprapun din WSI. Rulăm acest filtru la o rezoluție scăzută, ceea ce permite o segmentare a țesuturilor extrem de rapidă, dar schimbă o anumită precizie pentru această viteză.

Odată ce avem un set de țesuturi candidate, predicem o etichetă pentru fiecare și compilați-i într-un set de candidați pentru WSI. Problema este acum o instanță de Învățare cu instanțe multiple , în care trebuie să prezicem o singură etichetă dintr-o pungă de candidați etichetați.Datorită constrângerilor de timp, ne-am bazat pe o metodă de predicție foarte simplă de utilizare a unui prag cuantil. Pentru a face acest lucru, construim o distribuție a etichetelor candidate și alegem valoarea care apare la percentila 70. Această valoare a funcționat bine în practică, în ciuda existenței unor metode mai riguroase.

Pentru modelul nostru de clasificare a candidatului, am folosit o arhitectură CNN standard cu stil ResNet. Modelul a fost instruit pe imaginile de 300×300 microni etichetate de patologi.

Diagramă de procesare pentru WSIs

Pentru instruirea CNN, am folosit un singur desktop Titan RTX, un Ryzen 2700x și 64 GB de memorie RAM.

Rezultate

Performanța a fost evaluată în conformitate cu o metrică concepută de un grup de patologi. Fiecare clasificare a fost marcată cu 1 minus eroarea și scorul total a fost media pentru toate predicțiile.

Datorită naturii problemei, este esențial să obțineți predicția corectă; cu toate acestea, nu toate clasificările greșite sunt echivalente. Este mult mai rău să clasificăm un diapozitiv ca fiind normal atunci când există un carcinom invaziv prezent are un potențial de dezavantaj mult mai mare decât scenariul opus.

Într-o singură săptămână de lucru, am reușit să punem împreună un care a obținut un scor de 0.8933. Aceasta reprezintă o eroare medie de ~ 0,1, care corespunde unei predicții medii care se află la 1 etichetă față de adevăr.

Vă mulțumim pentru DrivenData, Societatea franceză de patologie și Centrul de date pentru sănătate pentru organizarea acestei concurență. O mulțumire specială tuturor patologilor individuali care au etichetat și adnotat datele. Crearea unor seturi de date precum cea utilizată aici reprezintă o resursă valoroasă care surprinde expertiza colectivă a patologului și permite progresul în vederea computerizată medicală.