Exploring Tissue Lesion Classification

Il microscopio è stato uno strumento per locchio del patologo per visualizzare i tessuti a livello cellulare. Con la maturazione dei campi dellapprendimento profondo e della visione artificiale, i patologi hanno ora uno strumento per integrare il loro set di abilità e assisterli nella classificazione delle immagini. Un compito comune per un patologo è lesame del tessuto da una biopsia a livello microscopico per diagnosticare i tumori. Lispezione dei vetrini di tessuto è un lavoro minuzioso e preciso che richiede anni di formazione specializzata per essere padrone. La visione artificiale è uno strumento ovvio che può facilitare diagnosi più rapide e accurate. Lutilità della visione artificiale nel campo della patologia, in particolare, è stata ulteriormente stabilita dal progresso della patologia digitale. Delegando compiti specifici al software di visione artificiale, il patologo è in grado di concentrare la propria attenzione su processi di livello superiore, compresa la sintesi di informazioni per linterpretazione clinica e per scopi decisionali.

Descrizione del problema

Il francese Society of Pathology ( SFP ) ha ospitato una competizione su DrivenData ,

Questa sfida si concentra sulle lesioni epiteliali della cervice uterina e presenta una raccolta unica di migliaia di esperti etichettati WSI raccolti da centri medici in tutta la Francia. Le lesioni in vetrini come questi sono molto spesso benigne (class 0), ma alcune altre hanno un basso potenziale maligno (class 1) o un alto potenziale maligno (class 2) e altri potrebbero già essere tumori invasivi (class 3).

per sviluppare un classificatore di immagini su misura su vetrini da microscopio di biopsie di tessuto cervicale uterino raccolte dalla popolazione francese. LSFP e il Health Data Hub della Francia hanno fornito un set di formazione da 928 GB di immagini di diapositive complete etichettate con ciascuna diapositiva classificata dai patologi anatomici in base alla gravità della lesione:

  • 0 Normale o subnormale
  • 1 Lesione intraepiteliale squamosa di basso grado
  • 2 Lesione intraepiteliale squamosa di alto grado
  • 3 Carcinoma squamoso invasivo

Sono state fornite immagini dellintero vetrino ( WSI: un WSI è una rappresentazione digitale di un vetrino da microscopio ad alti livelli di ingrandimento) in una varietà di formati, sebbene fossimo interessati al formato TIF piramidale. I TIF piramidali sono un formato multi-risoluzione con ciascuna risoluzione memorizzata come livello separato nel file TIF. Queste immagini sono leggermente compresse per renderle meno dispendiose in termini di hardware, ma mantengono un livello di dettaglio adeguato per i patologi da utilizzare per le diagnosi.

Schema di TIF piramidale. Cmglee , CC BY-SA 3.0 , tramite Wikimedia Commons

Sono stati forniti anche dati di annotazione per le immagini di addestramento. Qui, i patologi avevano etichettato regioni di 300 x 300 micron come tessuto lesionato o tessuto normale . Le regioni annotate non comprendevano necessariamente tutto il tessuto lesionato / normale sul vetrino, tuttavia, e le lesioni potevano estendersi oltre i confini delle regioni annotate.

In definitiva, il nostro obiettivo era classificare a livello del vetrino, non il livello di annotazione. Ad esempio, unimmagine etichettata come classe 3 potrebbe avere annotazioni corrispondenti a tutte le classi 0, 1, 2 e 3 ma almeno una regione conterrebbe una lesione di classe 3.

Metodologia

Lintera diapositiva Le immagini in questo set di dati possono avere dimensioni enormi alla massima risoluzione (100.000 x 100.000 pixel o superiore). La maggior parte delle diapositive contiene anche quantità significative di sfondo senza tessuto, vari artefatti e regioni sfocate.

WSI a bassa risoluzione con tessuti candidati filtrati

Per analizzare il WSI, dividiamo limmagine in molti tessuti candidati 300×300 micron. Per fare ciò, abbiamo utilizzato un filtro maschera tessuto personalizzato, che estrae regioni non sovrapposte della WSI. Utilizziamo questo filtro a una risoluzione bassa, che consente una segmentazione dei tessuti estremamente rapida, ma scambia una certa precisione per questa velocità.

Una volta che abbiamo una serie di tessuti candidati, prevediamo unetichetta per ciascuno e compilarli in una serie di candidati per il WSI. Il problema ora è unistanza di Multiple Instance Learning , in cui dobbiamo prevedere una singola etichetta da un gruppo di candidati etichettati.A causa dei vincoli di tempo, abbiamo optato per un metodo di previsione molto semplice per lutilizzo di una soglia quantile. Per fare ciò, creiamo una distribuzione delle etichette candidate e scegliamo il valore che si verifica al 70 ° percentile. Questo valore ha funzionato bene nella pratica, nonostante esistessero metodi più rigorosi.

Per il nostro modello di classificazione dei candidati, abbiamo utilizzato unarchitettura CNN in stile ResNet. Il modello è stato addestrato sulle immagini 300 x 300 micron etichettate dai patologi.

Diagramma di flusso per lelaborazione di WSI

Per addestrare la nostra CNN, abbiamo utilizzato un Titan RTX desktop singolo, un Ryzen 2700x e 64 GB di RAM.

Risultati

Le prestazioni sono state valutate secondo una metrica ideata da un gruppo di patologi. Ogni classificazione è stata valutata come 1 meno lerrore e il punteggio totale è stato la media di tutte le previsioni.

A causa della natura del problema, è fondamentale ottenere la previsione corretta; tuttavia, non tutte le classificazioni errate sono equivalenti. È molto peggio classificare una diapositiva come normale quando è presente un carcinoma invasivo che ha il potenziale per uno svantaggio molto maggiore rispetto allo scenario opposto.

In una sola settimana di lavoro, siamo stati in grado di mettere insieme un sistema che ha ottenuto un punteggio di 0,8933. Ciò rappresenta un errore medio di ~ 0,1, che corrisponde a una previsione media che si trova entro 1 etichetta dalla verità.

Grazie a DrivenData, la French Pathology Society e lHealth Data Hub per aver organizzato questo concorrenza. Un ringraziamento speciale a tutti i singoli patologi che hanno etichettato e annotato i dati. La creazione di set di dati come quello qui utilizzato è una risorsa preziosa che cattura lesperienza collettiva del patologo e consente di compiere progressi nella visione artificiale medica.