Exploração da classificação da lesão tecidual

O microscópio tem sido uma ferramenta para o olho do patologista visualizar os tecidos em nível celular. Com o amadurecimento dos campos de aprendizado profundo e visão computacional, os patologistas agora têm uma ferramenta para complementar seu conjunto de habilidades e auxiliá-los na classificação de imagens. Uma tarefa comum para um patologista é o exame de tecido de uma biópsia em nível microscópico para diagnosticar câncer. A inspeção de lâminas de tecido é um trabalho meticuloso e preciso que requer anos de treinamento especializado para ser dominado. A visão computacional é uma ferramenta óbvia que pode facilitar diagnósticos mais rápidos e precisos. A utilidade da visão computacional no campo da patologia, especificamente, foi ainda mais estabelecida pelo avanço da patologia digital. Ao delegar tarefas específicas a um software de visão computacional, o patologista é capaz de concentrar sua atenção em processos de nível superior, incluindo a síntese de informações para fins de interpretação clínica e tomada de decisão.

Descrição do problema

Os franceses A Sociedade de Patologia ( SFP ) sediou uma competição em DrivenData ,

Este desafio se concentra em lesões epiteliais do colo uterino e apresentou uma coleção exclusiva de milhares de exemplares marcados por especialistas WSIs coletados de centros médicos em toda a França. As lesões em lâminas como essas são mais frequentemente benignas (class 0), mas algumas outras têm baixo potencial maligno (class 1) ou alto potencial maligno (class 2), e outros já podem ser cânceres invasivos (class 3).

para desenvolver um classificador de imagens sob medida em lâminas de microscópio de biópsias de tecido cervical uterino coletadas da população francesa. O SFP e o Health Data Hub da França forneceram um conjunto de treinamento de 928 GB de imagens de slides inteiros rotulados com cada slide classificado por patologistas anatômicos de acordo com a gravidade da lesão:

  • 0 Normal ou subnormal
  • 1 Lesão intraepitelial escamosa de baixo grau
  • 2 Lesão intraepitelial escamosa de alto grau
  • 3 Carcinoma escamoso invasivo

Imagens inteiras de slides ( WSIs: um WSI é uma representação digital de uma lâmina de microscópio em altos níveis de ampliação) foram fornecidos em uma variedade de formatos, embora estivéssemos interessados ​​no formato TIF piramidal. TIFs piramidais são um formato de resolução múltipla com cada resolução armazenada como uma camada separada no arquivo TIF. Essas imagens são ligeiramente compactadas para torná-las menos intensivas em hardware, mas mantêm um nível de detalhe adequado para patologistas usarem para diagnósticos.

Esquema do TIF piramidal. Cmglee , CC BY-SA 3.0 , via Wikimedia Commons

Dados de anotação também foram fornecidos para as imagens de treinamento. Aqui, os patologistas rotularam as regiões de 300 x 300 mícrons como lesionadas ou tecido normal . As regiões anotadas não abrangem necessariamente todo o tecido lesionado / normal na lâmina, no entanto, e as lesões podem se estender além dos limites das regiões anotadas.

Em última análise, nosso objetivo era classificar no nível da lâmina, não o nível de anotação. Por exemplo, uma imagem rotulada como classe 3 poderia ter anotações correspondentes a todas as classes 0, 1, 2 e 3, mas pelo menos uma região conteria uma lesão de classe 3.

Metodologia

As imagens de slides inteiros neste conjunto de dados podem ter tamanho enorme na resolução mais alta (100.000 x 100.000 pixels ou superior). Muitos dos slides também contêm quantidades significativas de fundo sem tecido, vários artefatos e regiões desfocadas.

WSI de baixa resolução com candidatos de tecido filtrado

Para analisar o WSI, dividimos a imagem em muitos candidatos de tecido de 300×300 mícrons. Para fazer isso, usamos um filtro de máscara de tecido personalizado, que extrai regiões não sobrepostas do WSI. Executamos esse filtro em baixa resolução, o que permite uma segmentação de tecido extremamente rápida, mas troca alguma precisão por essa velocidade.

Assim que tivermos um conjunto de candidatos de tecido, prevemos um rótulo para cada um, e compile-os em um conjunto de candidatos para o WSI. O problema agora é uma instância de Multiple Instance Learning , onde precisamos prever um único rótulo de um pacote de candidatos rotulados.Devido a restrições de tempo, decidimos por um método de previsão muito simples de usar um limite de quantil. Para fazer isso, criamos uma distribuição dos rótulos candidatos e escolhemos o valor que ocorre no 70º percentil. Esse valor funcionou bem na prática, apesar de haver métodos mais rigorosos.

Para nosso modelo de classificação de candidato, usamos uma arquitetura CNN no estilo ResNet padrão. O modelo foi treinado nas imagens de 300 x 300 mícrons rotuladas pelos patologistas.

Fluxograma para processamento de WSIs

Para treinar nossa CNN, usamos um único desktop Titan RTX, um Ryzen 2700x e 64 GB de RAM.

Resultados

O desempenho foi avaliado de acordo com uma métrica desenvolvida por um painel de patologistas. Cada classificação foi pontuada como 1 menos o erro e a pontuação total foi a média em todas as previsões.

Devido à natureza do problema, é fundamental obter a previsão correta; no entanto, nem todas as classificações erradas são equivalentes. É muito pior classificar um slide como normal quando há um carcinoma invasivo presente e tem potencial para uma desvantagem muito maior do que o cenário oposto.

Em uma única semana de trabalho, conseguimos montar um sistema que atingiu uma pontuação de 0,8933. Isso representa um erro médio de ~ 0,1, que corresponde a uma previsão média que está dentro de 1 rótulo da verdade.

Obrigado a DrivenData, a Sociedade Francesa de Patologia e o Health Data Hub por organizar isso concorrência. Um agradecimento especial a todos os patologistas que rotularam e anotaram os dados. A criação de conjuntos de dados como o usado aqui é um recurso valioso que captura a experiência coletiva do patologista e permite que o progresso seja feito na visão computacional médica.