Exploration de la classification des lésions tissulaires

Le microscope a été un outil permettant à lœil du pathologiste de visualiser les tissus au niveau cellulaire. Avec la maturation des domaines de lapprentissage profond et de la vision par ordinateur, les pathologistes disposent désormais dun outil pour compléter leurs compétences et les accompagner dans la classification dimages. Une tâche courante pour un pathologiste est lexamen des tissus dune biopsie au niveau microscopique pour diagnostiquer les cancers. Linspection des lames de tissu est un travail minutieux et précis qui nécessite des années de formation spécialisée. La vision par ordinateur est un outil évident qui peut faciliter des diagnostics plus rapides et plus précis. Lutilité de la vision par ordinateur dans le domaine de la pathologie, en particulier, a été davantage établie par lavancement de la pathologie numérique. En déléguant des tâches spécifiques à un logiciel de vision par ordinateur, le pathologiste est en mesure de concentrer son attention sur des processus de niveau supérieur, y compris la synthèse dinformations à des fins dinterprétation clinique et de prise de décision.

Description du problème

Le français Society of Pathology ( SFP ) a organisé un concours sur DrivenData ,

Ce défi se concentre sur les lésions épithéliales du col utérin et présente une collection unique de milliers de WSI collectés auprès des centres médicaux à travers la France. Les lésions des lames comme celles-ci sont le plus souvent bénignes (class 0), mais d’autres ont un faible potentiel malin (class 1) ou un potentiel malin élevé (class 2), et dautres peuvent déjà être des cancers invasifs (class 3).

à développer un classificateur dimages sur mesure sur des lames de microscope de biopsies de tissu cervical utérin collectées auprès de la population française. La SFP et le Health Data Hub français ont fourni un ensemble de formation de 928 Go dimages de diapositives entières étiquetées, chaque diapositive étant classée par les anatomopathologistes en fonction de la gravité des lésions:

  • 0 Normal ou subnormal
  • 1 Lésion épidermoïde intraépithéliale de bas grade
  • 2 Lésion épidermoïde intraépithéliale de haut grade
  • 3 Carcinome épidermoïde invasif

Des images de diapositives entières ( WSI: un WSI est une représentation numérique dune lame de microscope à des niveaux de grossissement élevés) ont été fournies dans une variété de formats, bien que nous nous intéressions au format pyramidal TIF. Les TIF pyramidaux sont un format multi-résolution avec chaque résolution stockée en tant que couche distincte dans le fichier TIF. Ces images sont légèrement compressées pour les rendre moins gourmandes en matériel, mais conservent un niveau de détail adéquat que les pathologistes peuvent utiliser pour les diagnostics.

Schéma du TIF pyramidal. Cmglee , CC BY-SA 3.0 , via Wikimedia Commons

Des données dannotation ont également été fournies pour les images dentraînement. Ici, les pathologistes avaient étiqueté des régions de 300×300 microns comme lésées ou tissu normal . Cependant, les régions annotées nincluaient pas nécessairement tous les tissus lésés / normaux de la lame, et les lésions pouvaient sétendre au-delà des limites des régions annotées.

En fin de compte, notre objectif était de classer au niveau de la lame, non le niveau dannotation. Par exemple, une image étiquetée en classe 3 pourrait avoir des annotations correspondant à toutes les classes 0, 1, 2 et 3 mais au moins une région contiendrait une lésion de classe 3.

Méthodologie

Les images de diapositives entières de cet ensemble de données peuvent être de taille massive à la résolution la plus élevée (100 000 x 100 000 pixels ou plus). La plupart des diapositives contiennent également des quantités importantes darrière-plan sans tissu, divers artefacts et des régions floues.

WSI basse résolution avec des tissus candidats filtrés

Afin danalyser le WSI, nous divisons limage en plusieurs tissus candidats 300×300 microns. Pour ce faire, nous avons utilisé un filtre de masque de tissu personnalisé, qui extrait les régions non chevauchantes du WSI. Nous exécutons ce filtre à une faible résolution, ce qui permet une segmentation des tissus extrêmement rapide, mais échange une certaine précision contre cette vitesse.

Une fois que nous avons un ensemble de tissus candidats, nous prédisons une étiquette pour chacun deux, et compilez-les dans un ensemble de candidats pour le WSI. Le problème est maintenant une instance de Apprentissage dinstances multiples , où nous devons prédire une seule étiquette à partir dun sac de candidats étiquetés.En raison de contraintes de temps, nous avons opté pour une méthode de prédiction très simple utilisant un seuil quantile. Pour ce faire, nous construisons une distribution des étiquettes candidates et choisissons la valeur qui se produit au 70e centile. Cette valeur a bien fonctionné en pratique, malgré lexistence de méthodes plus rigoureuses.

Pour notre modèle de classification des candidats, nous avons utilisé une architecture CNN de style ResNet standard. Le modèle a été formé sur les images 300×300 microns étiquetées par les pathologistes.

Organigramme de traitement des WSI

Pour former notre CNN, nous avons utilisé un seul ordinateur de bureau Titan RTX, un Ryzen 2700x et 64 Go de RAM.

Résultats

Les performances ont été évaluées selon une métrique élaborée par un panel de pathologistes. Chaque classification était notée 1 moins lerreur et le score total était la moyenne de toutes les prédictions.

En raison de la nature du problème, il est essentiel que la prédiction soit correcte; cependant, toutes les erreurs de classification ne sont pas équivalentes. Il est bien pire de classer une diapositive comme normale quand il y a un carcinome invasif présent a un potentiel pour un inconvénient beaucoup plus grand que le scénario inverse.

En une seule semaine de travail, nous avons pu mettre sur pied un système qui a obtenu un score de 0,8933. Cela représente une erreur moyenne de ~ 0,1, ce qui correspond à une prédiction moyenne à moins dun label de la vérité.

Merci à DrivenData, à la Société française de pathologie et au Health Data Hub pour lorganisation de ce compétition. Un merci spécial à tous les pathologistes qui ont étiqueté et annoté les données. La création densembles de données comme celui utilisé ici est une ressource précieuse qui capte lexpertise collective des pathologistes et permet de faire des progrès dans la vision médicale par ordinateur.