組織病変分類の調査

顕微鏡は、病理医の目が細胞レベルで組織を観察するためのツールです。ディープラーニングとコンピュータービジョンの分野が成熟するにつれ、病理学者はスキルセットを補完し、画像分類を支援するツールを手に入れました。病理医の一般的なタスクは、癌を診断するための顕微鏡レベルでの生検からの組織の検査です。組織スライドの検査は骨の折れる正確な作業であり、習得するには何年もの専門的なトレーニングが必要です。コンピュータビジョンは、より迅速で正確な診断を容易にすることができる明白なツールです。具体的には、病理学の分野におけるコンピュータビジョンの有用性は、デジタル病理学の進歩によってさらに確立されました。特定のタスクをコンピュータービジョンソフトウェアに委任することにより、病理医は、臨床的解釈や意思決定のための情報の合成など、より高いレベルのプロセスに注意を向けることができます。

問題の説明

フランス人Society of Pathology( SFP )は、 DrivenData

この課題は、子宮頸部の上皮病変に焦点を当てており、専門家がラベルを付けた何千ものユニークなコレクションを特徴としています。フランス全土の医療センターから収集されたWSI。このようなスライドの病変は、ほとんどの場合良性(class 0)ですが、悪性の可能性が低い(class 1)または悪性の可能性が高い病変もあります。 (class 2)、およびその他はすでに浸潤癌である可能性があります(class 3)。

開発するフランスの人口から収集された子宮頸部組織生検の顕微鏡スライド上の特注の画像分類器。 SFPとフランスの Health Data Hub は、病変の重症度に応じて解剖病理学者が各スライドを分類した、ラベル付きのスライド全体の画像の928GBトレーニングセットを提供しました。

  • 0正常または正常以下
  • 1低悪性度の扁平上皮内病変
  • 2高悪性度の扁平上皮内病変
  • 3浸潤性扁平上皮癌

スライド全体の画像( WSI: WSIは、高レベルの倍率での顕微鏡スライドのデジタル表現です)が提供されましたピラミッド型のTIF形式に興味がありましたが、さまざまな形式でした。ピラミッド型TIFは多重解像度形式であり、各解像度はTIFファイルに個別のレイヤーとして保存されます。これらの画像は、ハードウェアの負荷を軽減するためにわずかに圧縮されていますが、病理学者が診断に使用するのに十分な詳細レベルを保持しています。

ピラミッド型TIFの概略図。 Cmglee CC BY-SA 3.0 、ウィキメディアコモンズ経由

トレーニング画像の注釈データも提供されました。ここで、病理学者は300×300ミクロンの領域を病変または正常組織としてラベル付けしました。注釈付き領域は、必ずしもスライド上のすべての病変/正常組織を網羅しているわけではなく、病変は注釈付き領域の境界を超えて広がる可能性があります。

最終的に、私たちの目標はスライドレベルで分類することでした。注釈レベル。たとえば、クラス3のラベルが付いた画像には、クラス0、1、2、3のすべてに対応する注釈を付けることができますが、少なくとも1つの領域にクラス3の病変が含まれます。

方法論

このデータセットのスライド画像全体は、最高の解像度(100,000 x 100,000ピクセル以上)でサイズが大きくなる可能性があります。スライドの多くには、組織のない背景、さまざまなアーティファクト、ぼやけた領域が大量に含まれています。

フィルター処理された組織候補を使用した低解像度WSI

WSIを分析するために、画像を300×300ミクロンの組織候補に分割します。これを行うために、WSIの重複しない領域を抽出するカスタムティッシュマスクフィルターを使用しました。このフィルターを低解像度で実行すると、組織のセグメンテーションが非常に高速になりますが、この速度とある程度の精度が犠牲になります。

組織候補のセットができたら、それぞれのラベルを予測し、それらをWSIの候補のセットにコンパイルします。問題は、複数インスタンス学習のインスタンスであり、ラベル付けされた候補のバッグから単一のラベルを予測する必要があります。時間の制約があるため、分位数のしきい値を使用する非常に単純な予測方法に落ち着きました。これを行うには、候補ラベルの分布を作成し、70パーセンタイルで発生する値を選択します。より厳密な方法があるにもかかわらず、この値は実際にはうまく機能しました。

候補分類モデルには、標準のResNetスタイルのCNNアーキテクチャを使用しました。モデルは、病理学者によってラベル付けされた300×300ミクロンの画像でトレーニングされました。

WSIを処理するためのフローチャート

CNNのトレーニングには、単一のデスクトップTitan RTX、Ryzen 2700x、64GBのRAMを使用しました。

結果

h2>

パフォーマンスは、病理学者のパネルによって考案されたメトリックに従って評価されました。各分類は1からエラーを引いたものとしてスコア付けされ、合計スコアはすべての予測の平均でした。

問題の性質上、予測を正しく行うことが重要です。ただし、すべての誤分類が同等であるとは限りません。浸潤癌が存在する場合、スライドを正常として分類することは、反対のシナリオよりもはるかに大きなマイナス面の可能性があるため、はるかに悪いです。

1週間の作業で、 0.8933のスコアを達成したシステム。これは、約0.1の平均誤差を表します。これは、真実から1ラベル以内の平均予測に対応します。

これを整理してくれたDrivenData、French Pathology Society、Health DataHubに感謝します。コンペ。データにラベルを付けて注釈を付けてくれたすべての個々の病理学者に特に感謝します。ここで使用されているようなデータセットの作成は、病理医の集合的な専門知識を収集し、医療用コンピュータビジョンの進歩を可能にする貴重なリソースです。