Transformer一腳踹進醫學影像分割!看5篇MICCAI 2021有感

  • 2021 年 7 月 21 日
  • AI

影像處理、機器學習、深度學習、C/C++Python、詩和遠方等。” data-from=”0″>

作者:Amusi  |  來源:CVer

前言

留給Transformer + U-Net 組合命名的縮寫不多了…

本來是打算繼續肝CVPR 2021的垂直方向大盤點工作,之前已經推送了Transformer、目標檢測、語義分割和OCR的盤點。但這幾天看到越來越多的視覺Transformer工作,特別是Transformer在醫學影像上的應用。


實際上這波熱潮,從年初就開始了,比如非常具有代表性的:TransUNet(但似乎還沒被收錄)。詳見:

//zhuanlan.zhihu.com/p/350271375


但那時很多Transformer+醫學影像分割的工作並沒有”高峰會的加持”,Amusi 就沒有系統整理分享。當MICCAI 2021放榜後,發現Transformer真就一腳踹進了醫學影像。

本文盤點了目前已公開的5篇MICCAI 2021上的Transformer+醫學影像分割的工作,儘可能聚集於reviewer認可的工作,看相對好的優質工作,避免大家踩坑。

一、MedT:用於醫學影像分割的Transformer

Medical Transformer: Gated Axial-Attention for Medical Image Segmentation

程式碼(已開源):

//github.com/jeya-maria-jose/Medical-Transformer

論文://arxiv.org/abs/2102.10662

表現SOTA!並提出局部-全局訓練策略(LoGo),進一步提高性能,優於Res-UNet、U-Net++等網路,程式碼剛剛開源!作者單位:JHU, 新澤西州立大學

在過去的十年中,深度卷積神經網路已被廣泛用於醫學影像分割,並顯示出足夠的性能。但是,由於卷積架構中存在固有的inductive biases,因此他們對影像中的遠程依存關係缺乏了解。最近提出的利用自注意力機制的基於Transformer的體系結構對遠程依賴項進行編碼,並學習高度表達的表示形式。



這促使我們探索基於Transformer的解決方案,並研究將基於Transformer的網路體系結構用於醫學影像分割任務的可行性。提出用於視覺應用的大多數現有的基於Transformer的網路體系結構都需要大規模的數據集才能正確地進行訓練。但是,與用於視覺應用的數據集相比,對於醫學成像而言,數據樣本的數量相對較少,從而難以有效地訓練用於醫學應用的Transformer。


為此,我們提出了Gated Axial-Attention模型,通過在自注意力模組中引入附加的控制機制來擴展現有體系結構。


此外,為了有效地在醫學影像上訓練模型,我們提出了局部-全局訓練策略(LoGo),可以進一步提高性能。


具體來說,我們對整個影像和patch進行操作以分別學習全局和局部特徵。在三個不同的醫學影像分割數據集上對提出的Medical Transformer(MedT)進行了評估,結果表明,與基於卷積和其他基於transformer的其他架構相比,它具有更好的性能。

二、MCTrans:生物醫學影像分割的多複合Transformer

Multi-Compound Transformer for Accurate Biomedical Image Segmentation


作者單位:香港大學, 港中文, 商湯科技

程式碼://github.com/JiYuanFeng/MCTrans

論文://arxiv.org/abs/2106.14385

MCTrans 可以很容易地插入到類似 UNet 的網路中,表現SOTA!性能優於CENet、AttentionUNet等網路,程式碼即將開源!

最近的視覺Transformer(即用於影像分類)學習不同patch tokens的non-local注意力交互。然而,現有技術錯過了學習不同像素的跨尺度依賴關係、不同標籤的語義對應關係以及特徵表示和語義嵌入的一致性,這些對於生物醫學分割至關重要。


在本文中,我們通過提出一個統一的Transformer網路來解決上述問題,稱為多複合Transformer(MCTrans),它將豐富的特徵學習和語義結構挖掘整合到一個統一的框架中。


具體來說,MCTrans 將多尺度卷積特徵嵌入為一個標記序列,並執行尺度內和尺度間的自注意力,而不是之前工作中的單尺度注意力。此外,還引入了可學習的代理嵌入,分別通過使用自注意力和交叉注意力來建模語義關係和特徵增強。


MCTrans 可以很容易地插入到類似 UNet 的網路中,並且在六個標準基準測試中比最先進的生物醫學影像分割方法有了顯著的改進。例如,MCTrans 在 Pannuke、CVC-Clinic、CVC-Colon、Etis、Kavirs、ISIC2018 數據集上分別優於 UNet 3.64%、3.71%、4.34%、2.8%、1.88%、1.57%。


三、UTNet:用於醫學影像分割的混合Transformer架構

UTNet: A Hybrid Transformer Architecture for Medical Image Segmentation


論文://arxiv.org/abs/2107.00781

表現SOTA!性能優於ResUNet等網路,作者單位:羅格斯大學等

Transformer 架構已經在許多自然語言處理任務中取得成功。然而,它在醫學視覺中的應用在很大程度上仍未得到探索。


在這項研究中,我們提出了 UTNet,這是一種簡單而強大的混合 Transformer 架構,它將自注意力集成到卷積神經網路中,以增強醫學影像分割。


UTNet 在編碼器和解碼器中應用自注意力模組,以最小的開銷捕獲不同規模的遠程依賴。為此,我們提出了一種有效的自注意力機制以及相對位置編碼,將自注意力操作的複雜性從 O(n2) 顯著降低到近似 O(n)。還提出了一種新的自注意力解碼器,以從編碼器中跳過的連接中恢復細粒度的細節。


我們的方法解決了 Transformer 需要大量數據來學習視覺歸納偏差的困境。我們的混合層設計允許在不需要預訓練的情況下將 Transformer 初始化為卷積網路。我們已經在多標籤、multi-vendor  心臟磁共振成像隊列上評估了 UTNet。UTNet 展示了對最先進方法的卓越分割性能和魯棒性,有望在其他醫學影像分割上很好地泛化。


四、PNS-Net:用於影片息肉分割的漸進歸一化自注意力網路

Progressively Normalized Self-Attention Network for Video Polyp Segmentation


論文://arxiv.org/abs/2105.08468

程式碼://github.com/GewelsJI/PNS-Net

表現SOTA!性能優於PraNet、ResUNet等網路,作者單位:IIAI, 武漢大學, SimulaMet

現有的影片息肉分割 (VPS) 模型通常採用卷積神經網路 (CNN) 來提取特徵。然而,由於其有限的感受野,CNNs 不能充分利用連續影片幀中的全局時間和空間資訊,導致假陽性分割結果。


在本文中,我們提出了新穎的 PNS-Net(漸進歸一化自注意力網路),它可以在單個 RTX 2080 GPU 上以實時速度(~140fps)有效地從息肉影片中學習表示,無需後處理。


我們的 PNS-Net 完全基於基本的歸一化自注意力塊,完全配備了遞歸和 CNN。在具有挑戰性的 VPS 數據集上進行的實驗表明,所提出的 PNS-Net 實現了最先進的性能。我們還進行了大量實驗來研究通道拆分、軟注意力和漸進式學習策略的有效性。我們發現我們的 PNS-Net 在不同的設置下運行良好,使其成為 VPS 任務的一個有前途的解決方案。


五、MBT-Net:角膜內皮細胞分割的多分支混合Transformer網路

A Multi-Branch Hybrid Transformer Network for Corneal Endothelial Cell Segmentation

作者單位:南方科技大學, 中科院, 悉尼科技大學, IIAI等

論文://arxiv.org/abs/2106.07557

表現SOTA!性能優於TransUNet、UNet++等網路,已收錄於MICCAI 2021!

角膜內皮細胞(Corneal endothelial cell )分割在量化細胞密度、變異係數和六邊形等臨床指標方面起著至關重要的作用。然而,角膜內皮的不均勻反射和被攝體的震顫和運動導致影像中的細胞邊緣模糊,難以分割,需要更多的細節和上下文資訊來解決這個問題。由於局部卷積和連續下取樣的感受野有限,現有的深度學習分割方法不能充分利用全局上下文,遺漏了很多細節。



本文提出了一種基於Transformer和body-edgebranch的Multi-Branch混合Transformer網路(MBT-Net)。


首先,我們使用卷積塊專註於局部紋理特徵提取,並通過Transformer和殘差連接建立對空間、通道和層的遠程依賴關係。此外,我們使用 body-edge 分支來促進局部一致性並提供邊緣位置資訊。


在自收集數據集 TM-EM3000 和公共 Alisarine 數據集上,與其他 State-Of-The-Art (SOTA) 方法相比,所提出的方法實現了改進。