美國高校開源迄今為止最大新冠肺炎CT數據集

2020 年 4 月 7 日
筆記

新智元報道

編輯：元子、白峰

【新智元導讀】胸部電腦斷層掃描（CT）影像在對新冠肺炎（COVID-19）提供準確、快速、廉價的篩查和檢測方面很有前景。在本文中，研究團隊構建了一個開源的COVID-CT數據集，其中包含275個COVID-19檢測呈陽性的CT影像，有助於使用深度學習方法分析病人的CT影像並預測其是否患有新冠的相關研究和發展。「新智元急聘主筆、高級主任編輯，添加HR微信（Dr-wly）或掃描文末二維碼了解詳情。」

胸部電腦斷層掃描（CT）影像在對新冠肺炎（COVID-19）提供準確、快速、廉價的篩查和檢測方面很有前景。

在本文中，研究者構建了一個開源的COVID-CT數據集，其中包含275個COVID-19檢測呈陽性的CT影像，有助於使用深度學習方法分析病人的CT影像並預測其是否患有新冠的相關研究和發展。

研究者在該數據集上訓練了一個深度卷積神經網路，F1值達到0.85，這個結果達到了研究團隊的期待，但仍需進一步改進。

相關數據和程式碼： https://github.com/UCSD-AI4H/COVID-CT

核酸檢測的最大問題：速度慢且稀缺，追不上新冠肺炎的傳播速度

截至2020年3月30日，在全世界範圍內已有775306人感染新冠肺炎，37083人死亡。對此疾病檢測的低效和缺乏成為控制其傳播的主要障礙。

目前的檢測主要基於逆轉錄聚合酶鏈反應（RT-PCR），需要4到6個小時才能獲得結果。與新冠肺炎可怕的傳播速度相比，這遠不夠快。除了效率低下之外，RT-PCR檢測試劑盒也非常短缺。

這促使研究團隊去研究替代的檢測方式。這些方式可能更快，比RT-PCR便宜，更容易獲得，但與RT-PCR一樣準確。在眾多可能性中，研究團隊對CT影像尤其感興趣。

有幾篇著作研究了CT影像在篩選和檢測新冠肺炎時的效果，結果鼓舞人心。然而，出於對隱私的保護，這些研究中所使用的CT影像並不會公之於眾，這極大地阻礙了基於CT影像的精準檢測新冠肺炎先進人工智慧方法的研發。

構建COVID-CT數據集，訓練深度學習模型診斷新冠肺炎

為了解決這個問題，研究團隊構建了一個COVID-CT數據集，其中包含275個新冠肺炎檢測呈陽性的CT影像，並向公眾開放，以助於基於CT影像的新冠肺炎檢測的研發。

研究團隊從760個關於新冠肺炎的medRxiv和bioRxiv預印本中提取了 CT影像，並通過閱讀這些影像的標題人工篩選出具有新冠肺炎臨床病症的影像。基於183個新冠肺炎 CT影像和146個非新冠肺炎 CT影像，研究團隊訓練了一個深度學習模型，以預測一個CT影像是否呈新冠肺炎陽性。

在35個新冠肺炎 CT影像和34個非新冠肺炎 CT影像上進行了測試，研究團隊的模型F1值為0.85。結果表明，CT掃描有望用於篩選和檢測新冠肺炎，然而還需要更先進的方法來進一步提高準確性。

確診新冠肺炎的患者入院時的CT影像。

A，2020年2月2日，一名39歲男性的胸部CT掃描結果，顯示雙側毛玻璃混濁。 B，2020年2月6日，一名45歲男性的胸部CT掃描結果，顯示雙側毛玻璃混濁。 C，2020年1月27日，一名48歲男性（在治療後第9天出院）的胸部CT掃描結果，顯示斑片狀陰影。 D，2020年1月23日，一名34歲男性（在治療後第11天出院）的胸部CT掃描結果，顯示斑片狀陰影。

圖1：對於包含多個CT子影像的影像，研究團隊將其手動拆分為單個CT影像。

如何創建數據集

在本節中，研究團隊描述了如何構建COVID-CT數據集。研究團隊首先收集了760個於1月19日至3月25日期間在medRxiv1和bioRxiv2上發布的的關於新冠肺炎的預印本。

這些預印本中有許多報告了新冠患者病例並且其中一些展示了患者的CT影像。

這些 CT影像附有描述其臨床病症的標題。研究團隊使用了PyMuPDF3提取預印本PDF文件的底層結構資訊並定位到所有嵌入的圖表。這些圖表的品質（包括解析度，大小等）大都保存完好。

根據結構資訊，研究團隊還識別出所有圖表的標題。基於提取的圖表和標題，研究團隊首先手動選出所有CT掃描影像。

然後對於每個CT影像，閱讀其對應的標題從而判斷它對新冠肺炎是否呈陽性。如果無法通過標題判斷，則在預印本中找到分析此圖的文字以做出決定。對於包含多個CT子影像的影像，研究團隊將其手動拆分為單個CT影像，如圖1所示。

最後，研究團隊獲得了27個CT掃描影像，標記為新冠肺炎陽性。這些影像大小不同，最小，平均和最大高度分別為153、491和1853；最小，平均和最大寬度分別為124、383和1485。這些掃描來自143例患者。圖2 顯示了新冠肺炎CT掃描影像的一些示例。

圖2：新冠肺炎陽性的CT掃描影像示例

兩種方式：遷移學習和數據擴充

研究團隊基於這個數據集開發了一個基準線方法，希望有興趣的學者可以對其進行基準測試。

儘管研究團隊所使用的關於新冠肺炎的CT影像數據集是目前最大的公開可使用的CT影像數據集，然而它依舊較難達到訓練模型所需的數據量。

因為在如此小的數據集上訓練深度學習模型十分容易導致過度擬合：模型在訓練數據上表現良好，但是在測試數據上泛化不理想。因此，研究團隊採用了兩種不同的方法來解決這個問題：遷移學習和數據擴充。

其中，遷移學習的目的是利用來自相關領域的大量數據來輔助模型的訓練與學習。具體來說，研究團隊使用大量的胸部X光影像來預先訓練一個深度卷積神經網路，然後在COVID-CT數據集上對訓練好的網路進行微調。

數據擴充的目的是組合近似正確的影像-標籤組，例如，在大多數組合的影像標籤組中，標籤是對影像的正確注釋。

遷移學習

為了解決訓練數據不足的問題，研究團隊採用了遷移學習的方法。具體來講，研究團隊使用NIH發布的ChestX-ray14 數據集來預訓練DenseNet，然後在COVID-CT數據集上對預訓練後的DenseNet進行微調。

數據擴充

另一種解決數據不足的方法是數據擴充：即從有限的訓練數據中，創建新的影像-標籤組，並將合成後的組添加到原本的訓練集中。在創建新的組時，研究團隊採用了隨機仿射變換、隨機裁剪和翻轉來擴充每個訓練影像。隨機仿射變換包括平移和旋轉（角度依次為5，15，25）。

實驗設計以及結果

研究團隊收集了195個檢測新冠肺炎呈陰性的CT掃描數據，來訓練一個二分類模型用於預測一個CT影像是新冠陽性還是陰性。

其中，研究團隊根據患者數據將其分為訓練集，檢驗集和測試集，圖表1總結了每個數據集中新冠陽性和新冠陰性影像的數量，每個CT影像的大小都調整為224*224,並通過驗證集對超參數進行調優。

再者，通過使用學習率為0.0001，餘弦調度和最小批處理大小為4的Adam，研究團隊對網路中的權重參數進行了優化。最後，研究團隊使用五個指標來評估研究團隊的方法：(1)準確性; (2)精度; (3)召回率; (4)F1指數; (5)ROC曲線面積(AUC)。對於這些指標，越高越好。

上圖展示了這個基準線方法的準確度、精密度、召回率、F1指數和AUC。儘管精度較高，然而召回率的結果並不令人滿意，因此，需要使用更先進的方法來提高召回率。

總結

研究團隊建立了一個關於新冠肺炎的公開CT掃描數據集，來促進通過讀取CT影像進而篩選和檢測新冠肺炎患者的AI技術的發展。

此數據集包含275個CT掃描結果為陽性的新冠肺炎患者的CT影像。

研究團隊使用該數據集訓練了一個深度學習模型，並獲得了0.85的F1值。下一步，研究團隊將繼續改進方法以達到更好的精度。

論文鏈接：

https://arxiv.org/abs/2003.13865