浙大附一院放療科葉香華:AI 在放療靶區與放療計划上的應用與局限

  • 2019 年 10 月 6 日
  • 筆記

「作為一名醫生,我的要求會比較高。我不認為自動勾畫的相似係數達到70%左右就能夠達到臨床上的滿意度。我甚至覺得,相似度應該是90%、95%甚至99%,準確性是我們更加需要的東西。」

葉香華

近日,第三屆影像計算與數字醫學國際研討會(ISICDM 2019),在西安索菲特酒店召開。研討會由國際數字醫學會與國家天元數學西北中心聯合主辦,西安電子科技大學數學與統計學院與空軍軍醫大學(第四軍醫大學)生物醫學工程學院聯合承辦。

雷鋒網 & AI掘金志第三次作為大會首席合作媒體,全程參與ISICDM的報道。

在此次研討會的數字醫學與智慧診療分會上,浙江大學醫學院附屬第一醫院的葉香華主任發表了題為《人工智慧助力放療靶區與放療計劃——數學和醫學契合相融》的主題演講。

葉香華是浙江大學醫學院附屬第一醫院腫瘤放射治療科的副主任醫師,主要研究領域是胸部惡性腫瘤(肺癌、乳腺癌、食道癌)的放化療、智慧精確放療研究以及放療相關性微生態研究。

在演講中,葉主任主要圍繞靶區自動勾畫和放療計劃系統,分享了多個人工智慧如何與放療進行有機結合的案例。

葉主任表示,靶區的手工勾畫存在很多問題,放療科醫生每天50%的任務就是勾畫靶區,而這件事情做起來並不容易,「特別是一個鼻咽癌的患者,沒有花3到5個小時做出來的計劃,我們都拿不出手。」

而且,腫瘤的解剖結構很複雜,在勾畫靶區的同時還需要把周圍的危機器官勾畫出來。另外,醫生還需要根據解剖結構形成空間想像的能力、提前預判病灶的轉移途徑。

因此,靶區勾畫非常考驗醫生的個人經驗。葉主任認為,如果人工智慧可以做到媲美人類的勾畫精度、實現危害器官和和正常器官的標準化制定,醫生的工作流程將會得到很大程度的改善。

此外,在制定放療計劃方面,葉主任也提出了自己的想法和需求。

傳統的方式里,物理學家會根據規定的治療方案和臨床劑量學原理模擬治療,明確放療方案,確定滿足臨床治療要求的定位參數,以確保重要器官不出現超量照射。但是現在用的大部分是基於經驗的放療計劃,如果有AI介入的話,可以幫助提高計劃的精準度。

以下是葉香華博士的演講內容,AI掘金志作了不改變原意的編輯

葉香華:我是來自浙江大學附屬第一醫院腫瘤放射治療科的醫生葉香華,歡迎各位理工科的朋友來到這次大會,我今天報告的題目是《人工智慧助力放療靶區與放療計劃——數學和醫學契合相融》。

我們都知道,人工智慧是電腦通過對已有知識的學習、積累經驗,自動提高任務的處理性能。這就相當於人體的樹突和軸突,從樹突輸入訊號到軸突輸出訊號的一個過程。

人工智慧的發展從上世紀50年代的圖靈測試開始,90年代出現最簡單的郵件分類,直到2010年時人工智慧全面爆發,在各個領域上都有很多的應用出現。當然,醫學也是其中一個重要領域。

從放療科醫生的角度而言,我也會關注人工智慧在放療領域的應用,放療領域的學習熱度也在逐年上升。從19世紀50、60年代零星的幾篇論文發展到現在的每年一千多篇。在理工科的角度來看,這樣的數量可能比較少。但是在放療這個領域,它的熱度還是非常高的,圍繞放療領域的前沿研究很多也都是基於人工智慧來進行。

我今天主要講兩個方面的內容:靶區自動勾畫和放療計劃系統,和大家探討一下人工智慧如何與放療進行有機的結合。

首先我說一下手動勾畫存在的問題。

作為一個放療科醫生,我們每天50%的任務可能就是勾畫靶區,大家可能覺得勾畫靶區是件很簡單的事情,其實不是的。患者的一份CT有200多張影像,我們要在每一張圖上把所有的病灶勾畫出來,把旁邊的危機器官勾畫出來,不能半點馬虎。

要細心地勾畫一個患者,特別是一個鼻咽癌的患者,沒有3到5個小時做出來的計劃,我自己都覺得拿不出手。就以鼻咽部為例,鼻咽部的解剖結構特別複雜,初級醫生反覆記憶五六遍可能都不夠,一兩年的時間才能非常的熟悉。

然後,我們要在各個切面上準確的找出來,並且根據解剖結構形成空間的感覺,想像這個病灶的轉移途徑,它會往哪裡長?有沒有侵犯旁邊的肌肉、侵犯到什麼程度?

這需要我們有一個預判的能力,不是說看到病灶長在什麼地方,就勾畫到什麼地方。亞臨床灶的意思是指,病灶有可能往後面還會擴散到哪個地方,這些都是需要考慮到的。

因此,我們勾畫的時候就存在很多的問題,這非常考驗醫生的個人經驗還有知識的累積。所以,我們的工作又費時又費力,我們開玩笑說,頸椎病可能是放療科醫生的標配。因為每天都是對著電腦,逐層地進行勾畫。

與此同時,有一些患者也不理解,自己做完定位之後為什麼不能夠立即進行治療。然後,我跟他們解釋需要勾畫靶區、做計劃、做驗證一大堆後天工作,他們還是不完全理解。假如有了人工智慧的助力,是不是可以把靶區勾畫的時間大大縮短?

另外,手動勾畫還存在的一個問題是:無法實現行業的標準化。醫生的個人經驗不一致,注意力也是不一樣的。此前有一篇關於腸道息肉檢測的文章里提到,醫生上、下午檢測出來的腸息肉概率是不一樣的,注意力也是影響結果的一個重要因素。假如有了人工智慧的助力,是不是這一些都會有所改善?

因此,我們放療科就衍生出了自動勾畫的需求。首先,要保證自動勾畫的效果和手動勾畫一樣準確,我說的是一樣準確。作為一個醫生,可能我的要求會比較高。我不認為相似係數達到70%左右就能夠達到臨床上的滿意度。我甚至覺得,相似度應該是90%、95%甚至99%。

為什麼?因為如果給了我一個靶區初步勾畫的方案,這個結果只有70%的相似性,我需要重新修改它,修改的過程可能比我自己勾畫一個靶區的過程還要長,這就得不償失了。所以說,準確性是我們更為需要的東西。自動勾畫是一分鐘完成還是三小時完成,對我來說並不是那麼重要,但是準確率尤為重要。

第二點需求是危機器官和正常器官的標準化制定。剛才我提到,同一個醫生在不同的時間或者是不同醫生勾畫出來的結果都是不一樣的。

雖然我們有RTOG、EORTC等規劃的標準,但是還是存在差距。假如有一個相對標準化的制定,可以提高放療的安全性,讓年輕的醫生得到均質化的培訓和教育,實現具有統一評價性的、可比較的治療方案,這是我們需要的東西。

我們知道,傳統的自動分割技術是沒有先驗知識的。低級的分割方法,比如說強度閾值,還有區域增長,還有啟發式邊緣檢測等演算法。這些低級分割方法,對於優化技術來說不是特別好。所以,後面又出現了基於區域的分割技術,比如說活動輪廓、水平集還有分水嶺演算法等等,這些可以達到形變的配准效果。

後來,由於統計學的高速發展,又出現了基於概率的分割技術,比如說高斯混合模型、聚類,K近鄰還有貝葉斯分類、淺層的人工神經網路等等。它的一個優點在於,能夠在影像中找到已知的像素點,但是由於缺少相鄰像素的參考,局部效果可能很不錯,但是缺乏全局性。

還有基於單一圖譜的分割技術,這些都是比較早的分割技術。

我們現在用的比較多的是OAR,基於圖譜庫的自動分割技術,然後還有隨機森林模型或者是多模態的分割技術,也可以增強圖譜式的分割技術精度。

但是無論怎麼樣,圖譜式是基於前面的圖譜來尋找靶區,假如形狀變化特別大、體積特別小,或者是演算法選擇錯誤的話,都會影響配準的精度。

那麼,多圖譜分割就是在圖譜式分割的基礎上,在個體形狀差異大的情況下,提高配準的效率和魯棒性,特別是在頭頸部、心臟和臂叢神經上應用會比較多。

為什麼會常用在頭頸部的病灶組織?因為頭頸部的結構雖然比較複雜,但是其骨性標誌物相對固定,活動度也不像胸部和腹部那麼大。所以,用圖譜式的分割方式所獲得的OAR分割,臨床應用效果還是比較好的,但是用於胸部和腹部就相對會差一點。

此外,還有學者提出利用一種聯合強度建模的多圖譜分割方法,在晶體、腦幹、脊髓方面的分割效果看起來也不錯。

再具體看一下,AB加上IM的聯合強度建模的效果最好,在眼球還有晶狀體的視神經、頭部等方面的表現也都不錯,但是在甲狀腺方面還是有一定的差距,可能因為相比較於眼球、腦幹的圖譜庫,甲狀腺的個體差異比較大。

到了現在,我們可以通過對訓練樣本泛化特徵的學習,自動提取標籤化的特徵來識別新的場景。CNN網路通過多層卷積操作,可以從底層到高層逐層抽取出影像特徵,通過給定的標註來進行迭代的學習,對自動抽取的特徵進行像素級別的分類,從而實現對醫學影像的目標分割。

有學者在此基礎上,用了支援向量機的方式,對磁共振影像里的腦幹進行了分割。

從這個圖中,我們看到第二個是人工分割的結果,前後幾個是機器的分割,我們看到絕對體積差基本上是差不多的,但平均分割時間差距很大。

紅色是人工智慧畫的靶區,好像還不錯,因為相對來說腦幹也簡單一點。

我覺得在訓練時間上,SVM確實非常有優勢,然後也比較了Atlas-based的一些方法,SVM具有相對快速的時間,只有36.6s。

還有一些學者引用了基於增強特徵的一些SDAE的方法,對於視神經、視交叉,還有垂體、垂體柄、腦幹等等頭頸部的病灶來進行分割,相似系度也能達到76%-83%,分割時間也是比前面講的SVM還快很多,靈敏度和特異性都是非常不錯的。

具體看一下右側的視神經、垂體和視交叉的一個對比。綠色部分是我們自己手工勾畫的,紅色部分跟綠色的區別不大。但是細看起來,頂部勾畫起來相對還好,到了底部還是有一些中斷。這個可能是因為頂部視神經的訊號差異比較大,勾畫起來也會比較方便。

還有用CNN還有LSTM和集成模型,根據融合特徵和分類器,做的頭顱左側膠質瘤的分割。

我們可以看到,三者對於膠質瘤的分割效果還是比較不錯的,相似係數也達到了0.8左右。

這是2017年的時候,斯坦福大學的邢磊教授利用CNN對於頭頸部腫瘤進行OAR勾畫的文章。

他利用了50幅頭頸部3D-CT影像,然後對它進行卷積神經網路的勾畫。我們可以看一下結果,用的比較好是在脊髓、下頜骨、咽部、喉部還有眼睛、視神經等等,但是比較差的是腮腺和視神經等部位。

究其原因,還是因為CT影像上,腮腺還有視交叉的變異程度比較大,CT的邊界也不是很清楚。所以像脊髓、下頜骨、骨頭這些骨性標誌來說,做起來的效果會比較好。

前面講的都是關於OAR危機器官。我們知道危機器官比較固定,勾畫起來相對簡單一點。現在有一些中國外的公司也陸續有一些軟體產品出現,那麼對於一個CTV和GTV的自動勾畫卻是比較困難的。為什麼?我剛才也說了,腫瘤的解剖結構非常複雜,邊界也比較難以確定,那麼臨床更是一樣的,亞臨床的病灶需要醫生用自己的知識去判斷,那麼邊界就更難確定了。

這篇文章運用了一個FCM:模糊C均值聚類,還有ANN、SVM比較了三個實性肺結節,還有混合結節等,我們可以看到FCM可以達到相對較好的效果,紅色部分是手工勾畫的,綠色的是FCM勾畫出來的。他們的擬合度還是很不錯的。對於實性結節而言,ANN/SVM的勾畫效果都還好,但是對於磨玻璃結節的勾畫差異就比較大了。

深度學習也用於NPC鼻咽癌的勾畫。這是2019年深圳大學發表的一篇文章,我們可以看到關於NPC的勾畫,中間這一塊就是高訊號的鼻咽部的病灶,從小體積到大體積、從上一直到下給出了勾畫的結果。

我們可以看到A、B、C、D里第四幅圖的相似精確度是最高的。對於這種肉眼比較明確的部位,勾畫起來的效果也會稍微好一些。

還有學者用深度擴張的DDCNN網路,對218例的直腸癌患者進行CTV的勾畫,以及旁邊的一些危機器官,比如膀胱、直腸,還有雙側股骨頭的勾畫。我們可以看到CTV的勾畫相似係數達到87.7%,然後膀胱和雙側股骨頭的勾畫效果還不錯,達到90%。

但是小腸和結腸的相似係數就比較少,因為它們都是空腔臟器,可能跟寒氣有關係,但是勾畫時間肯定很快,也不受體型和輪廓等等的影響。

目前所用的勾畫軟體,比如說ABAS、Mim、Velocity等等也慢慢地運用於我們的工作場景。

這是我們科室做的一些勾畫實例。我們可以看看評估的一些指數,包括Dice係數、敏感性指數、包容性指數等三個指數。

從勾畫的結果來看,無論是肺還是心臟、食管、氣管,結果都還不錯,除了食管這一塊稍微低一點。這是我們根據200例的影像做出來的自動勾畫結果。雖然有一些地方確實不盡滿意,但是總體而言,還是把我們大部分的東西給勾畫出來了。

具體看一下肺裡面的勾畫。

我們看一下相似系度可以達到0.97,紅色的部分是我們自己勾畫的,綠色是機器勾畫的。

氣管勾畫的相似係數達到了0.81。

食管的相似係數是0.8,我倒不覺得這個結果很差。因為食管的規划起還是有一定難度的,食管的變化特別大,每個人的食管都不太一樣,每個部位的走形都完全不一樣,可能裡面哪個部位還有空腔,變化比較大,食管的勾畫相對其他部位來說確實比較困難。

還有一個心臟的勾畫。我們可以看到,心臟的智慧勾畫比醫生勾畫的範圍要大一些。不管怎麼樣,智慧勾畫所依賴、所學習的數據種類都是可以提供一個標準化的勾畫。我覺得,收集更多異常的病例,然後進行訓練,可以增加對影像優化處理的能力。

還有就是一些細小的問題,比如說肺勾畫的不完整,到了中間的一小部分就不延伸進去了。

以及邊緣的一些細小的豁口,或者是個別病例與氣管重疊,比如說氣管跟肺,邊界區別不是很明確,AI演算法直接把器官當做一個肺部組織勾畫進去了,這些都需要進行優化。

然後,像多模型聯合分割也能夠比較好的解決以食管勾畫假陰、假陽性的問題。

所以總結一下,智慧勾畫需要持續地優化改進。但是不管怎麼樣,智慧勾畫的速度快、效率高,確實節省了醫生的重複勞動時間,幫我們把前面這些工作都做好,讓我們有更多的時間去思考個體化的勾畫途徑。

而且,智慧勾畫可以根據指南降低差異性,便於質控。AI勾畫也更穩定,在任何時間都可以減少放療的周期,縮短治療的療程。

我再講一下第二個部分——人工智慧助力放療計劃系統。

在TPS上,物理學家根據規定的治療方案和臨床劑量學原理模擬治療,明確放療方案,確定滿足臨床治療要求的定位參數。以確保重要器官不出現超量照射。這些參數包括:照射野數量、分布、角度、各個野分配權重、單次照射劑量、總的照射劑量、各個靶區及危及器官的劑量及限制劑量等多項重要參數。

所以,在上面的這些過程中,自動化的需求也是非常大的。現在用的大部分是基於KBRT的方法,這是一種基於經驗的放療計劃,或者是PB-AIO、MOC的方法,以及基於人工智慧的方法。

一般來說,比較具有代表性的就是KBRT的方法。我們可以看到在優化前和優化後,左側股骨頭確實是效果會很好。

然後,也可以根據前面的膀胱、後面的直腸來進行解剖結構的優化。

所以我們可以看到,人工和智慧的曲線擬合還是非常好的。

這些方法可以運用於頭頸部的腫瘤或者是肺癌。我們可以看到肺癌的DVH圖,還有心臟、肺、直腸的劑量明顯降低。

這是應用於肝臟的情況,低劑量區明顯收回來了。比如說,我們要保證1/3肝臟不受任何一點照射,我們可能要犧牲脊髓的一點量。但是經過優化之後,脊髓的照射量也明顯降低。

不管怎麼樣,DVH的預測模型優化後,仍然存在一個overlap的劑量熱點,根本原因是DVT忽略了劑量分布的三維空間資訊。

因此,也有學者研究了基於大數據訓練的三維預測模型,通過一系列的空間和劑量特徵參數對數據進行訓練,提高計劃系統的精度,在保持處方劑量不變的同時,盡量降低OAR的劑量。

Valdes的這個研究也是基於臨床的考慮,利用一個臨床決策系統對OAR進行劑量的取捨。

利用我們原有的放療計劃庫,比如說調強、三維或者是人工智慧的計劃庫,然後提取其他臨床所需要的影像知識病例、治療目的、放療模式等等各個方面,進行數據的分類推理,可以制定更為合理的策略。

我們可以看到肺結節的SBRT影像,針對心臟和胸壁之間的劑量問題,給出了OAR的劑量趨勢。那麼我們臨床醫生就可以根據患者的情況,選擇對患者最合適的角度。

其實這也是我們平時在做的工作,但是假如有AI介入的話就會精確很多。

最後,講一下展望。

未來,放療和AI肯定是不可分割的,大數據、AI、雲計算構成了放療的三駕馬車。

除了我剛才講的靶區規劃和放療計劃的制定,放療領域需要AI幫助的地方還有很多,比如說模擬定位,如何把CT、核磁共振和我們的治療進行精準的匹配,還有預測器官和腫瘤的動度,比如胸部的呼吸、腸道蠕動。

另外,還有預測加速器性能和自動檢測加速器成像系統以及多葉光柵位置的誤差。我們現在的放療雲平台也很火爆,一些廠商都在這個部分投入,然後還有預測腫瘤放療後的不良反應。

靶區自動勾畫也有一些局限性,最主要的還是我們如何能夠獲取高品質分割數據集的問題:分割數據集是否合理,品質是否高?

就像前面一位老師講的,給人工智慧55000首詩進行學習,還有給人工智慧300首精品唐詩進行學習,你覺得哪一種學出來的效果好?

他說,肯定是300首唐詩學得好,因為這些是通過高品質篩選出來的。所謂近朱者赤、名師出高徒就是這麼一個道理。

因此,我們可以通過採用國際共識來規範手動勾畫,盡量避免影像採集的差異性以及靶區勾畫的局限性。

無論怎麼樣,人工智慧對於醫生、患者、其他學科來說,都是非常有好處的。非常感謝大家的聆聽。