40納秒完成影像分類,速度提升幾十萬倍,影像感測器自帶神經網路登上Nature

魚羊 曉查 發自 凹非寺 量子位 報道 | 公眾號 QbitAI

AI晶片還可以怎麼搞?最新登上Nature的研究帶來新啟發。

過去,我們做影像分類都是分成好幾步:先用感測器收集影像模擬訊號,數模轉換後再交給電腦處理。整個過程既耗能又費時,就像眼睛把影像傳給大腦。

試想一下,如果人類眼睛可以直接處理影像——不用勞煩大腦,那視覺影像資訊的處理速度豈不是可以大大提升?

今天,Nature這篇新研究開拓性在於,直接讓「眼睛」處理影像。而且效果回饋也相當震撼:

利用新感光元件,僅僅40納秒即可完成影像分類,比交給電腦處理快了幾十萬倍

真是不得了。

光電二極體網路

核心來說,研究團隊在晶片上構建了一個光電二極體網路,並選擇2D半導體二硒化鎢(WSe2)作為光敏材料。

單個二硒化鎢光電二極體示意圖

光電二極體陣列由27個具有良好均勻性、可調性和線性度的檢測器組成,排列為3×3的成像陣列,像素大小約為17×17μm,每個像素由3個二硒化鎢光電二極體(子像素)組成,其對光的響應度可以通過柵極電壓調節。

也就是說,可以通過改變施加的電壓來調節半導體對光的響應,從而調節每個二極體的靈敏度。

實際上,這就將光電感測器網路變成了神經網路,將光學感測和神經形態計算結合起來,使其能夠執行簡單的計算任務。

改變二極體的靈敏度,就相當於改變神經網路中的權重。

把權重放在感測器上

與其他神經不同的是,這套系統的權重不是存在電腦的記憶體和硬碟里,而是直接集成在影像感測器上。

實驗中使用的有硒化鎢光電二極體製成的特殊閘電路。它的特殊就在於可以調製,相當於神經網路的訓練。

隨著外接偏置電壓的不同,二極體對光線的敏感程度也不同,等於將網路的訓練結果直接放在感測器端。

之前的神經網路都是將訓練權重存儲在外部存儲器上,通過電路發送到每個檢測器件上。

就像電腦的記憶體,斷電後就會丟失存儲資訊。

而這一套設備,更像是硬碟,即使掉電後也能將權重資訊存儲下來。

研究人員將調製的電極也就是浮柵(floating gate)埋在氮化硼絕緣層中,一開始先對氧化鋁絕緣層中的柵極加上電壓,接著撤去外部電壓。

浮柵依舊能在接下來的2300秒內維持對光電二極體的調製,直到改變外部偏置電壓為止。

研究人員用這種方法實現了兩種類型的神經網路:分類器和自動編碼器。

在分類器中,光電二極體陣列、晶片感知器以及在晶片外的非線性激活函數一起運行。這種類型的神經代表一種監督學習演算法,該演算法能夠將輸入影像P分為不同的輸出類別y。

實際效果如何呢?他們3×3像素製作了一組「簡陋」的字母,分別是n、v、z。

影像感測器經過訓練後,只需測量對應電路的電流是否為0,就能知道是哪個字母。

通過電壓隨時間的變化圖可以看出,當感測器接受到影像40ns後,n和v兩種輸入產生的電壓開始出現巨大的差異,約100ns後差異達到最大。

第二種神經網路是自動編碼器,可以在無監督的訓練過程中學習輸入影像P的有效表示。它與解碼器一起使用,對解碼器進行訓練後,就可以在其輸出中重現影像。

編碼器由光電二極體陣列本身構成,解碼器由外部電子器件構成。

在這個過程中,影像的傳輸數據得到了壓縮。

潛力巨大,但仍需大量後續研究

40納秒就分辨出了兩張不同的影像,AI視覺彷彿朝著人類大腦的效率更進一步。

但需要說明的是:這一令人興奮的新技術,距離實際應用,還有很長的路要走。

首先,由於光電二極體陣列僅由27個檢測器組成,最大只能處理3×3的影像。

其次,想要真正應用於自動駕駛和機器人技術,視覺系統需要捕獲具有廣闊視野的三維動態影像和影片。而現在,該技術是將3D視覺資訊轉換成2D來處理,丟失了運動資訊和深度。

其影像感測器陣列的平面形狀,也限制了廣角相機的能力。

此外,根據Nature的報道,論文中描述的設備很難在昏暗光線下成像。並且,其設計需要高電壓和大功率,相比之下,生物神經網路中每項操作消耗的能量僅為10-15到10-13焦耳。

從製程角度上講,晶片所採用的薄半導體目前很難大面積生產加工。

而且,儘管影像感測器兼具了採集和計算功能,減少了模數轉換,但外部電路仍然存在固有延遲問題,還是會影響整個系統的等待時間。

不過,雖然還有很大的研究空間,在感測器中計算的相關研究,推動了AI硬體的進一步發展。而這樣的研究思路,也不僅僅局限於電腦視覺,可以擴展到聽覺、觸覺等其他物理輸入中。

其他嘗試

人們對快速處理影像資訊的要求越來越高,很多科學家都在研究在輸入端處理影像的方法。

最近來自荷蘭和美國學者也發明了一種在感測器端直接處理影像的方法。

不過他們不是輸出影像的分類,而是輸出影像的邊緣,這對於目標檢測和語義分割有重要的意義。

他們在感測器前方加入了一個「超表面」:不到半毫米厚的藍寶石薄片,鍍上206 nm厚、142 nm高、間距300 nm的硅長條。

把它放置在CCD感光晶片的表面上時,超表面的作用就像一個透鏡,光線只能以陡峭的角度射向它,而過濾掉入射角很小的光。

影像的特徵是由不同光波的組合而成,濾除了光波攜帶的其他細節,僅留下了較尖銳的分量,例如人臉的邊緣,而不是單色的背景。

整個過程僅需要150納秒的時間,而交給電腦處理需要幾毫秒,二者相差4個數量級。

研究團隊

最後介紹下研究團隊,來自奧地利維也納工業大學的Unterrainer group。

論文一作:Lukas Mennel,是電氣工程與光子學專業在讀博士,曾作為訪問學者赴MIT交流學習,研究量子光子學。

Lukas Mennel

論文的另一位通訊作者,是維也納工業大學副教授Thoms Mueller——托馬斯·穆勒,雖然不知道這位托馬斯·穆勒擅不擅長踢足球,但在2D材料科學領域,穆勒教授的研究涵蓋基礎研究、光電設備、電子積體電路、光子積體電路等,亦是卓有成就。

Thoms Mueller

論文地址: https://www.nature.com/articles/s41586-020-2038-x

作者系網易新聞·網易號「各有態度」簽約作者