當成像模型遇上深度學習,這名北大青年學者想突破「拍攝的極限」

  • 2020 年 12 月 1 日
  • AI

作者 | 黃善清

編輯 | 青暮

「除了專業人士,現在會背單反出外拍照的人已經越來越少了,其中最主要的原因是手機上的相機越來越好用了,這與計算攝像學的發展有一定關係。」
無可否認,無論是蘋果還是華為手機,如今相機性能早已成為產品的核心賣點之一,那些長得越來越像「浴霸」的鏡頭造型,也因為其可媲美傳統相機的攝相功能而被用戶所包容著。
「我們所探索的,是要將過去人類 invisible 的東西變成 visible。」
84 年的施柏鑫如此介紹他對「計算攝像學」工作的理解,他是北京大學數字媒體研究所的一名新體制研究員,「相機智慧」實驗室的負責人。
施柏鑫,現任北京大學電腦係數字媒體研究所研究員(「博雅青年學者」)、博士生導師,「相機智慧」課題組負責人;北京大學人工智慧研究院院長助理。擔任國際電腦視覺期刊(IJCV)編委,國際電腦視覺與模式識別會議(CVPR)領域主席。
所謂計算攝像學,是一門綜合訊號處理、計算光學、視覺、圖形學等多學科知識的新興交叉學科,與傳統獲得數據後再進行處理相比,計算攝像學希望更早介入成像的過程,擴展影像和影片的採集維度和增強其採集性能。
相較而言,經典攝像方法在成像的各個維度——空間解析度、時間解析度、視角及深度、顏色(光譜)等維度上均遇到了不同的瓶頸,而計算攝像技術能夠突破經典成像模型和相機硬體的局限,更加全面、精確地捕捉真實世界的視覺資訊。
「許多頂尖高校的電腦系或電子工程系都設有類似的研究方向,我 2017 年剛回國那會,北大做電腦視覺的老師當中還沒有專門做偏底層相機成像模型研究的,與其相關的研究就是計算攝像學,如何讓攝像擁有更高性能、更多維度、更少失真,整體來說在 CV 領域裡算是比較小眾的一個方向。」
剛剛入職北大滿 3 年的施柏鑫,科研資歷雖然不算深,但在計算攝像學領域已有拿得出手的成果 ——  2016 年由他作為第一作者發布的 DiLiGenT 光度立體數據集,是目前業界唯一一套光度立體實拍 benchmark 數據集,之後幾乎所有從事光度立體方向的研究人員都使用過這份數據集[1]。
而他接下來的目標,是想要進一步在計算攝像學領域開發一些更看得見、摸得著的東西,比如相機原型系統或者成像晶片,他希望通過落地新型的成像設備,給手機或相機用戶全新的攝像體驗、給視覺計算系統更豐富的輸入資訊。

1

科研界的「世界公民」

施柏鑫跟計算攝像學的結緣,源於日本東京大學的讀博經歷。
2010 年10月,對日劇、二次元文化有著濃厚興趣的施柏鑫,自北大碩士畢業後,申請到了東京大學的全額獎學金博士項目,最終順利入學師從 Katsushi Ikeuchi(池內克史) 教授。
Ikeuchi教授是全球基於物理電腦視覺方向的泰斗,施柏鑫有幸成為當時已 60 多歲的池內教授的倒數第二屆學生,當時一起聯合指導施柏鑫的尚有來自微軟亞洲研究院的 Yasuyuki Matsushita (松下康之,現為日本大阪大學教授) 與新加坡國立大學的譚平(現任加拿大西蒙弗雷澤大學副教授) ,他們也都是奔赴在電腦視覺與計算攝像學科研前線的專家。
讀博期間,施柏鑫的博士論文主要是關於面向真實反射率和光照的光度立體視覺, 在物理成像方面的研究積累為他後來從事計算攝像學研究打下來堅實的基礎。
與其他電腦視覺研究方向不同,計算攝像學研究需要通過大量真實數據的拍攝來驗證演算法,在這之前對攝影沒有特別喜好、連單反都不會使用的施柏鑫,秉著「干一行愛一行」的精神,從 0 開始學習掌握實驗室里各類相機的使用。
讓三位指導老師們每周都騰出一小時時間與他一對一談話,施柏鑫坦言那段時間壓力極大,但也因此讓他在專業上有了較深厚的積累,並對計算攝像學真正產生了濃厚的興趣。
東京大學讀博期間與 Katsushi Ikeuchi 教授合影
臨博士畢業前,MIT 媒體實驗室一段關於飛秒相機的影片深深吸引住了他。
所謂飛秒相機,能在萬億分之一秒的數量級曝光,從而區分每個光通過不同路徑到達每個像素的時間和距離。
「當時覺得原來光的傳播還可以這麼做,簡直太神奇了「。
其原理是通過與相機同步的飛秒雷射器,實現對光傳播路徑的分解,然後選擇那些不是通過直接反射、且通過牆壁等遮擋物間接多次反射到達相機的光強,進而實現對隱蔽景物的成像。
鑒於此工作給自己留下的深刻印象,施柏鑫在博士畢業後毫不猶豫申請了 MIT 媒體實驗室的博士後。
對科技界有所了解的人基本上都知道 MIT 媒體實驗室,它是世界上最重要的跨學科研究學術陣地之一,電子墨水屏技術、XO Laptop百元電腦、樂高Mindstorms、Scratch程式語言、全息數字3D列印、仿生義肢等眾多高科技都誕生於此。
MIT 博士後期間,施柏鑫主要投入研究非傳統感測器的成像問題,這期間有幾項成果獲得了中國外媒體的廣泛報道。
其中一項是讓 3D 掃描成像效果提升 1000 倍技術。在這項研究里,為了解決偏振光三位重建表面的歧義性問題,實驗室的研究人員通過現有方法提供的粗略深度估計(例如,微軟 Kinect),融合偏振成像中蘊含的高頻幾何特徵,實現了千萬像素、數十微米級別的高精度三維攝像 [2]。
而另一項則是拍攝不會「過曝」的相機(也被稱作「餘數相機」)。據施柏鑫介紹,「餘數相機」主要通過一個「取余」的過程,來保證感測器不發生飽和:一旦累計的光強達到一定的數值即被瞬間重置,依此往複。拍攝完成後,相機會得到一張「餘數影像」,而專門為該相機設計的演算法會通過該資訊自動恢復出理論上動態範圍無上限的影像 [3]。
這段經歷對施柏鑫最重要的影響是視野因此變得開闊起來。
「在那裡,無論是導師、博士後還是博士生,都屬於思想較活躍的一批人,經常會有一些較新奇的想法,並且有能力去實現。」
「MIT 媒體實驗室可以說是全世界最有吸引力的實驗室之一,以至於當時在那裡會覺得那是一個不太安靜的地方,因為每天都會有人來參觀採訪。坐在『玻璃房子』裡面,就像動物園的動物被圍觀。」施柏鑫苦笑道。
施柏鑫在MIT 媒體實驗室的座位

2

IMU治學法則

正式入職北大數字媒體研究所以前,施柏鑫還分別到新加坡科技設計大學、新加坡南洋理工大學從事過博士後研究,加上在美國以及日本的經歷,施柏鑫儼然是一名科研界的「世界公民」。
他表示這是一個不斷歷練的過程,與來自不同國家的科學家打交道,讓他開闊眼界之餘,也積累了豐富的人脈。
「比如我今年有一篇論文跟 UCLA 合作,但合作的 UCLA 老師實際上便是我在 MIT 當博士後期間共同指導的博士生,這些合作實際上延續到了今天。今年ECCV我們有一篇基於偏振的三維重建論文,也是深度學習第一次在這個問題上成功求解的實例,就是北大和UCLA合作的成果[8]。」
MIT那段經歷最重要的影響還體現在治學態度上,施柏鑫將之稱為「IMU」法則,這是 MIT 期間的導師所教會他的。
「首先 I 是 impact,你的工作有沒有實際影響力;M 是指的 magical,你的東西做出來人家看完後會不會眼睛一亮;U 則是 unique,你做的東西有沒有區分度,不僅是 topic 本身,另外包括  publication ,肯定要投最好的期刊和最好的會議。」
此外,施柏鑫還強調治學應該「一個方向堅持,多個方向擴展」。
「這兩個因素聽起來似乎有點矛盾,所謂一個方向堅持,就是從我第一篇CVPR論文開始至今一直都在做光度立體的相關研究;而圍繞光度立體研究,我需要從不同角度、不同假設和不同條件去分析還存在哪些可改進的問題,這便是多個方向擴展。「
施柏鑫舉了個例子,當時深度學習剛出來時,學界很少有人利用它來解決基於物理的視覺問題,而他的團隊已經發表了很多第一次用深度學習解決相關問題的論文。
他認為這是因為長期在同一個方向做得深入,因此能有較深的認識。
而他多國高校輾轉的經歷,也讓他無形中擴展了自己的研究方向,比如影像恢復的研究是在在新加坡高校期間開始嘗試的。
「嘗試方向變多以後,論文的邊界會比較寬闊,但裡面還是有一個核心思想在裡頭,那就是我的工作由始至終是圍繞著成像工作來開展的。我要回答的問題永遠是,影像到底是怎麼來的?怎樣才能拍得更好?相機里到底經過了什麼樣的過程?」
施柏鑫團隊的最新工作是融合傳統相機的高性能成像。
今年的 CVPR 他們有兩篇論文產出了相關工作,其中一篇是與混合成象有關,具體做法是在高動態範圍內結合傳統相機影像和神經形態相機視覺訊號一起去拍,希望藉此突破傳統的相機動態範圍極限[4];而另一篇則利用傳統影像對神經形態相機視覺訊號實現了聯合濾波,得到雜訊更小、解析度更高的訊號[5]。
「在影像恢復方面,我們也做過一些工作。主要關注分布相對複雜的偽影去除。包括17 年跟新加坡南洋理工大學大學合作時推出的第一個去反射的基準數據集[6]。後來19年發布基於深度學習的摩爾紋去除工作應該是在電腦視覺三大高峰會上最早基於深度學習做這個題目的方法[7]。」

3

堅持初心

施柏鑫做博士後之前曾經收到過矽谷一家大型傳統相機公司的 offer,邀請他到企業研究院做研究,卻被他拒絕了。
「我個人對於怎樣很漂亮地去解決一個工程問題不是特別感興趣,我會更想會去看看這個領域還存在哪些新問題,然後繼續往前去探索。」
這份篤定源於他讀博期間對同學的觀察,有些同學不止程式碼寫得漂亮,當他遇到一個自己感興趣的新問題時,就會興緻勃勃地寫個小程式去實現它,他發現自己不是這樣的人。
當然學術上的堅持是有代價的,因為工業界的薪酬條件要比學界好,這點他要感謝家人對自己選擇的支援。
「16年那會,如果大家知道北京當時房價以一個多麼瘋狂的程度在上漲時,就會明白要拿學術這條路的工資去面對很多現實問題的話,壓力是很大的,所以能夠走到今天真的離不開家人的支援。」
往下,施柏鑫表示將繼續深耕計算攝像學,希望結合北大學科齊全的優勢,結合自己在「相機智慧」方面的探索,在成像的基本問題上取得進一步的突破。

參考文獻:

[1] Boxin Shi, Zhipeng Mo, Zhe Wu, Dinglong Duan, Sai-Kit Yeung, and Ping Tan,「A benchmark dataset and evaluation for non-Lambertian and uncalibrated photometric stereo」, In IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), Volume 41, Issue 2, Pages 271-284, 2019. [Earlier version in CVPR 2016]

[2] Achuta Kadambi, Vage Taamazyan, Boxin Shi, and Ramesh Raskar, 「Depth sensing using geometrically constrained polarization normals」, In International Journal of Computer Vision (IJCV), Volume 125, Issue 1-3, Pages 34-51, 2017. (invited by Special Issue of Best Papers from ICCV 2015, 9 out of 1700).

[3] Hang Zhao, Boxin Shi, Christy Fernandez-Cull, Sai-Kit Yeung, and Ramesh Raskar, 「Unbounded high dynamic range photography using a modulo camera」, In Proc. International Conference on Computational Photography (ICCP), Houston, TX, USA, Apr. 2015. (Oral, Best paper runner-up)

[4] Jin Han, Chu Zhou, Peiqi Duan, Yehui Tang, Chang Xu, Chao Xu, Tiejun Huang, and Boxin Shi, 「Neuromorphic camera guided high dynamic range imaging」, In Proc. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, WA, USA, Jun. 2020.

[5] Zihao W. Wang, Peiqi Duan, Oliver Cossairt, Aggelos Katsaggelos, Tiejun Huang, and Boxin Shi, 「Joint filtering of intensity images and neuromorphic events for high-resolution noise-robust imaging」, In Proc. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, WA, USA, Jun. 2020.

[6] Renjie Wan, Boxin Shi, Ling-Yu Duan, Tan Ah Hwee, and Alex C. Kot, 「Benchmarking single-image reflection removal algorithms」, In Proc. International Conference on Computer Vision (ICCV), Venice, Italy, Oct. 2017.

[7] Bin He, Ce Wang, Boxin Shi, and Ling-Yu Duan, 「Mop moire patterns using MopNet」, In Proc. International Conference on Computer Vision (ICCV), Seoul, Korea, Oct. 2019.

[8] Yunhao Ba, Alex Ross Gilbert, Franklin Wang, Jinfa Yang, Rui Chen, Yiqin Wang, Lei Yan, Boxin Shi, and Achuta Kadamb, 「Deep shape from polarization」, In Proc. European Conference on Computer Vision (ECCV), Glasgow, UK, Aug. 2020.


點擊閱讀原文,直達EMNLP小組!