方浩樹:本科Gap兩年,確定了未來的方向,還發表了四篇高峰會一作

  • 2020 年 12 月 28 日
  • AI

與國外相比,中國大學的「Gap」文化並不流行。有人認為這是浪費時間,也有人逆流直上,利用一兩年的空檔找到未來的方向。顯然,方浩樹是後者。

作者 | 陳彩嫻
在獲得2020年微軟學者獎學金之前,方浩樹便已是中國有名的AI科研學子之一。
他曾在本科期間發表4篇高峰會一作,入讀上海交通大學吳文俊人工智慧博士班之後,又相繼獲得2019年百度獎學金、2019年度「中科視拓Seeta學術新銳獎」,入選由上海 AI 青年科學家聯盟·梧桐匯發起的「A 班計劃」。
作為一名二年級在讀博士生,方浩樹的學術成就令人矚目。然而,儘管外界的關注與讚譽不斷,他對自己的定位與認知卻十分清晰,將目前的學術成就首先歸因於「歷史的進程」:「深度學習發展到現在,確實比較容易出成果。」
方浩樹的童年在潮汕度過,小學三年級隨父母移居深圳,求學均是名校:初中就讀於深圳市福田區石廈學校,高中就讀於深圳中學,本科就讀於上海交通大學電子資訊與電氣工程學院,期間曾赴UCLA跟隨朱松純實習,2019年直博上海交通大學電腦系,成為吳文俊人工智慧博士班的首批學員之一,師從盧策吾。
仔細回顧,方浩樹的「開掛」人生,似乎是從他決定休學後開始的。

1

學霸不走尋常路

談起當年的高考成績,方浩樹記憶猶新:「這個我記得很清楚哈哈。當時我考了680分,而那一年清華與北大在廣東省的招生分數線都是681分。」
2010年,方浩樹進入深圳中學標準班就讀。當時,深圳中學的前任著名校長王錚已調去北京大學附屬中學,但他任職期間的改革成果仍繼續影響著深中的文化氛圍:推崇自由與民主的治校精神,鼓勵學生的多元化發展。
比如,方浩樹記得,他在深圳中學讀高中時,如果學生覺得學校有某個地方做得不夠好,可以在學校校園裡的大字報上提出來,讓學校去改善。在這個過程中,方浩樹逐漸培養了一種「think different」的思維方式,養成批判看待問題、不斷嘗試尋找更好解決方法的習慣。
成長於自由開放的環境,個性張揚並非必然。在方浩樹的身上,深圳與深圳中學的氛圍對他個人的影響更多是體現在追求創新的自我驅動力,熱愛思考與自主探索便是其中的體現。方浩樹不喜歡隨波逐流,也不喜歡按部就班,而是更傾向於先尋找方向。只有確定了自己的目標,他才會付出自己所有的時間與精力去努力。
因此,方浩樹並非一直是學霸。在剛上高中與剛上大學時,他的成績都排在全班/全系的中下游,因為在這兩個時間段里,方浩樹花了更多時間去思考:「我是不是要把很多時間花在上課上?」相比一直埋頭苦讀,方浩樹認為,這個問題更值得他去思考。
只有等他想明白了,他才有可能專心起來。
在上大學後,方浩樹也經過了大約兩年的探索與思考。在探索期間,他參加了許多社團活動,對自己的專業方向也感到迷茫:「我一直不太清楚自己想要做什麼。這麼多方向似乎都不是我真正喜歡的。」
甚至大二選專業時,方浩樹一開始也沒想選擇電腦。他從小就有一個夢想,就是當一名科學家,而電腦似乎離這個目標不是很近。後來,方浩樹了解到,其實學電腦,也可以選擇研究方法論,以後也是有成為科學家的潛力,所以才選擇了電腦。

圖註:探索期間,2014年夏天,方浩樹去烏克蘭參加了全球志願者活動
在大學的前兩年,由於沒把心思花在上課上,方浩樹的成績一直比較差。後來,方浩樹先給自己定了一個目標:出國。如果要出國留學,那必然離不開好的績點,於是他就思考:「自己是不是應該好好學習?先把成績提上來,然後再做下一步的打算。」
確定了出國的目標後,方浩樹開始努力學習,把成績提高到了全系前10名。與此同時,他也開始尋找加入實驗室的機會。
當時,方浩樹前後一共加入了三個實驗室,一個是光量子方向,一個是網路方向,一個是高性能計算方向。但似乎沒有找到入門的方法,「感覺做不動」。
大三時期,方浩樹偶然了解到上海交通大學的本科生研究計劃(Participation in Research Program,簡稱PRP)。自2001年起,上海交大開始實施PRP計劃,希望幫助對科研感興趣的本科生參與課外科研項目的研究工作。
沒有多想,方浩樹選擇參加PRP計劃,並加入了第四個實驗室,跟隨自動化系的閻威武教授學習機器學習的相關知識。在這個計劃中,方浩樹根據閻威武推薦的 ML 入門資料去摸索、自學,推導、鑽研邏輯回歸、支援向量機、MLP等新知識,「越學越覺得有意思。」
但深入學習一段時間後,方浩樹又開始迷茫。同時,2015年那會,中國有關神經網路、深度學習的研究還沒有火起來,網路上的相關知識介紹十分有限。
「當時閻老師主要研究方向不是電腦視覺,用到神經網路的地方比較少,沒有很合適的Topic給我做,我也不知道這個方向能做什麼。」
儘管對神經網路與電腦視覺感興趣,但方浩樹沒有從事相關科研實踐的機會。
在大三的寒假,也就是2016年初,方浩樹在BBS上看到盧策吾的實習生招聘廣告。當時,盧策吾還在斯坦福大學李飛飛實驗室擔任博士後,第二年才回上海交大,但已經開始招實習生。方浩樹發現自己的興趣方向與盧策吾的研究很契合,於是便投遞了簡歷。
「Human Understanding(人類理解)從最底層像素級別到語義級別,逐層深入的理解使我更感興趣。」
在面試中,盧策吾主要了解了方浩樹在PRP計劃里所學習與收穫到的知識。其中,方浩樹提到自己有一定的機器學習與神經網路的知識基礎,於是便通過了面試。
如今回頭看,雖然當年高考與清北失之交臂,但方浩樹覺得,自己在上海交大讀本科更好:「因為碰到盧策吾老師這一點很重要。如果去了清北就遇不到盧策吾老師了,這會很遺憾。」
預感於加入盧策吾團隊做科研的機會難得,因此,2016年大三結束後,方浩樹毅然決定辦理休學,跟著盧策吾做研究。
「一兩年對漫長的人生來說可能不算什麼。」

2

休學兩年:出了四篇高峰會一作

休學的兩年,也是方浩樹的重要人生轉折點。在這兩年中,方浩樹發表了4篇高峰會一作,並結緣了三位對他做科研影響較大的導師:盧策吾、戴宇榮與朱松純。
「我當時是先休學一年。其實你想,如果在本科期間入伍,也要兩年;讀一個master(碩士),也要兩年,所以我覺得我當時休學一年的影響也不是很大,而且我會覺得在盧策吾老師這邊可以學到很多東西。
確定加入盧策吾老師的團隊實習後,方浩樹在2016年3月開始接觸課題,準備前期工作,研究程式碼,看論文等。當時,方浩樹也申請了商湯科技的實習。因此,2016年6月辦完休學手續後,方浩樹一邊在商湯科技實習,一邊跟著盧策吾老師做實驗。
本科期間,方浩樹主要專註於人類行為理解的相關研究。
ICCV 2017
在盧策吾與騰訊優圖實驗室總監戴宇榮的指導下,方浩樹與團隊遠程合作,研究多人場景姿態估計。多人場景姿態估計的目標是在一個多人場景里識別每一個人,然後把每一個人的骨架同時抽取出來。與其餘高峰會論文的進行相比,第一篇高峰會論文的過程相對坎坷:
一開始,實驗分數很難上去,方浩樹與團隊成員花了很長時間去摸索如何提分。好不容易,在花了很多時間調整、跑實驗後,分數終於超過了目標分數的一點點。方浩樹很開心,以為這就結束了。沒想到盧策吾看到實驗結果後,說:「不錯,但還可以更高。還可以高10個點。
方浩樹與隊友聽到,覺得有些誇張,可能性不大。但在後面的實驗里,他們一條條地調整,最終結果真的比以前的文章提高了將近10個點。然後,他們開始寫paper、投高峰會。
一開始,他們將文章投到CVPR,結果回饋是兩個reviewer reject,一個reviewer accept。後來經過Rebuttal,變成2、3、4,一個分數變成了borderline,但最後還是被拒了。這讓方浩樹覺得很失落。
「不過盧老師當時看的比較有遠見。他說我們要先把程式碼都開源,讓大家用起來。」當時,開源程式碼AlphaPose人體姿態庫在GitHub獲得了超過3k star(目前已獲得4.7k),排名達到前萬分之一
之後便迎來了ICCV。由於第一次投稿被拒,方浩樹與隊友便思考,會不會是論文寫作的英語表達不夠好。為此,方浩樹還在學校的路上「抓」了一個母語為英語的外國人,把他請到圖書館一起改論文,從頭到尾過一遍。
最後,這篇名為《RMPE: Regional Multi-person Pose Estimation》的論文被 ICCV 2017 接收。論文提出多人姿態估計的兩步法RMPE框架,著重解決在實際應用中人體檢測不準確的情況下的姿態估計問題,在精度上比 ECCV 2016的圖優化法高10mAP,在速度上快了600倍。

論文鏈接://arxiv.org/pdf/1612.00137.pdf
AAAI 2018
完成第一篇高峰會一作後,方浩樹在盧策吾的指導下就人類行為理解方向進行新的探索。當時,方浩樹覺得姿態和部位分割可以相互促進,但實際上,pose和parsing在本質上便不同:」pose需要忽略很多部位資訊和像素級資訊,只關注關鍵點;但是parsing正好相反,能夠捕捉到每個像素的資訊。」
迫不得已,研究停滯半年之久,直到2017年暑假,方浩樹加入UCLA的VCLA研究中心進行研究實習,師從朱松純。
UCLA的暑研機會,也是得益於第一篇高峰會論文:當時,第一篇論文開源後,一位在UCLA就讀的博士後用到了論文中的程式碼,覺得很不錯,於是便將方浩樹推薦到朱松純門下參加暑期實習。
在UCLA實習期間,方浩樹學到圖模型和影像語法的知識,並將語法模型和神經網路結合起來。論文把人體三維模型看作語法,然後用它來幫助神經網路預測三維骨架。工作用到三個語法:人的姿態對稱語法,運動學的語法,以及人的樹狀結構語法。最終,文章《Learning pose grammar to encode human body configuration for 3d pose estimation》被 AAAI 2018 接收為Oral Paper。

論文鏈接://arxiv.org/pdf/1710.06513.pdf
CVPR 2018
在接觸新方向的過程中,方浩樹偶然讀到陳鑫磊的某篇論文,文中提到通過聚類來做分割。這啟發了方浩樹:為何不通過pose來做聚類,通過聚類來幫助parsing呢?這個思路在試驗中取得了極大進展。
經過三個多月的試驗,論文初稿已成型。戴宇榮在改完論文摘要後,又提出:利用pose資訊從資料庫里遷移已有的標註數據,來達到知識遷移的目的。這又給了方浩樹創新演算法方式的新靈感。
經過新的試驗,方浩樹與成員完成了論文《Weakly and Semi Supervised Human Body Part Parsing via Pose-Guided Knowledge Transfer》。論文提出了一種新的半監督學習範式,通過人體的形態學相似性,利用大量易獲得的標籤從少量的樣本中遷移標註數據。這篇工作被CVPR 2018接收為「Spotlight Paper」。

論文鏈接://arxiv.org/pdf/1805.04310.pdf
ECCV 2018
在人類行為識別的研究課題上,方浩樹與團隊成員繼續深攻,提出在人與物體交互(HOI)識別中,人類通常是通過使用身體的某個部位與物體進行交互。
他們在論文《Pairwise Body-Part Attention for Recognizing Human-Object Interactions》中提出「成對身體部位注意力機制」,在模型中引入基於注意力的特徵選擇方法與可以捕獲身體部位之間成對相關性的特徵表示方案。
這篇文章將人與物體交互時,人體各部位之間的協同關係給挖掘出來,把人的肢體跟肢體間的高階關係進行一個顯式建模。與HICO數據集上的結果相比,該論文實現了 10% 的性能改進(36.1 mAP→39.9 mAP)。文章被ECCV 2018接收。

論文地址://openaccess.thecvf.com/content_ECCV_2018/papers/Haoshu_Fang_Pairwise_Body-Part_Attention_ECCV_2018_paper.pdf
連續發表四篇高峰會一作後,2018年,方浩樹不僅拿到包括UCLA朱松純教授在內的多個北美知名實驗室的博士生offer,還被新華社列為中國第四代人工智慧研究代表進行了專訪。
但方浩樹經過綜合考慮後,還是決定在中國直博,繼續留在盧策吾的團隊。
3

放棄留美

在要不要去美國留學這件事上,方浩樹也有自己的思考。在美國實習期間,異國始終有種疏離感,「呆久了也沒有歸屬感」,同時,他對中國,上海,交大的實驗室的未來十分樂觀。多重因素,最終讓他決定留在中國讀博。
不過,雖然沒有來到朱松純老師門下繼續深造,他的精神卻也一直影響著方浩樹。
令方浩樹印象深刻的是,在UCLA進行暑期實習期間,每次參加組會,朱松純都會與學生強調,現在是AI大一統的發展階段,不要局限在電腦視覺的小領域,而是要把學到的知識應用到大的AI領域。
除了想法遠大而全面,方浩樹也時常想起,有一次,朱松純請幾位暑期實習生吃飯,席間分享了他在中科大讀本科時如何想到做AI、如何一步步到美國從事AI研究的經歷,並提出自己的疑惑:「為什麼這麼多優秀的中國學生來到國外學習,後來學術界慢慢就聽不見他們的聲音了?」朱松純覺得這很可惜。他希望實習生能堅持對學術的追求與探索。
雖然暑期實習僅持續了三個月,但這席談話一直激勵方浩樹,要像朱松純一樣不斷地攀登學術的高峰,用創新去突破學術的上限。
而盧策吾,雖然資歷較輕,但也有自己的學術藍圖。每次做研究前,盧策吾都會先與學生分享一個大的藍圖,指出哪個板塊需要做哪些事情。
「盧策吾老師平時經常會和我們聊一些遠大的研究目標,不局限於技術問題,還有人生感悟、未來藍圖、學科前景等。我感覺他就像一個智者。無論問他什麼問題,他都會有自己的思考,會給你娓娓道來。」方浩樹說道。

圖註:盧策吾(左)與方浩樹(右)
2019年,方浩樹選擇直博到吳文俊人工智慧博士班,並開始在盧策吾的MVIG實驗室進行機器人研究。
從人類行為理解到機器人,跨度非常大。但實際上,方浩樹最早便是對機器人感興趣,只是到了攻讀博士階段,才有了成熟的研究時機。此外,方浩樹也受到了導師盧策吾的影響:
盧老師經常對我說,我們做研究不應該是為了個人的利益得失,而是應該從整個社會出發,從全人類的利益出發去從事科研。
讀博後,除了人類行為理解,方浩樹還從事機器人物體研究。他與團隊成員提出 GraspNet-1Billion 標準數據集。該數據集規模大,標註豐富,並帶有統一評測機器人抓取姿態的框架,著重於複雜場景的抓取姿態檢測,既可以提供大量真實的抓取數據,又能提供真實的視覺感知。
方浩樹認為,與主要做資訊抽取的影像處理或語音識別相比,機器人是主動與世界交互,此時 AI 有「主觀能動性」,能夠主動服務人類,同時,交互的過程也能為理解世界帶來更多的資訊量。因此,方浩樹覺得,「通過機器人,我們更能接觸到AI的本質。」
接下來,方浩樹將專註於研究機器人物體操作,讓機器人能夠通過操作,在一個特定的環境里完成某項任務。他希望機器人可以像人一樣自主學習。比如,看一段人做飯的影片,或者觀察人類做飯,就能將類似的操作復現,自己學會做飯。
這個過程包含感知與控制,前者涉及到姿態估計、語義分割和三維視覺等知識,後者則包含基礎的抓取知識等。因此,方浩樹計劃逐漸將人類行為理解與機器人物體抓取的知識結合起來。但如何表徵知識,將知識引擎和推理系統應用到機器人領域,還是一個困難且充滿挑戰的基礎問題。
我們無法知道方浩樹選擇留美讀博後的學術生涯是什麼模樣。但在盧策吾的團隊中,方浩樹仍繼續突破自我,並攬獲多項大獎。
比如,方浩樹入選 AI 青年科學家聯盟·梧桐匯發起的「A 班計劃」,獲得2019 年度CCF-CV「中科視拓Seeta學術新銳獎」(獲獎學生共3名,其餘2名分別是來自清華大學的饒永銘與易冉),2019年百度獎學金(每年僅評選10人,吳翼、吳佳俊等人也曾獲得該獎項)。

圖註:2019年,方浩樹獲得百度獎學金
2020年,方浩樹又獲得了微軟學者獎學金,入選位元組獎學計劃。
從本科到博士,方浩樹的科研方向都十分清晰。除了歸功於「歷史的進程」,方浩樹認為,自己的運氣也很好,遇到的導師對他的幫助都很大,成長環境也是自由與包容。
雖然本科期間因為專註於自我探索,沒有專心學習,沒有獲得過學業獎學金,但方浩樹按照自己的方式獲得了現在的成就:在找到自己所感興趣的方向後,他幾乎每天都在科研上投入大約10個小時,科研也成了生活的重心。
但方浩樹對自己目前的生活很知足:「我一般不怎麼出去玩,我本身也不喜歡打遊戲之類。而且對我來說,搞科研是一件很快樂的事情。」

4

結語

目前,方浩樹是一名二年級博士在讀生,已發表高峰會論文10篇。
在方浩樹的影響下,妹妹方曉霖也走上了AI科研之路。目前,方曉霖在MIT的CSAIL實驗室攻讀博士學位,師從Leslie Kaelbling與Tomas Lozano-Perez教授,主要研究內容為機器人與電腦視覺。
圖註:妹妹方曉霖
談到父母對子女的培養方式,方浩樹認為,可以概括為「有期望,但沒有約束」。
除了做科研,方浩樹最喜歡的就是做菜。在他看來,做菜與科研都是創造的過程,而方浩樹很喜歡創造帶來的快樂:
「我不太喜歡做重複的事情。我希望不斷嘗試新的方法與技巧,做出新的成果來。」
推薦閱讀

 

由於微信公眾號試行亂序推送,您可能不再能準時收到AI科技評論的推送。為了第一時間收到AI科技評論的報道, 請將「AI科技評論」設為星標帳號,以及常點文末右下角的「在看」。