高文院士:為什麼中國的AI發展必須要有開源開放平台?

  • 2019 年 11 月 12 日
  • 筆記

出品 | AI科技大本營(ID:rgznai100)

10 月 31 日,由北京智源人工智慧研究院主辦的 2019 北京智源大會在國家會議中心開幕,本次大會圍繞人工智慧基礎研究現狀及面臨的機遇和挑戰、人工智慧技術未來發展的核心方向等話題,回歸 AI 技術本身,開展深入研討,切實探索人工智慧前沿科技發展趨勢。

在上午的主論壇上,中國工程院院士、智源研究院學術委員會委員高文介紹了中國在人工智慧領域的 4 大優勢和 4 個短板,並分享了如何通過雲腦匯智建設中國的人工智慧開源共享創新平台,夯實新一代人工智慧發展基礎。

以下是高文院士的演講實錄,AI科技大本營(ID:rgznai100)編輯:

我今天跟大家分享的主題是《雲腦匯智:夯實新一代人工智慧發展之基礎》。雲腦匯智是兩件事,這兩件事就是為了讓中國的人工智慧可以發展的更好。

首先講下我們中國如果要發展人工智慧,現在是什麼態勢,以及如果裡面有短板,我們應該怎麼應對。針對這兩個問題,我們準備布局兩件事:第一件事是雲腦,第二件事是匯智。

人工智慧發展態勢與應對策略

去年10月31日,政治局集體學習了關於中國怎麼發展人工智慧的詳細布局,布局中特別提到了要加快建立新一代人工智慧關鍵共性技術體系,在短板上進行布局。

所以我們就按照這個布局去考慮,到底短板應該怎麼補?長期怎麼布局?國家科技部在新一代人工智慧發展規劃方面,已經按照2020年、2025年和2030年有了一個很好的前瞻性考慮,希望2020年中國的人工智慧能夠和世界同步,2025年其中有一部分能夠達到比較領先的水平,2030年希望總體上能夠走在前面。

基本的原則是分了四步:一是要科技引領,二是系統布局,三是市場主導,四是開源開放。開源開放在國家整體新一代的人工智慧發展規劃里占非常重要的位置。

在這個總體布局裡,最核心的是新一代人工智慧的重大科技項目。到現在為止,一共啟動了兩個「發動機」,近期可能很快會啟動類腦計算和量子計算。總體來說,我們國家在重大計劃布局方面已經有非常詳細的布局。

科技創新2030年重大項目外層包的是國家重大研發計劃,這個也是科技部在具體布局,布局的人工智慧系的東西更多了,包括智慧城市、智慧健康、智慧農業、智慧交通等等。再外面是大眾的創新、創業行動,這個規劃裡面包括眾創空間、孵化器,這是科技部指導下各個地方在推動,各個部也在做。所以國家在人工智慧整體規劃有一個非常完整的布局。

在這個布局裡面,其實各個計劃之間是有關聯的。比如說在平台上,不管是知識平台,還是社交平台、開源軟體平台,這些都是有很多共性在共同推進的。另外是涉及到在具體應用中的開源硬體、眾創空間等等,都有很多交叉合作要做。

具體在新一代人工智慧重大科技計劃裡面,最底下的是一系列基礎理論,包括感知、推理、博弈、知識學習、因果推斷、協同控制、群智湧現等等,這些最底層的基礎理論的布局。

在基礎理論上面是一些支撐體系,包括軟硬體的基礎平台,硬體方面包括智慧晶片、智慧軟體,軟體包括智慧作業系統等等。支撐體系再上面是核心技術或關鍵技術,再上面就是一些應用創新。

作為保障,左邊是法律法規、安全倫理,右邊是技術標準、安全評測。這是整體的2030所需要做的。

在整個新一代人工智慧布局裡面,從國家的角度這是雙輪驅動的布局,既有左面的基礎研究,右邊其實是重大應用需求的布局。

中國在發展人工智慧方面的優勢和短板

既然有了布局,那麼我們的長項在哪裡?短板在哪裡?

其實中國在人工智慧方面有四個優勢:

第一,政策優勢。所謂政策優勢就是因為國家對這個特別重視,從黨中央、國務院都有布局,包括科技部、發改委、工信部的部委都有相關的一些規劃。到各個地方像北京市、上海市、廣東省等等,都有一系列的配套,所以我們有政策的優勢。

第二,數據優勢。中國的數據量是最大的,不管是互聯網的數據,旅遊的數據,老百姓看病的醫療數據,都是全世界規模最大的。有了這些數據,做人工智慧就有米下鍋了。

第三,應用場景優勢。聽起來好像全世界的應用場景都是一樣的,其實不是!人工智慧要想用,它要有強烈的需求,這個應用場景才能起來。像美國、歐洲很多東西已經都經過了幾十年、上百年的發展,政府、管理各個方面都已經就位了。如果要應用人工智慧,有一些人的工作要丟了,其實要平衡起來還是比較棘手的。但是中國是發展中國家,前些年好多基礎都沒有到位,這個時候人工智慧嵌進去馬上就會發揮作用,又不會讓很多人下崗,至少技術設施方面的不會下崗。所以中國人工智慧應用場景比任何一個地方都豐富。

第四,青年人多。中國本來人口就多,大學現在的毛入學率已經達到40%了,而且中國人比較重視工科,所以大學生裡面學工科的人很多。學工科的裡面,現在又是人工智慧最熱。後面我們人才的供應會非常充足,而且他們成長的速度也很快。現在不管是在國際上最頂級的人工智慧國際會議,還是最頂級的國際雜誌,投稿人、參會人差不多一半是中國年輕人,所以這是我們最大的優勢之一。

但是我們也有四個短板:

第一,基礎理論和原創演算法方面差距還是比較大。一是因為我們起步晚,另外前些年的科研評估體系使得大家都追熱風,很難在一件事上做二三十年、三四十年,能坐冷板凳的人比較少,所以基礎理論方面還是有比較大的差距。

第二,在高端器件方面有差距。不管是GPU、FPGA,還是高端感測器等等,特別是和模擬、射頻有關方面的感測器都是我們的弱項。

第三,開源開放平台有差距。現在做人工智慧基本上都用開源開放平台,在開源的基礎上快速搭建一個系統就可以做應用了。但是現在大家用的比較多的都是Google、Facebook、亞馬遜、微軟、或者IBM的。排在前六名的開源開放平台都是國外的大企業。中國儘管有很多互聯網巨頭都在開始這方面的工作,像百度等等都在推開源開放平台,但是從市場影響力和規模來講,還沒有那麼大。

第四,高端人才不足。與美國的人工智慧高端人才數量相比,我們大概只有他們的20%左右。

雲腦:建設新一代人工智慧開源開放共享平台

既然存在這四個短板,我們怎麼辦?我們要補什麼?智源研究院就在補基礎研究和高端人才不足的短板,這是非常好的舉措,除此以外還有什麼好做的?

我今天說的其實就是要解決開源開放平台的短板。當然我們可以什麼都不管,完全市場化讓企業去做。像科技部去年布了5個開放平台,今年又布了10個,一共15個平台。剛才李部長在致辭裡面已經提到了。我們可以讓15個慢慢做、慢慢長,行不行呢?要我來說,那是一步棋,我們還必須有另外的棋。做任何事都要有兩個方案,要有一個備份方案,所以還要有一個方案。開源開放平台的短板我們要不要一起來補?

除了開源開放平台以外,現在還有一個很大的事,就是現在大家做的開源開放的源程式放在哪兒?像Google、微軟、Facebook的源程式是放在GitHub,如果全放在GitHub上行不行?GitHub原來是基金會管理下的託管平台,後來被微軟收購了,所以現在是微軟下面的託管平台。

但是按照法律,這個平台的母公司微軟公司是註冊在美國的,按照美國法律,GitHub要受美國法律的管轄,所以美國政府讓它幹什麼、不讓幹什麼,它要乖乖服從。這對於中國用戶來講,如果你將來所有做的東西都是放在GitHub上面,萬一有一天GitHub不讓某些企業用,不讓某些大學用,甚至不讓某些群體用,人工智慧就變成是沒根了,就是懸在半空中了。那有沒有一個辦法去找到一個高效的、風險可控的託管平台。

我們的應對策略就是這兩件事,第一件事是開源開放平台怎麼辦?是不是就讓企業做,還是我們來做點什麼?

我的想法是要通過雲腦來建設新一代開源共享創新平台,現在我們的想法是做硬體和做軟體。硬體怎麼做?現在已經有15家企業的開放創新平台,這是科技部布局的。我們要做的是在下面再做一個更廣泛的平台。

為了做這個平台,去年我們在科技部下面成立了一個新一代人工智慧產業創新聯盟,現在名譽理事長是潘雲鶴院士,我是理事長,黃鐵軍是秘書長,還有一些聯合秘書長。這個產業技術聯盟希望能構造一個很好的開源開放生態,生態裡面包括硬體生態、軟體生態和應用生態。配合生態,我們也布局了一些活動,比如有開源軟體的活動,也有比賽。

軟體怎麼辦?其實我們啟動了啟智平台治理體系。啟智平台目前有很多核心成員,包括深圳的鵬城實驗室、北京智源人工智慧研究院、北京大學、國防科技大學、華為、百度、商湯、京東等等。同時還有不同領域的社區,既有最底下的基礎設施、硬體和上面的演算法框架的布局,在孵化方面也有生態的布局。

這樣一個整體的創新布局。我們先看看硬體怎麼辦,現在深圳鵬城實驗室牽頭推出鵬城雲腦,準備做開源硬體。鵬城雲腦一期是100P操作的大型集群系統,既有NVIDIA 的GPU,也有華為、寒武紀的人工智慧晶片等構成的伺服器。明年大概就會建成1000P的一台機器,這台機器建成了以後,全國做科研的,不管是高校的、研究所,甚至中小微創新創業的,都可以用來做訓練。

在GPU伺服器上面會有開源框架,比如啟智章魚、聯邦學習工具、數據標註,還有一些和模型、介面有關的東西。而且這個是採用開放共享的機制,剛才說的算力、軟體都可以分享。

現在雲腦的使命是要聯合全國所有願意開源資源的群體一起做,我們通過分散式的資源調動管理系統,把所有的伺服器資源調動管理起來,讓它可以為人工智慧各行各業的賦能工作。

現在我們已經找了一些例子,可以在剛才說的軟硬體平台上去做,比如說做人工智慧基準測試,看看哪一個機器學習的框架平台效率更高。另外靈長類動作大腦的模擬建模和類腦計算,冷凍電鏡構像分析研究,利用自然語言模型的蛋白質序列的分析,智慧交通、智慧健康、智慧醫療、智慧金融等等,都可以在這個平台上做。

這是我們關於雲腦的對策,希望能做人工智慧開源開放共享創新平台,提供給中國做人工智慧研究和人工智慧創業的人來使用。

匯智:建設風險可控的人工智慧程式碼託管平台

第三個要做開源程式碼託管平台。剛才的那些東西都說好了,但是大家做的源程式碼貢獻放到哪裡去,是不是仍然放到GitHub?當然沒有問題。但是放到GitHub上基本上有兩個問題是需要我們考慮的。有朋友告訴我,從中國訪問的工程師佔GitHub整體訪問人數的36%左右,就是1/3,但是不到一半。中國的工程師用GitHub的非常多,但是中國的工程師給GitHub做貢獻的不到6%,大概5%左右。也就是說很多人其實只是去拿東西,沒有做貢獻。為什麼?有兩種可能性:

第一種可能性是本來他就是要拿東西的,也沒有想要做貢獻。

第二種可能性是因為你要做貢獻,你要寫很多文檔,而且要用英文。好多工程師的英文不是第一語言,寫文檔還有障礙,如果用中文寫文檔或者用中文討論問題就簡單了,所以我們要建設一個高效的託管平台。首先上面用的語言可以是中文,這樣討論就比較方便。

而且萬一有一天GitHub不讓你訪問,不是不讓所有的中國人訪問,比如說不讓國防科技大學的人訪問,國防科技大學的人工智慧就做不了了,因此這個託管平台應該放在中國境內。這樣中國所有做人工智慧的人,不管是大學的,還是企業的,都可以用。

這個問題我們能不能解決?能解決!怎麼解決呢?就是在中國搞一個託管平台。

這個託管平台我們已經發起了,叫匯智,彙集大家的智慧。匯智的託管平台已經於今年的7月18日在深圳上線。當然目前這個伺服器也不是放在實驗室的伺服器上,而是放在公有雲上。但是公有雲給我們提供服務,我們花錢在公有雲上開一個平台,大家就可以到那兒去訪問。

現在上邊放的是什麼東西呢?剛才我說的像OpenI等等,現在有一大堆人工智慧框架的東西已經都上線了。

除了這個以外,我們還鼓勵人工智慧、RISC-V等開源項目和程式碼。當然我們不排他,這個託管平台不僅有自己的東西,我們還可以做GitHub在中國的鏡像,甚至其他的一些開源程式碼在中國的鏡像,我們都可以做。通過這樣的託管平台,大家可以不用擔心,打雷下雨照樣可以種自己的自留地。

這上面到現在為止已經有300多個項目,電腦視覺是比例最高的,其次像深度學習、自然語言處理等等。現在我們不僅僅自己的東西往上加,也在進行公開徵集。你有任何好的東西,你願意建設區都可以到這個平台上來。

因為你要弄一個託管平台是要花錢的,現在鵬城實驗室先拿一筆錢來建。將來如果有合適的單位或者合適的企業,大家一起加盟成立一個基金會,我們很願意把託管平台交給基金會去管,這樣它的運營就可以上軌道了。

當然基金會一定是公益的,不能太市場化了,不能太追求商業利益了,一定要推動人工智慧發展的託管平台。基本上雲腦、匯智就是這樣的構思。

總結

總結一下,開源軟體是人類智慧的有效傳承方式,做人工智慧必須要做開源,中國要想發展好新一代的人工智慧,必須要有高效和風險可控的開源開放平台。我們現在做了兩個嘗試,第一是做了雲腦,希望它能在軟體和硬體方面提供開放的共享創新平台。第二是匯智,提供一個程式碼託管平台,希望這個平台能夠高效、風險可控,為中國的人工智慧發展夯實基石。

(*本文為 AI科技大本營原創文章,轉載請微信聯繫 1092722531)