AI晶片發展的前世今生
- 2020 年 2 月 20 日
- 筆記

作者 | 任 源、潘 俊、劉京京、何燕冬、何 進
來源 | 《微納電子與智慧製造》期刊
現代電子產品和設備在諸如通訊 、娛樂 、安全和 醫療保健等許多方面改善了我們的生活品質 ,這主要是因為現代微電子技術的發展極大地改變了人們的日常工作和互動方式。在過去幾十年中 ,摩爾定 律一直是通過不斷縮小晶片上的器件特徵尺寸來提高計算能力 ,帶來了電子產品諸如更高速度 、更低成本和更小功耗等優勢。Gordon Moore 最初的觀察是 晶片中的電晶體數量大約每 2 年增加 1 倍 ,David House 進一步預測 ,由於更多更快的電晶體 ,晶片性能將每 18 個月翻一番。雖然 Gordon Moore 的預測已經成功超過 50 年 ,但是今天的硅 CMOS 技術正在 接近其尺寸的基本物理極限,摩爾定律的延續性已經變得越來越具有挑戰性。
這意味著電子產品和設 備的性能增益不再僅僅依賴於器件特徵尺寸的縮 小 ,人們有必要發明新的 IT 技術或新的計算原理 ,以 滿足應用對計算能力和低功耗等方面不斷增長的需求 ,而人工智慧的出現為突破這種局限性提供了無 限可能。人工智慧(artificial intelligence,AI)指由人製造出來的機器來呈現人類智慧的技術 ,而人工智 能晶片指能夠運行人工智慧技術和相關演算法的半導體晶片。本文將對人工智慧晶片的研究進展及市場發展進行介紹 。

人工智慧晶片的發展
據了解 ,人工智慧(AI)技術的發展和應用在美 國 、中國和歐盟等世界主要國家中已經成為國家戰 略 ,在國家的科技發展和產業競爭中佔據越來越重要的位置。同時,AI技術在手寫識別(例如MNIST數據集[1] )、人臉識別(例如 Facebook 的 DeepFace [2] )、 語音識別(例如亞馬遜的 Alexa [3] 、Apple 的 Siri [4] 、微 軟的Cortana [5])、機器人技術(例如機器人操作系 統[6])、自動駕駛(例如Tartan Racing[7]),甚至智力游 戲(例如 Google 的 AlphaGo [8] )和影片遊戲(例如 Pac- mAnt [9] )等領域得到了廣泛應用。隨著人工智慧的 發展 ,產生了更多的專業技術 ,比如神經網路模型 、 機器學習等 ,依靠經驗學習而不是編程來做出決 策。反過來 ,機器學習為深度學習奠定了基礎 ,深度 學習涉及分層演算法 ,以便更好地理解數據 。
自 20 世紀 50 年代開始 ,人類對人工智慧技術的 探索從來就沒有停止過 。「人工智慧」一詞是由科學 家約翰 · 麥卡錫(John McCarthy)、克勞德 · 香農(Claude Shannon)和馬文·明斯基(Marvin Minsky)於1956 年在達特茅斯會議上提出的 ,從此揭開人工智 能研究的序幕。1962 年 Rosenblatt 出版《神經動力學 原理》及其 1957 年設計的模擬計算器 ,被視作深度神 經網路模型的演算法原型。1969 年 ,Minsky 與 Papert出版《感知器》,指出單層神經網路訓練出來的影像 識別演算法連對稱圖形都無法正確識別。
對於多層神經網路 ,由於人造神經元的運算極限嚴重受限於當 時電腦的算力不足 ,導致多層神經網路也無法被 當時和後來的電腦的晶片運算效能實現 ,這造成了人工神經網路領域在 1970 年代的寒冬時期。
1982年,日本開始第五代電腦項目研究計劃,同時美國 也投入不少資源在第五代電腦的研發中 ,但最終 依然無法解決影像和音訊識別的重大問題。1985年 ,Hinton 與 Sejnowski 發表了之前被視為不可能實 現的基於玻爾茲曼機的「多層神經網路」,1986 年, Rumelhart和Hinton發表「BP反向傳播演算法」,1989年 ,貝爾實驗室成功利用反向傳播演算法 ,在多層神經 網路開發了一個手寫郵編識別器。同年,Mead 出版Analog VLSI and Neural Systems ,開創了基於仿生芯 片的神經形態工程領域。
1993 年,Yann Le Cun 的團 隊使用 DSP 在一台 486 電腦上實現深度學習演算法 ,其 作為推理晶片,已可辨識手寫的數字。至此 ,通用芯 片 CPU 的算力大幅提升 ,但仍無法滿足多層神經網路的計算能力需求。1994 年 ,Michael Gschwind 等使 用 FPGAs 實現神經網路的演算法應用,1998 年 ,Yann Le Cun 和 Yoshua Bengio 發表了手寫識別神經網路和 反向傳播優化相關的論文「Gradient-based learning applied to document recognition」,開創了卷積神經網 絡時代的到來。
2006 年 ,Hinton 提出受限玻爾茲曼 機模型與深度信念網路 ,成功地訓練多層神經網路 , 解決了反向傳播演算法局部最佳解問題 ,並把多層類 神經網路稱作「深度學習」,首次證明了大規模深度 神經網路學習的可能性。2007 年 ,NVIDIA 開發出統 一計算架構(CUDA),研究人員透過 CUDA 可以輕 松使用 C 語言開發 GPU ,使得 GPU 具有方便的編程 環境可以直接編寫程式。2008 年 ,NVIDIA 推出 Tegra晶片 ,作為最早的可用於人工智慧領域的 GPU ,如今 已成為NVIDIA 最重要的 AI 晶片之一 ,主要用於智慧 駕駛領域。2009 年 ,Rajat Raina 和吳恩達聯合發表 利用 GPU 完成深度學習訓練的論文「Large-scale Deep Unsupervised Learning Using Graphic Processors」。2010 年 ,IBM 首次發布類腦晶片原型模 擬大腦結構 ,該原型具有感知認知能力和大規模並 行計算能力。
2012 年 ,Krizhevsky 與 Hinton 的團隊 採用 GPU 架構結合卷積神經網路(CNN)演算法 ,在ImageNet 大賽中 ,將影像識別錯誤率降到 18% ,並在NIPS 會議上發表影像識別論文「Image Net Classification with Deep Convolutional NeuralNetworks」。這一突破性的成果 ,讓人們第一次驚喜 地看到神經網路的算力需求可被現行計算設備滿足。不過,這一成果也有它的美中不足:他們使用的GPU 架構晶片並非針對神經網路架構設計 ,其中包 含許多運行神經網路時不需要的架構設計 ,因此效率提升有限。就在同一年 ,Google Brain 用 1.6 萬個GPU 核的並行計算平台訓練 DNN 模型 ,在語音和圖 像識別等領域獲得巨大成功 ,2013 年 GPU 開始廣泛 應用於人工智慧領域 ,高通公司發布 Zeroth。2014年,中國科學研究院的陳天石博士(寒武紀創辦人) 團隊發表以 DianNao [10] 為名的人工智慧專用加速晶片 系 列 論 文( 包 含 DaDianNao [11] 、PuDianNao [12] 、ShiDianNao [13] 、Cambricon-X),開啟人工智慧加速專 用晶片(ASIC)的研究領域。也在同年 ,NVIDIA 發布 首個為深度學習設計的 GPU 架構 Pascal,IBM 發布第二代 TrueNorth。
2015 年 ,Jason Cong 在當年的國 際FPGA大會上,發表1篇FPGA加速DNN演算法的論文「Optimizing FPGA- based Accelerator Design for Deep Convolutional Neural Networks」,使得 FPGAs 迅 速大火。很快地 ,2016 年 ,Google 發表 TensorFlow 框 架設計的 TPU 晶片 ,而同年 ,採用 TPU 架構的AlphaGo 出現 ,並擊敗人類世界冠軍棋士李世石。還 是在同年 ,寒武紀研發出 DIANNAO,FPGA 晶片在 雲計算平台得到廣泛應用。僅僅在 2017 年 ,GoogleTPU 2.0發布,加強了訓練效能[14];NVIDIA 發布Volta架構,推進GPU的效能大幅提升;華為麒麟970成為 首個手機 AI 晶片;清華大學魏少軍教授團隊開發出Thinker 原型 ,並隨後推出在算力和能效方面具有國 際水平的系列 Thinker 人工智慧晶片 。

人工智慧晶片的分類
2.1 傳統CPU困局
自20個世紀60年代早期開始,CPU(中央處理器)開始出現並使用在電腦工業中。現如今,雖然CPU 在設計和實現上都發生了巨大變化 ,但是基於 馮 · 諾依曼架構的 CPU 基本工作原理卻一直沒有發 生很大變化。如圖 1 所示 ,馮 · 諾依曼架構分為中央 處理單元(CPU)和存儲器,CPU主要由控制器和運 算器兩大部件組成[15]。在工作時 ,CPU 每執行一條指令都需要從存儲器中讀取數據 ,根據指令對數據 進行相應的操作,因此CPU不僅負責數據運算,而且 需要執行存儲讀取 、指令分析 、分支跳轉等命令。同 時可以通過提升單位時間內執行指令的條數 ,即主 頻 ,來提升計算速度。但在人工智慧深度學習領域 中程式指令相對較少 ,但對大數據的計算需求很大 , 需要進行海量的數據處理。當用 CPU 執行 AI 演算法 時 ,CPU 將花費大量的時間在數據/指令的讀取分析 上 ,在一定的功耗前提下 ,不能夠通過無限制的加快CPU 頻率和記憶體頻寬來達到指令執行速度無限制的 提升。因此在這種情形下 ,傳統 CPU 結構缺點明顯 , 在人工智慧晶片領域中的算力瓶頸問題很難解決 。

2.2 人工智慧晶片中的後CPU時代
基於 CPU 的算力問題 ,近年來人工智慧晶片領域的科學家們進行了富有成果的廣泛研究 ,主要集 中在 AI 晶片目前的兩種發展方向。一個方向是繼 續延續經典的馮 · 諾依曼計算架構 ,以加速計算能力 為發展目標,主要分為並行加速計算的GPU(圖形處 理單元)、半訂製化的 FPGA(現場可編程門陣列)、全 訂製化的 ASIC(專用積體電路)。另一個方向就是 顛覆傳統的馮 · 諾依曼計算架構 ,採用基於類腦神經 結構的神經擬態晶片來解決算力問題。下面將對這 兩個方向的人工智慧晶片特點進行詳細描述。
2.2.1 按架構分類
(1)圖 形 處 理 單 元(graphics processing unit ,GPU)。GPU 是相對較早的加速計算處理器 ,具 有速度快、晶片編程靈活簡單等特點。由於傳統CPU 的計算指令遵循串列執行方式 ,不能發揮出晶片的全部潛力 ,而 GPU 具有高並行結構 ,在處理圖形 數據和複雜演算法方面擁有比 CPU 更高的效率。在結 構上 ,CPU 主要由控制器和暫存器組成 ,而 GPU 則擁 有更多的邏輯運算單元(arithmetic logic unit,ALU) 用於數據處理,這樣的結構更適合對密集型數據進 行並行處理 ,程式在 GPU 系統上的運行速度相較於 單核 CPU 往往提升幾十倍乃至上千倍。同時 ,GPU擁有了更加強大的浮點運算能力 ,可以緩解深度學 習演算法的訓練難題,釋放人工智慧的潛能。但是GPU 也有一定的局限性。深度學習演算法分為訓練和 推斷兩部分 ,GPU 平台在演算法訓練上非常高效。但 在推斷中對於單項輸入進行處理的時候 ,並行計算 的優勢不能完全發揮出來 。
(2)現場可編程門陣列(field programmable gate array ,FPGA )。FPGA 是 在 PAL 、GAL 、CPLD 等 可 編 程器件基礎上進一步發展的產物。其基本原理是在FPGA 晶片內集成大量的基本閘電路以及存儲器 ,用 戶可以通過更新FPGA配置文件(即燒入)來定義這 些閘電路以及存儲器之間的連線。這種燒入不是一 次性的,因此,它既解決了訂製電路靈活性的不足, 又克服了原有可編程器件閘電路數有限的缺點。與GPU 不同 ,FPGA 同時擁有進行數據並行和任務並行 計算的能力 ,適用於以硬體流水線方式處理一條數 據 ,且整數運算性能更高 ,因此常用於深度學習演算法 中的推斷階段。不過 FPGA 通過硬體的配置實現軟 件演算法 ,因此在實現複雜演算法方面有一定的難度 。
將FPGA和CPU對比可以發現兩個特點,一是FPGA沒有記憶體和控制所帶來的存儲和讀取部分,速度更快,二是FPGA沒有讀取指令操作,所以功耗更低。劣勢是價格比較高,編程複雜,整體運算能力不是很高。功耗方面 ,從體系結構而言 ,FPGA 也具有天生 的優勢。傳統的馮氏結構中,執行單元(如CPU核) 執行任意指令,都需要有指令存儲器 、解碼器 、各種 指令的運算器及分支跳轉處理邏輯參與運行,而FPGA每個邏輯單元的功能在重編程(即燒入)時就已經確定 ,不需要指令,無需共享記憶體 ,從而可以極 大地降低單位執行的功耗 ,提高整體的能耗比。FPGA最值得注意的例子可能是 CNP [16] ,它進一步改 進並重命名為 NeuFlow [17] ,後來改編為 nn-X [18]。這些設計可以實現 10~100 KM/s 操作(GOPS),功率僅 為10W以下。
(3)專用積體電路(application-specific integrated circuit,ASIC)。目前以深度學習為代表的人工智慧 計算需求,主要採用GPU、FPGA等已有的適合併行 計算的通用晶片來實現加速。在產業應用沒有大規 模興起之時 ,使用這類 GPU 、FPGA 已有的通用晶片 可以避免專門研發訂製晶片( ASIC )的高投入和高風 險。但是,由於這類通用晶片設計初衷並非專門針 對深度學習 ,因而天然存在性能 、功耗等方面的局限 性。隨著人工智慧應用規模的擴大 ,這類問題日益 突顯。
GPU 作為影像處理器 ,設計初衷是為了應對影像 處理中的大規模並行計算。因此 ,在應用於深度學習 演算法時無法充分發揮並行計算優勢。深度學習包含 訓練和推斷兩個計算環節 ,GPU 在深度學習演算法訓練 上非常高效 ,但對於單一輸入進行推斷的場合 ,並行 度的優勢不能完全發揮。其次,GPU採用SIMT計算 模式 ,硬體結構相對固定 ,無法靈活配置硬體結構 。此外,運行深度學習演算法能效低於FPGA。
雖然 FPGA 倍受看好 ,但其畢竟不是專門為了適 用深度學習演算法而研發 ,實際應用中為了實現可重 構特性 ,FPGA 內部有大量極細粒度的基本單元 ,但 是每個單元的計算能力都遠低於 CPU 和 GPU 中的ALU 模組;其次 ,為實現可重構特性 ,FPGA 內部大 量資源被用於可配置的片上路由與連線 ,因此計算 資源佔比相對較低;再者,速度和功耗相對專用訂製 晶片(ASIC)仍然存在不小差距;而且FPGA價格較 為昂貴,在規模放量的情況下單塊FPGA的成本要遠 高於專用訂製晶片。
因此 ,隨著人工智慧演算法和應用技術的日益發 展,以及人工智慧專用晶片ASIC產業環境的逐漸成 熟 ,全訂製化人工智慧 ASIC 也逐步體現出自身的優 勢。ASIC是專用訂製晶片,訂製的特性有助於提高ASIC 的性能功耗比 ,缺點是電路設計需要訂製 ,相 對開發周期長 ,功能難以擴展。但在功耗 、可靠性 、 集成度等方面都有優勢 ,尤其在要求高性能 、低功耗 的移動應用端體現明顯。比如Google的 TPU、寒武紀 的 GPU ,地平線的 BPU 都屬於 ASIC 晶片 。
(4)神經擬態晶片(類腦晶片)。在人工智慧晶片中,傳統的馮·諾依曼架構存在著「馮·諾依曼瓶 頸」,它降低了系統的整體效率和性能[19]。為了從 根本上克服這個問題 ,神經形態計算近年來已成為 基於馮 · 諾依曼系統的這些傳統計算架構的最有吸 引力的替代方案。術語「神經形態計算」首先由Mead[20] 在 1990 年提出 ,它是一種受大腦認知功能 啟發的新計算範式。與傳統的 CPU / GPU 不同 ,生 物腦(例如哺乳動物的大腦)能夠以高效率和低功 耗在小區域中並行處理大量資訊。因此 ,神經形態 計算的最終目標是開發神經形態硬體加速器 ,模擬 高效生物資訊處理,以彌合網路和真實大腦之間的 效率差距[21] ,這被認為是下一代人工智慧的主要驅 動力。
神經擬態晶片不採用經典的馮 · 諾依曼架構 ,而 是基於神經形態架構設計 ,是模擬生物神經網路的 電腦制 ,如果將神經元和突觸權重視為大腦的「處 理器」和「記憶」,它們會分布在整個神經皮層[22]。神 經擬態計算從結構層面去逼近大腦 ,其研究工作可 分為兩個層次 ,一是神經網路層面,與之相應的是神 經擬態架構和處理器 ,以 IBM Truenorth 為代表 ,這 種晶片把訂製化的數字處理內核當作神經元 ,把記憶體作為突觸。
其邏輯結構與傳統馮·諾依曼結構不同:記憶體、CPU和通訊部件完全集成在一起,因此信 息的處理在本地進行 ,克服了傳統電腦記憶體與CPU 之間的速度瓶頸問題。同時神經元之間可以方 便快捷地相互溝通 ,只要接收到其他神經元發過來 的脈衝(動作電位),這些神經元就會同時做動作;二 是神經元與神經突觸層面 ,與之相應的是元器件層 面的創新。如 IBM 蘇黎世研究中心宣布製造出世界 上首個人造納米尺度的隨機相變神經元,可實現高 速無監督學習 。
當前 ,最先進的神經擬態晶片仍然遠離人類大 腦的規模(1010個神經元,每個神經元有103~104個突 觸),至多達到104 倍,如表1所示。為了達到在人腦 中規模,應將多個神經擬態晶片集成在電路板或背 板上 ,以構成超大規模計算系統。神經擬態晶片的 設計目的不再僅僅局限於加速深度學習演算法 ,而是 在晶片基本結構甚至器件層面上改變設計 ,希望能 夠開發出新的類腦電腦體系結構,比如採用憶阻 器和 ReRAM 等新器件來提高存儲密度。這類晶片 技術尚未完全成熟 ,離大規模應用還有很長的距離 , 但是長期來看類腦晶片有可能會帶來電腦體系結構的革命 。

2.2.2 按功能分類
根據機器學習演算法步驟 ,可分為訓練(training)和推斷( inference )兩個環節 。訓練環節通常需要通過大量的數據輸入,訓練出一個複雜的深度神經網路模型。訓練過程由於涉 及海量的訓練數據和複雜的深度神經網路結構 ,運 算量巨大 ,需要龐大的計算規模 ,對於處理器的計算 能力 、精度 、可擴展性等性能要求很高。目前市場上通常使用NVIDIA 的 GPU 集群來完成 ,Google 的TPU2.0/3.0 也支援訓練環節的深度網路加速 。
推斷環節是指利用訓練好的模型 ,使用新的數 據去「推斷」出各種結論。這個環節的計算量相對訓 練環節少很多 ,但仍然會涉及到大量的矩陣運算 。在推斷環節中 ,除了使用 CPU 或 GPU 進行運算外 ,FPGA 以及 ASIC 均能發揮重大作用。表 2 是 4 種技 術架構的晶片在人工智慧系統開發上的對比 。

2.2.3 按應用場景分類
主要分為用於伺服器端(雲端)和用於移動端( 終 端 )兩 大 類 。
伺服器端:在深度學習的訓練階段 ,由於數據量及運算量巨大 ,單一處理器幾乎不可能獨立完成 1 個 模型的訓練過程 ,因此 ,負責 AI 演算法的晶片採用的是 高性能計算的技術路線 ,一方面要支援儘可能多的網 絡結構以保證演算法的正確率和泛化能力;另一方面必 須支援浮點數運算;而且為了能夠提升性能必須支援 陣列式結構(即可以把多塊晶片組成一個計算陣列以 加速運算)。在推斷階段,由於訓練出來的深度神經 網路模型仍非常複雜 ,推斷過程仍然屬於計算密集型 和存儲密集型 ,可以選擇部署在伺服器端 。
移 動 端( 手 機 、智 能 家 居 、無 人 車 等 ):移 動 端 AI晶片在設計思路上與伺服器端 AI 晶片有著本質的 區別。首先,必須保證很高的計算能效;其次,在高 級輔助駕駛 ADAS 等設備對實時性要求很高的場 合 ,推斷過程必須在設備本身完成 ,因此要求移動端 設備具備足夠的推斷能力。而某些場合還會有低功 耗 、低延遲 、低成本的要求 ,從而導致移動端的 AI 芯 片多種多樣 。

人工智慧晶片研究現狀
3.1 研究背景
人工智慧晶片的核心為神經網路演算法的實現。深度神經網路(DNN)已經在自然語言處理、機器視覺、語音識別、醫學影像分析等眾多人工智慧領域取 得了重大突破[28-29]。深度學習主要分為傳統卷積神 經 網 絡( CNN )和 遞 歸 神 經 網 絡( RNN ),其 依 賴 於 大 數據集的反覆訓練和大量浮點運算推理運算 ,這對 電腦算力要求較高 ,訓練時間長 ,功耗極大。以Alpha Go 為例 ,其基於 1 920 個中央處理單元和 280個圖形處理單元 ,功耗為 1 MW ,這幾乎是人腦能耗(~20 W)的5萬倍。近年來,人工智慧被視為有極大的潛力應用於物聯網和邊緣計算領域中 ,因此需要具備高能效、快速預測 ,在線學習的能力,以避免向後端或伺服器發送大量的數據[30-32]。
人工智慧演算法、架構 、電路 、器件等各個層面得到了很大的改進和優化 ,以減少推理的能量消耗 ,同時保持分類精度等性能指標[30,32-34]。通過訂製 ASIC 設計實現節能推理硬體加速器的工作已經實現了相當高的能效(1 TFlops/W),但基於反向傳播的深度學習演算法需要頻繁地從遠程傳播誤差訊號 ,因此很難實現有效的在線學習。由於能量效率低下和缺乏有效的在線學習方法 ,以 CNN 和 RNN 為代表的許多深度學習演算法不適合以事件驅動和對能效要求極高的新興人工智慧應用,例如物聯網智慧感測器和邊緣計算等[31-32,35] 。
在此背景下 ,人工智慧領域科學家提出脈衝神經網路(SNN),其被譽為第三代人工神經網路 。
SNN 在神經元模型之間使用時序脈衝序列來表示 、傳輸和處理資訊 ,來保證了更快的在線學習和更高的能量效率。相比傳統的人工神經網路(CNN和RNN),SNN 具備了更多獨特的仿腦特性 ,包括資訊的脈衝表示 、事件驅動的資訊處理和基於脈衝的局部學習規則等 ,更加接近於生物神經網路中的學習和記憶機制。因此 ,由於脈衝神經網路其快速的在線學習 、極高的能量效率 、與人腦的高度相似性 ,近年來是人工智慧科學領域極具科學意義的研究課題[36-37] 。
3.2 研究現狀
近年來 ,世界上著名的學術研究機構和國際半導體公司都在積極研究和開發基於脈衝的神經擬態 電路[38-45]。如表 3 所示 ,基於 SNN 的神經擬態計算硬 件比基於傳統 DNN 的硬體加速器具有更高的能量 效率。大多數最先進的神經擬態計算晶片[39-41 ,44]都是 基於成熟的 CMOS 硅技術對 SNN 進行 ASIC 設計 , 通過 SRAM 等存儲器模擬實現人工突觸 ,並利用關 鍵的數字或模擬電路仿生實現人工神經元。其中 最具有代表性的是 IBM 公司研發的基於 CMOS 多 核架構 TrueNorth 晶片[40] ,當模擬 100 萬個神經元和2億5000萬個突觸時,該晶片僅消耗70mW的功 耗 ,每個突觸事件僅消耗 26 pJ 的極高能量效率 。然而 ,為了模仿生物突觸和神經元的類腦特性 ,電 子突觸和神經元需要高度複雜的 CMOS 電路來實現所需的人工突觸和神經元的功能 ,如圖 2 所示 。
以 IBM 的 TrueNorth 晶片為例 ,它包含 54 億個晶體 管 ,在 28nm 製程下佔據 4.3 cm2 的面積。因此 ,這一 類基於脈衝的神經擬態 CMOS 硬體電路使用大量 的電晶體 ,並導致耗費非常大的晶片面積。加之 , 現有的大多數神經擬態晶片[39-41 ,44] 由於其計算單元 與存儲單元在局部依然是分離的 ,這在用於神經元 的 CMOS 邏輯電路和用於突觸的 SRAM 電路之間 依然存在局部的存儲壁壘問題和能量效率問題 ,所 以實際上還不是真正意義上的非馮 · 諾依曼體系結 構。不過最新的具有三維堆疊能力的非易失性存 儲器(NVM)技術或存內計算技術(in-memory computing )有望解決這一問題 。


另一項由 IBM 開發的基於新型 NVM 技術的脈 沖神經網路功能晶片[42] 證明了在非馮 · 諾依曼體系 結構中使用相變存儲器(PCRAM)這一創新的 NVM技術能夠實現極低的能耗(僅為 0.9 pJ/bit)。由佔據 在交叉點的相變存儲電阻組成了十字交叉整列結 構 ,連同 CMOS 模擬電路一起實現脈衝時序依賴可塑性(STDP)學習規則的突觸可塑性功能和帶泄漏 積分放電(LIF)的神經元功能 ,如圖 3 所示。但是 , 由於預測精度的問題 ,該晶片只能執行簡單的應用 任務 ,完成基本模式的聯想學習。IBM 的基於脈衝 的神經擬態晶片反映了在人工神經元和突觸 ,以及 新興的 NMV 技術的研究領域裡最新的科研進展。

在借鑒國外研究工作的同時 ,中國也大力發展 基於脈衝的神經擬態晶片研究。清華大學團隊提出 一款基於 CMOS 技術的多核架構類腦晶片天機一 號[44] ,實現了支援 LIF 的人工神經元功能。北京大學 團隊提出了一種基於憶阻器陣列的神經擬態芯 片[45] ,實現了簡化的 LIF 功能和簡單的赫伯學習機 制。憶阻器是一種新型的 NVM 器件 ,具有獨特的模 擬特性和可擴展性 ,並且由於其出色的能耗效率和 器件特性 ,可以進一步提高神經擬態晶片的集成規 模和整體效能[46-52] 。
至今基於脈衝的神經擬態晶片的主要研究方 法是通過對生物神經科學中已發現的生物行為特 征進行直接模擬和仿生實現 ,包括演算法建模 、電路 創新 、新型器件技術等各個層面的研究和探索。雖 然基於神經擬態計算演算法的人工智慧晶片技術近 年來已得到很大的發展和進步 ,但是依然難以實現 所有的已知生物學習機制 ,僅通過對 SNN 模型的優 化來達到近似或模仿一些生物現象從而實現一些簡單的學習功能 ,比如路徑規劃和手寫識別。這些簡化的類腦模型包括基於脈衝時序依賴的更新規則的突觸模型和基於確定的線性積分放電動態的神經元模型[40-41] 。

人工智慧晶片產業現狀
4.1 產業現狀評述
AI 晶片是晶片產業和人工智慧產業整合的關鍵 ,特別是 AI 系統晶片。根據 Gartner 的預測數據 , 未來 5 年內全球人工智慧晶片市場規模將呈飆升趨 勢 ,自 2018 年的 42.7 億美元 ,升高至 343 億美元 ,增 長已超過7倍,可見AI晶片市場有較大增長空間,如圖4所示。
對於中國 AI 晶片市場 ,根據中國信通院的數據 報告 ,中國的人工智慧市場規模預計在 2018 年超過300 億人民幣 ,而 2019 年後將超過 500 億人民幣。市 場年度增長率 ,將從 2017 年的 52.8%上升至 2018 年 的 56.3% ,隨後逐年下降 ,在 2020 年降至 42.0%。其中 ,2017 年晶片銷售額占人工智慧市場規模的 22% , 約47.7億人民幣,如圖5所示。

現今 ,中國已有超過 20 家以上的新創 AI 晶片設 計企業 ,融資總額超過 30 億美元。AI 晶片行業生命 周期正處於幼稚期 ,市場增長快 ,至 2022 年將從2018 年的 42.7 億美元 ,發展至 343 億美元 ,但晶片企 業與客戶的合作模式仍在探索中。為了生存 ,行業 逐漸出現上下游整合的趨勢。雲端(含邊緣端)服務 器 、智慧型手機和物聯網終端設備等 3 個場景 ,是目 前 AI 晶片企業的主要落地市場 ,少數企業則是面向 未來的自動駕駛汽車市場。這些市場都具有千萬量 級出貨量或百億美元銷售額等特徵 。
然而 ,中國長期面臨積體電路的進口額大於出口 額的情況 ,根據海關總署的統計 ,如圖 6 所示 ,2018 年 進口總額正式突破 3 000 億美元 ,約達 3 121 億美元 , 同比 2017 年增長了 19.8%。相較之下 ,積體電路的 出口總額在 2018 年時僅 846 億美元 ,尚不到進口額的1/3 ,而同年原油進口額約為 2 400 億美元 ,由此可見,中國極度依賴於國外晶片製造商。目前中國晶片制 造技術尚待提高,但由於半導體的分工模式相當成 熟 ,中國晶片設計企業並不需要擔心晶片生產問題 。

4.2 AI 晶片產業鏈
AI 晶片產業鏈主要分成設計—製造/封測—系統。
(1)上游:主要是晶片設計,按商業模式,可再細分成 3 種:IP 設計 、晶片設計代工和晶片設計。IP設計即設計晶片用的 IP 核(IP core)。
(2)中游:包含兩大類 ,分別是晶圓製造和封裝測試 ,晶圓不僅是在封裝時測試 ,製造後也會有一次 測試 ,封裝後再有一次 。
(3)下游:分成銷售和系統集成(system integration)企業 ,其中提供軟硬體集成解決方案的企業會被歸屬在系統集成商中 ,例如人工智慧解決方 案商。
4.3 AI晶片商業模式
按半導體上游與中游的集成與否 ,市場分成兩種商業模式 。
(1)垂直集成模式:又稱 IDM,歸屬於該模式的企業業務同時包含設計和製造/封測。IDM 模式的 代表企業是英特爾和三星 。
(2)垂直分工模式:採取分工模式的企業僅只專 營一項業務 ,比如NVIDIA 和華為海思僅有晶片設計 , 沒有製造業務,稱作Fabless;而台積電和中芯國際僅 代工製造,不涉及晶片設計 ,稱作Foundry。
4.4 AI晶片設計產業模式
晶片設計的產業模式分為 IP 設計 、晶片設計代工和晶片設計3種。
(1)IP 設計:IP 設計相較於晶片設計是在產業鏈 的更頂層,以IP核授權收費為主。傳統的IP核授權 企業以安謀(Arm)為代表 ,新創的 AI 晶片企業雖然 也可設計出新型 IP 核 ,但因授權模式不易以規模效 應創造出可觀的收入 ,新創企業一般不以此作為主 要盈利模式。另外還有提供自動化設計(EDA tool) 和晶片設計驗證工具的 Cadence 和 Synopsys ,也在積 極部署人工智慧專用晶片領域。
(2)晶片設計代工:晶片設計代工和製造業的代 工一樣 ,提供設計代工服務的企業 ,並不能在產品上 貼上自己的標籤 ,也不能對外宣稱該產品由自己設 計。芯原科技已經從事相關服務多年 ,也和恩智浦( NXP )有合作關係 。
(3)晶片設計:大部分的人工智慧新創企業是以晶片設計為主 ,但在這個領域中存在傳統強敵 ,如英 偉 達 、英 特 爾 、賽 靈 思( Xilinx )和 恩 智 浦 ,因 而 目 前 只 有少數新創 AI 晶片設計企業會進入傳統晶片企業 的產品領域 ,例如 ,寒武紀與NVIDIA 競爭伺服器晶片 市場 ,地平線與NVIDIA 及恩智浦競爭自動駕駛晶片 市場,其餘企業則是在物聯網場景上布局,像是提供語音辨識晶片的雲知聲 ,提供人臉辨識晶片的中星 微,以及提供邊緣計算晶片的耐能科技。
半導體的垂直分工模式雖有助於純晶片設計企 業的生存 ,不過單一晶片難以單獨實現複雜功能 ,於 是有些企業開始提供晶片集成服務 ,集成後的產品 稱作系統或 IC(integrated circuit)模組 ,在人工智慧 領域則稱為 AI 系統或 AI 模組。一般而言 ,人工智慧 企業會同時提供演算法和晶片的集成服務 ,該類企業 通常被稱為「人工智慧方案解決商」,或稱AI一站式 服務(AI Turnkey)。
4.5 AI 晶片產品類型
根據集成的產品類型可再分成兩類 ,即硬體集成和軟體集成 。(1)硬體集成:將不同功能的晶片集成於同一塊電路板(PCB)上 ,即被稱為硬體集成 ,其中會包含核 心處理器、協處理器(加速晶片)、存儲器和其他零 件。硬體集成初級的產品是板上系統(system on board ),但終極目標是將多個晶片集成在一塊晶片上 形成系統晶片,或稱片上系統(system on chip),如圖7所示。

(2)軟體集成:根據集成硬體的需求或純粹軟體集 成的需求 ,軟體工程師將不同軟體(software)和韌體( firmware )集成起來安裝到板上系統或片上系統中 。 因 AI 晶片設計的難度並沒有過往的 CPU 高 ,為 增加行業競爭優勢 ,人工智慧企業除本身提供的系統集成服務外 ,也開始往晶片設計方向整合。與此 同時 ,AI 晶片企業為了加速產品落地 ,減少尋找客戶 的難度 ,會同時兼任晶片企業和集成商這兩種身 份。於是,目前行業呈現人工智慧與晶片產業雙向 整合的情況。整合後的 AI 系統集成商可以將更高性能、更低價格 、更低功耗的系統晶片( 片上系統)方案提供給客戶 。
4.6 存在的問題
因系統晶片開發技術複雜 ,人才缺口成為首要難題。系統晶片設計的關鍵技術包含但不限於以 下 6 項:(1)匯流排架構技術;(2)IP 核可復用技術;(3)軟硬體協同設計技術;(4)時序分析技術;(5) 驗證技術;(6)可測性設計技術。以上關鍵技術皆 涉及跨學科知識 ,且開發流程複雜 ,工序可多達 40個,每個工序都需要一位專業工程師負責執行工 作 ,開發過程需要前後反覆多次驗證設計 ,避免流片失敗。
系統晶片(SoC)設計與 AI 加速晶片(ASIC)設計 相比 ,前者的設計難度更高 ,兩者之間的差異主要表 現在以下兩點:第一,系統晶片設計需要更加了解整 個系統的運作 ,由此可更合理的定義晶片架構 ,使得 軟硬體集成達到系統最佳工作狀態。第二 ,系統芯 片設計是以 IP 核復用為基礎 ,基於 IP 模組的大規模 積體電路設計是系統晶片實現的關鍵。綜上所述 , 系統晶片設計團隊或以系統晶片為目標創立的 AI晶片企業 ,首先面臨的是人才技術儲備問題 ,再來才 是後續問題。
4.7 AI晶片落地情況分析
現如今 ,雲端與終端皆有 AI 晶片落地。其中服 務器 、手機 、智慧家居 、自動駕駛是主要落地場景 。由於 AI 晶片是實現人工智慧用途或深度學習應用 的專用晶片 ,晶片與演算法的結合程度高 ,因此接下來 將會按照用途 、部署位置以及應用場景來討論 AI 芯 片的落地及相關市場規模 。
在人工智慧的技術基礎上 ,深度學習演算法對 於使用者來說會有「訓練」和「推理」兩種用途 ,這 是因為深度學習演算法就如同人類的大腦一樣 ,需 要經過學習才能做出判斷 ,就像人要能辨識貓 狗 ,首先需要學習了解貓狗的特徵。因此 ,企業 在部署人工智慧設備時 ,也會經歷演算法/模型訓 練 ,再進行推理應用。一般來說 ,如圖 8 所示 ,執 行訓練任務的 AI 晶片僅會部署在雲端和邊緣端 上 ,而執行推理任務的 AI 晶片會部署在雲端 、邊 緣端和終端上 ,應用範圍更廣 ,這是因為推理的算力需求較低。應用場景和深度學習演算法的類型有關。
電腦視覺通常會使用卷積神經網路(CNN)訓練模型 ,自 然 語 言 處 理( NLP )則 會 使 用 循 環 神 經 網 絡( RNN )訓 練模型,AI晶片也主要應用於視覺和語言。但是,相 較於 CNN 和 RNN 等較舊的演算法 ,現在深度學習演算法 持續在演變中,因此行業應用時並不局限於上述兩 類演算法。每家人工智慧企業都有自己獨特的演算法,AI 晶片企業也是一樣 ,會根據自己的改良演算法來設 計AI晶片。

4.7.1 雲端市場
隨著雲端市場需求不斷上升 ,伺服器 AI 晶片的市場前景樂觀。按照 AI 晶片的部署位置 ,可簡單將AI 晶片市場分成雲端(邊緣端併入雲端)市場和終端 市場兩類 ,具有雲計算需求的行業主要是金融業 、醫 療服務業 、製造業 、零售/批發以及政府部門等 5 大行 業。
根據 IDC 數據 ,如圖 9 所示 ,雲計算需求增長快 速 ,在 2018~2019 年全球雲計算支出將迎來大幅度 增長 ,5 大行業的支出最低增長 17.3% ,最高 26.3% , 其中以醫療業的需求最高 ,超 100 億美元。與此同 時 ,根據 IDC 數據 ,2018 年第三季度全球伺服器設備 的出貨量達 320 萬台 ,營收達 234 億美元以上 ,從出 貨增長率來看 ,2018 年全年營收達 1 000 億美元以 上 ,遠超過 2017 年營收 669 億美元 。
雲計算支出的快速增長 ,代表雲計算的需求旺 盛。伺服器的出貨量持續提升 ,也意味著部署服務 器的 AI 晶片的需求量跟著提升。由此可見 ,雲端芯 片的市場未來將快速增長 。

4.7.2 終端市場
當前的終端市場上 ,主要有兩大落地場景 ,一個是智慧型手機 ,另一個是物聯網設備。手機又被稱 作移動端 ,在智慧型手機上 ,AI 晶片的主要任務是拍 照後的影像處理 ,以及協助智慧助理的語音處理 。 根據 IDC 的數據 ,全球智慧型手機出貨量已經連續 兩年超過 14 億部 ,其中全球前 5 大廠商中有 3 家是中 國企業,按2018年出貨量由高到低排序依次為,華為2.06億部、小米1.23億部,和OPPO1.13億部。
除手機之外 ,物聯網也是當前終端市場中重 要的一部分。根據 IDC 數據 ,物聯網的市場主要 在產業應用上 ,製造業 、運輸業和公用事業合計超 過3 290億美元,其中消費性產品(包含智慧家居、穿 戴設備、智慧座艙等)佔1 080億美元。AI晶片在物 聯網產品上的應用主要有兩個用途 ,一個是視覺 AI晶片 ,另一個是語音 AI 晶片 ,但因為自然語言處理 的 AI 產品開發難度高 ,目前新創 AI 晶片企業主要切 入的市場是電腦視覺設備的落地場景 ,比如家庭 安全設備。根據 IDC 數據 ,全球智慧家居市場中的 家庭安全設備出貨量已達 9 770 萬台 ,而智慧音箱也 有 9 980 萬台設備 ,兩類設備至 2022 年都會增長超過2 億以上。總而言之 ,物聯網在智慧家居場景落地可 以保證具有千萬銷售量的市場。
未來,自動駕駛將是終端晶片應用的另一塊重 要場景。根據 MARKLINES 的數據 ,2014 年中國汽 車銷售量為 2 349.2 萬輛 ,2018 年已增長至 2 808.1 萬輛。中國千萬量級汽車銷售市場對於開發自動駕駛 技術的企業具有極大吸引力。縱然中國汽車銷售量 已達千萬量級 ,但目前電動車銷售量仍不及整體汽 車銷售量的 10% ,而自動駕駛技術的發展是以電動 車為主 ,電動車市場有很大的增長空間 。

結論
目前,中國的人工智慧晶片行業發展尚處於起 步階段。長期以來,中國在CPU、GPU、DSP處理器 設計上一直處於追趕地位 ,絕大部分晶片設計企業 依靠國外的 IP 核設計晶片 ,在自主創新上受到了極 大的限制。然而 ,人工智慧的興起 ,無疑為中國在處 理器領域實現彎道超車提供了絕佳的機遇。人工智 能領域的應用目前還處於面向行業應用階段 ,生態 上尚未形成壟斷 ,國產處理器廠商與國外競爭對手 在人工智慧這一全新賽場上處在同一起跑線上。因 此 ,基於新興技術和應用市場 ,中國在建立人工智慧 生態圈方面將大有可為 。
由於中國特殊的環境和市場 ,中國 AI 晶片的發 展目前呈現出百花齊放 、百家爭鳴的態勢 ,AI 晶片的 應用領域也遍布股票交易 、金融 、商品推薦 、安防 、早 教機器人以及無人駕駛等眾多領域 ,催生了大量的 人工智慧晶片創業公司 ,如北京地平線資訊技術有 限公司、北京深鑒科技有限公司、北京中科寒武紀科 技有限公司等。儘管如此 ,中國公司卻並未如國外 大公司一樣形成市場規模 ,反而出現各自為政的散裂發展現狀。除了新興創業公司 ,中國研究機構如 北京大學 、清華大學 、中國科學院等在 AI 晶片領域 都有深入研究;而其他公司如百度和北京比特大陸 科技有限公司等亦在積極布局人工智慧晶片產業 。可以預見 ,未來誰先在人工智慧領域掌握了生態系 統 ,誰就掌握住了這個產業的主動權 。
參考文獻 [ 1 ] YANN L C, CORTES C. The MNIST database of hand-written digits[EB/OL].[2019-02-26]. http://yann.lecun.com /exdb/mnist/. [ 2 ] TAIGMAN Y, YANG M, RANZATO M A, et al. Deep- face: Closing the gap to humanlevel performance in face verification[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2014: 1701-1708. [ 3 ] Amazon Alexa. Ways to build with Alexa[EB/OL]. [EB/ OL]. [2019-02-24]. https://developer.amazon.com/alexa. [ 4 ] Apple Siri. Siri does more than ever, even before you ask [EB/OL]. [2019-02-24]. http://www.apple.com/ios/siri/. [ 5 ] Microsoft Cortana Personal Assistant. Cortana. Your intelligent assistant across your life [EB/OL]. [2019-02-24]. https://www.microsoft.com/en-us/cortana. [ 6 ] QUIGLEY M, CONLEY K, GERKEY B, et al. ROS: an open-source Robot Operating System[C]// ICRA workshop on open source software. 2009: 5. [ 7 ] URMSON C, BAGNELL J A, BAKER C R, et al. Tartan racing: a multi- modal approach to the DARPA urban challenge[R]. Technical report, Carnegie Mellon University, 2007. [ 8 ] SILVER D, HUANG A, MADDISON C J, et al. Mastering the game of go with deep neural networks and tree search[J]. Nature, 2016, 529(7587): 484-489. [ 9 ] EMILIO M, MOISES M, GUSTAVO R, et al. Pac-mAnt: optimization based on ant colonies applied to developing an agent for Ms. Pac- Man[C]// IEEE Symposium on Computational Intelligence and Games (CIG). IEEE, 2010: 458-464. [10] CHEN T, DU Z, SUN N, et al. DianNao: a small footprint highthroughput accelerator for ubiquitous machine- learning[C]// 128 International Conference on Architectural Support for Programming Languages and Operating Systems (ASPLOS). 2014: 269-284. [11] CHEN Y, LUO T, LIU S, et al. DaDianNao: a machine-learning supercomputer[C]// 2014 47th Annual IEEE/ ACM International Symposium on Microarchitecture (MICRO). IEEE, 2014: 609-622. [12] LIU D, CHEN T, LIU S, et al. PuDianNao: a polyvalent machine learning accelerator[C]// International Conference on Architectural Support for Programming Languages and Operating Systems (ASPLOS). 2015:369-381. [13] DU Z, FASTHUBER R, CHEN T, et al. ShiDianNao: Shifting vision processing closer to the sensor[C]// International Symposium on Computer Architecture (ISCA). 2015:92-104. [14] JOUPPI NP, YOUNG C, PATIL N, et al. In-datacenter performance analysis of a tensor processing unit[C]// International Symposium on Computer Architecture (IS- CA). 2017:1-12. [15] KAPOOHT. Von Neumann architecture scheme[J/OL]. The Innovation in Computing Companion, 257- 259. https://en.wikipedia.org/wiki/Von_Neumann_architecture. [16] FARABET C, POULET C, HAN J Y, et al. CNP: an fpga-based processor for convolutional networks[C]// International Conference on Field Programmable Logic and Applications (FPL). 2009:32-37. [17] FARABET C, MARTINI B, CORDA B, et al. Neu Flow: a runtime reconfigurable dataflow processor for vision [C]// IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). IEEE, 2011:109-116. [18] GOKHALE V, JIN J, DUNDAR A, et al. A 240 G-ops/s mobile coprocessor for deep neural networks[C]// IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW) . IEEE, 2014: 682-687. [19] NEUMANN J V. The principles of large-scale computing machines[J]. Annals of the History of Computing, 1981, 3(3):263-273. [20] MEAD C. Neuromorphic electronic systems[J]. Proceedings of the IEEE, 1990, 78(10):1629-1636. [21] STRUKOV D B. Nanotechnology: smart connections[J]. Nature, 2011, 476(7361): 403-405. [22] JEFF H, BLAKESLEE S. On intelligence[M]. London:Macmillan, 2007. [23] BENJAMIN, VARKEY B, GAO P, et al. Neurogrid: a mixed- analogdigital multichip system for large- scale neural simulations[J]. Proceedings of the IEEE, 2014, 102 (5): 699-716. [24] MEROLLA P A, ARTHUR J V, ALVAREZ-ICAZA R, et al. A million spiking- neuron integrated circuit with a scalable communication network and interface[J]. Science, 2014, 345 (6197): 668-673. [25] CASSIDY A S, ALVAREZ-ICAZA R, AKOPYAN F. Real- time scalable cortical computing at 46 giga- synaptic OPS/watt with ~100 × speedup in time- to- solution and ~ 100,000 × reduction in energy- to- solution[C]// SC '14: Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis. IEEE, 2014. [26] FURBER S B, GALLUPPI F, TEMPLE S, et al. The spinnaker projec[J]. Proceedings of the IEEE, 2014,102 (5): 652-665. [27] SCHEMMEL J, BRIIDERLE D, GRIIBL A, et al. A waferscale neuromorphic hardware system for large- scale neural modeling[C]// Proceedings of 2010 IEEE International Symposium on Circuits and Systems. IEEE, 2010. [28] LECUN Y, BENGIO Y, HINTON G, et al. Deep learning [J]. Nature, 2015, 521(7553): 436-444. [29] KELLER J, PEREZ O. Improving MCTS and neural network communication in computer go[R]. Worcester Polytechnic Institute, 2016. [30] ZHANG S J ,DU Z D ,ZHANG L, et al. Cambricon- X an accelerator for sparse neural networks [C]. 2016 49th Annual IEEE/ACM International Symposium on Microarchitecture (MICRO). IEEE, 2016. [31] KOWALIK J S. Parallel computation and computers for artificial intelligence[M]. Springer Science & Business Media, 2012. [32] VERHELST, M, MOONS B. Embedded deep neural network processing algorithmic and processor techniques bring deep learning to IoT and edge devices[J]. IEEE Solid-State Circuits Magazine, 2017, 9(4): 55-65. [33] JOUPPI N P, YOUNG C, PATIL N, et al. In-datacenter performance analysis of a tensor processing unit [J].44th International Symposium on Computer Architecture(ISCA), 2017. [34] SZE V, CHEN Y H, YANG T J, et al. Efficient processing of deep neural networks a tutorial and survey [J/OL].Proceedings of the IEEE, 2017, 105(12). [35] BENNIS M. Smartphones will get even smarter with on device machine learning[J/OL]. IEEE Spectrum, 2018. https://spectrum.ieee.org/tech-talk/telecom/wireless/smart- phones- will- get- even- smarter- with- ondevice- machine-learning. [36] MAASS W. Networks of spiking neurons: the third generation of neural network models[J]. Neural Networks, 1997, 10(9): 1659-1671. [37] MEAD C. Neuromorphic electronics system[J]. Proceedings of the IEEE, 1990, 78(10): 1629-1636. [38] PAINKRAS E, PLANA L A, GARSIDE J, et al. SpiNNaker: a 1- W 18- core system- on- chip for massively- parallel neural network simulation[J]. IEEE Journal of SolidState Circuits Page(s), 2013, 48(8):1943 - 1953. [39] BENJAMIN B V, GAO P, MCQUINN E, et al. Neu- rogrid a mixed- analog digital multichip system or large- scale neural simulations[J]. Proceedings of IEEE, 2014, 102(5): 699-716. [40] MEROLLA P A, ARTHUR J V, ALVAREZ-ICAZA R, et al. A million spiking- neuron integrated circuit with a scalable communication network and interface[J]. Science, 2014, 345(6197): 668-673. [41] DAVIES M, SRINIVASA N, LINT H, et al. Loihi a neuromorphic manycore processor with on-chip learning[J]. IEEE Micro, 2018, 38(1): 82 - 99. [42]KIM S. NVM neuromorphic core with 64 k- cell(256- by- 256) phase change memory synaptic array with on-chip neuron circuits for continuous in-situ learning[C]// IEEE International Electron Devices Meeting (IEDM). IEEE, 2015. [43] CHUM, KIM B, PARK S, et al. Neuromorphic hardware system for visual pattern recognition with memristor array and CMOS neuron[J]. IEEE Transactions on Industrial Electronics, 2015, 62(4): 2410 - 2419. [44] SHI LP , PEI J, DENG N, et al. Development of a neuromorphic computing system[C]// IEEE International Electron Devices Meeting(IEDM). IEEE, 2015. [45] JIANG Y N,HUANG P, ZHU, D B, et al. Design and hardware implementation of neuromorphic systems with RRAM synapses[J]. IEEE Transactions on Circuits and Systems I: Regular Papers, 2018, 65(9): 2726 - 2738. [46] YU S M, CHEN P Y. Emerging memory technologies: recent trends and prospects[J]. Proceedings of the IEEE,2016, 8(2): 43 - 56. [47] SURI M. CBRAM devices as binary synapses for low-power stochastic neuromorphic systems: auditory and visual cognitive processing applications[C]// Proceeding of IEEE International Electron Devices Meeting (IEDM), 2012: 3-10. [48] WANG Z. Memristors with diffusive dynamics as synaptic emulators for neuromorphic computing[J]. Nature Materials, 2017, 16(1): 101-108. [49] YANG J J, STRUKOV D B, STEWART D R. Memristive devices for computing[J]. Nature Nanotechnology,2013, 8(1): 13-24. [50] JO S H. Nanoscale memristor device as synapse in neuro-morphic systems[J].Nano letters, 2010, 10(4): 1297-1301. [51] OHNO T. Short- term plasticity and long- term potentiation mimicked in single inorganic synapses[J]. Nature Materials, 2011, 10(8): 591-595. [52] WANG, Z R,JOSHI S,SAVEL』EV S E, et al. Memristors with diffusive dynamics as synaptic emulators for neuromorphic computing[J]. Nature Materials, 2017, 16 (1): 101-108.
來源:任源,潘俊,劉京京,等. 人工智慧晶片的研究進展[J]. 微納電子與智慧製造, 2019, 1 (2): 20-34.
REN Yuan, PAN Jun, LIU Jingjing, et al. Overview of artificial intelligence chip development [J]. Micro/nano Electronics and Intelligent Manufacturing, 2019, 1 (2): 20-34.
《微納電子與智慧製造》刊號:CN10-1594/TN
主管單位:北京電子控股有限責任公司
主辦單位:北京市電子科技科技情報研究所、北京方略資訊科技有限公司
【end】