算力超蘋果A15!OPPO首款自研晶片發布:四大核心問題揭秘

12月14日下午,2021年度「OPPO未來科技大會」正式在深圳召開。

在本次會議上,OPPO正式發布了傳聞已久的首款自研晶片——6nm製程的馬里亞納MariSilicon X。

算力超蘋果A15!OPPO首款自研晶片發布:四大核心問題揭秘
△OPPO晶片產品高級總監姜波展示MariSilicon X

據介紹,MariSilicon X是全球首款專為影像而生的專用NPU晶片,其AI算力高達18TOPs,超過蘋果A15,能效比也達到了11.6TOPs/W。

同時還支援高達20bit Ultra HDR及實時RAW計算,能最大程度發揮OPPO訂製的RGBW感測器的能力,破解了傳統手機影像的諸多難題。

算力超蘋果A15!OPPO首款自研晶片發布:四大核心問題揭秘

為了詳細地揭秘OPPO的首款自研晶片MariSilicon X,在一周之前,芯智訊對OPPO晶片產品高級總監姜波進行了專訪。

一、為什麼要自研晶片?

對於全球頭部的智慧手機廠商來說,自研晶片早已是一項不可或缺的核心競爭力。不論是在自研晶片上早已獲得成功的三星、蘋果、華為,還是正在努力當中的小米、OPPO和vivo。

特別是在人工智慧時代,自研晶片不僅能夠更好地實現自身軟硬體的協同,解決用戶關心的痛點,同時也能夠為手機品牌廠商帶來更多的差異化。

算力超蘋果A15!OPPO首款自研晶片發布:四大核心問題揭秘

在OPPO晶片產品高級總監姜波看來,像OPPO這種一線的終端公司,本原就是從消費者角度出發的,對於硬體能力的認知和需求,很多也是從用戶場景反推過來的,並不是簡單地判斷需要什麼樣規格的晶片,再看可以用在哪些場景、技術的選擇更多是為了解決用戶的痛點。

所以,當OPPO發現這些痛點及面臨的問題難以使用通用SoC解決時,自研晶片就成為了一個必然。

「我們在最初做這顆晶片的時候,終端產品線的同事會問我們,額外增加這個晶片之後對電池容量有多少影響?包括對手機整個的DoU(Day of Usage)有什麼影響?我們就需要去看各種場景下帶來的DoU損失是多少,以及帶來的好處是多少,這樣問題才能解決。所以這樣的好處是,任何問題都是從用戶視角出發的。」

姜波表示:「我個人認為,行業里像OPPO這樣的廠商,恰恰是因為在一線接近消費者,有自己的演算法能力、硬體設計能力,甚至是上游攝影機、感測器的整合能力,當你處在一個產業鏈里非常重要的一環時,你有機會做到更深度的整合、更優化的設計的時候,就一定會去做。」

至於自研晶片帶來的成本及投資回報問題,姜波表示,「只要做自研晶片,投入就會很大,如果這顆晶片可以幫我們解決一些我們在用戶側的一些痛點和價值點,那就值得去投入。」

二、為什麼是影像NPU?

對於智慧手機廠商來說,自研晶片並不是一個新鮮事。

不過,從小米澎湃S1手機SoC晶片的經驗來看,對於原本在手機晶片研發上並沒有太多積累的手機品牌廠商來說,貿然就開始研發手機SoC主晶片,則具有非常高的難度和風險。

2014年,小米就成立了松果電子研發手機SoC晶片,隨後在2017年,小米正式推出了首款自研手機SoC晶片「澎湃S1」,並由小米5C首發搭載。但是,這款歷時28個月研發製造的晶片整體表現並不理想,在小米5C之後就再也沒有被商用。而後續傳聞中的澎湃S2似乎也因為多次流片失敗而終結。

相比之下,先從手機SoC主晶片以外的外圍晶片切入則相對簡單,也更容易獲得成功。

在目前用戶對於手機影像性能要求越來越高的背景之下,很多手機廠商也選擇了從影像相關晶片方面進行入手。

比如,小米和vivo都紛紛選擇從關乎手機影像拍攝品質的關鍵晶片——ISP(影像訊號處理器)晶片入手。今年3月底,小米就發布了自研的手機ISP晶片澎湃C1。9月初,vivo也發布了自研的手機ISP晶片V1。小米和vivo均表示,自研的ISP晶片結合自研的演算法,可以幫助手機進行更精細、更先進的影像處理。

同樣,OPPO也認為,影像能力一直是智慧手機用戶最為關心的痛點之一。因此,我們也可以看到,過去十年來,在OPPO不同的旗艦產品上,為了提升影像拍攝能力,除了配備旗艦級的SoC之外,OPPO還在不斷通過訂製影像感測器、訂製攝影機模組、訂製鏡頭來推動影像硬體上的創新。

算力超蘋果A15!OPPO首款自研晶片發布:四大核心問題揭秘

資料顯示,僅僅是為了完成將RGBW影像技術寫入感測器硬體這一操作,OPPO就在近3年的時間內投入了300位影像工程師以及億元級別的成本,積累了87項技術專利。

隨著手機影像技術的發展,由於智慧手機的內部空間的限制,單純依靠提升影像感測器尺寸及其他光學單元的性能,來提升拍攝的影像效果已經遇到了瓶頸,於是通過AI演算法來對拍攝效果進行優化的「計算影像」就成為了新的方向。

所以,OPPO並未選擇跟小米、vivo一樣自研ISP晶片,而是結合了過去在影像感測器訂製、攝影機模組訂製、鏡頭訂製方面的技術積累,更進一步選擇了難度更高的影像NPU。因為OPPO認為,未來計算影像將主導整個影像新的技術發展,傳統ISP解決不了的暗光影片等需要AI才能解決的難題,影像NPU完全有機會給出一個更好的解答。

但是,通用的手機SoC當中的包括NPU在內的各類計算單元通常都只是針對通用的AI影像演算法進行優化,而手機廠商的自研AI影像演算法與通用SoC晶片之間很難做到相互的完全開放、完全的緊密耦合,這也使得通用SoC晶片無法發揮出手機廠商自研AI影像演算法的最大能力。

為此,姜波展示了一組實際測試數據。以OPPO目前在Find X3 Pro上商用落地的OPPO AI降噪演算法為例,雖然Find X3 Pro搭載的是高通的旗艦晶片驍龍888,其內部也擁有獨立的NPU,結合高通第六代AI引擎,整體AI算力高達26 TOPS,但是在跑OPPO自研的AI降噪演算法時,最多可以跑2fps(幀/秒),而且功耗也接近了1.7W。

這也意味著該AI降噪演算法只能運用到拍照降噪上,不能運用到影片降噪上。因為,影片最少需要30fps的幀率,要基於OPPO的自研AI降噪演算法在驍龍888平台上做到30fps的降噪,就需要將算力提升到現有算力的15倍,即使驍龍888的算力可以繼續提升,但是這也意味著功耗也將達到1.7W的很多倍,顯然這對於智慧手機來說是難以接受的。

另一方面,比如OPPO還與索尼有合作訂製影像感測器,而訂製化的影像感測器也需要手機SoC的緊密配合才能發揮出最大的效果,而手機SoC的開發周期非常長,而訂製影像感測器的開發周期則相對較短,這也使得雙方很難實現很好的配合。

「所以,OPPO為了能夠充分發揮訂製影像感測器以及自研AI影像演算法的能力,選擇從一顆影像專用NPU入手,希望通過AI的方式去解決一些還沒有被解決的手機影像問題。同時,也只有通過影像專用NPU,才能解決目前ISP和通用算力不足難題,這才是未來影像發展的主流方向。」姜波說道。

三、為什麼採用成本高昂的6nm製程?

作為OPPO的首款自研晶片,MariSilicon X一開始的定位就比較高端,採用的是目前領先的台積電6nm製程製程。這對於初入自研晶片領域的OPPO來說可謂是極具挑戰的。

首先,越先進的製程製程,往往意味著設計的難度越高,可以用到的第三方的成熟IP也就越少。

其次,越先進的製程製程的晶片開發,往往也需要更多的研發投入,同時在流片和製造成本上也是非常的高。

根據幾年前國外Semiengingeering網站曾發布過一篇製程和晶片開發費用的文章顯示,28nm節點的晶片開發成本約為5130萬美元;16nm節點則需要1億美元;7nm節點需要2.97億美元;5nm節點,開發晶片的費用將達到5.42億美元;3nm的開發費用有可能超過10億美元。

考慮到這是數年前的數據,再加上MariSilicon X並不是一款SoC晶片,在設計開發上沒有那麼的複雜,其開發費用可能並沒有那麼高,但估計也需要到1億美元以上級別。

算力超蘋果A15!OPPO首款自研晶片發布:四大核心問題揭秘

另外,對於先進位程的晶片來說,越先進的製程製程,其流片和製造的成本也就越高。有消息顯示,6nm晶片的一次流片費用就高達1500萬美元。

所以,我們也可以看到,不論是小米澎湃C1還是vivo V1都沒有選擇6nm製程,而是採用了成熟的12nm製程。

那麼為什麼OPPO 的MariSilicon X還是選擇了6nm製程?

對此,OPPO晶片產品高級總監姜波在接受芯智訊採訪時也表示,OPPO在最開始評估採用何種製程時確實評估過12nm製程的可能性:如果做一顆12nm的晶片,不僅可選擇的基礎IP更多,資源的可獲取性(比如一些介面IP)也更好,而且整個產品的開發周期也要短很多。

但是,12nm製程很難達到OPPO預期的在終端層面的極致性能和功耗要求,所以最終選擇了6nm製程,實現了同級最好的能效比,也得以在RAW域能夠實現複雜AI演算法的處理。

選擇6nm製程,也給OPPO帶來了很多的難題。

比如,MariSilicon X需要峰值吞吐量非常高的MIPI介面。如果選擇12nm製程,雖然很容易能夠找到第三方MIPI介面IP,但能效遠超預期。雖然6nm製程節點上也有一些第三方MIPI介面IP,但是可選擇範圍較小,且依然是滿足不了OPPO估算的數據量要求。因此,OPPO的晶片研發團隊最終選自了自研MIPI IP。

「用12nm可以更容易的做出一顆商用的晶片。但是,我們發現用12nm做完之後在很多場景下出來的效果,可能還不如之前單純靠5nm SoC做出來的整體效果,那麼增加一顆NPU晶片就沒有意義。那就喪失了我們做一顆晶片的初心和原點了。「姜波坦言。

四、MariSilicon X有何過人之處?

對於MariSilicon X這款晶片的優勢,可以總結為以下幾大核心能力突破:

算力超蘋果A15!OPPO首款自研晶片發布:四大核心問題揭秘

1、核心自研IP加持,帶來極致能效比

據介紹,MariSilicon X的AI算力可達18TOPS@int8(72TOPS@int4 equivalent),高於蘋果A15的15.8TOPS。在供強大AI算力的同時,MariSilicon X功耗也得到了很好的控制,其能效比達到驚人的11.6TOPS/W。

算力超蘋果A15!OPPO首款自研晶片發布:四大核心問題揭秘

要知道,目前絕大多數NPU能效比都在10TOPS/W以內。比如IBM今年初推出的基於7nm製程的「全球首款」高能效AI晶片,其在int4 精度下的能效為 8.9TOPS/W;7nm NVIDIA A100 GPU在int4精度下的能效比為 3.12TOPS/W;7nm的聯發科處理器(應該是天璣1200)在int8精度下能效比為3.42TOPS/W。

算力超蘋果A15!OPPO首款自研晶片發布:四大核心問題揭秘
▲IBM 7nm高能效AI晶片與7nm晶片性能及能效比參數對比

姜波強調,:「對於手機NPU來說,AI算力的提升並不是難點,因為這是可以通過增加NPU的面積把算力堆起來的。但是,手機內部的空間是有限的,並且有著嚴苛的功耗及熱性能的限制,所以高能效比才是關鍵。而要想實現11.6TOPS/W能效比則是非常難的。

算力超蘋果A15!OPPO首款自研晶片發布:四大核心問題揭秘

「而且這個能效比是基於隨機生成圖片(人眼難以識別的)實測得到的,如果是基於現實世界裡的人像、風景等真實的圖片進行處理,這個能效比將超過12TOPS/W。」

雖然,MariSilicon X 的6nm製程所帶來的提升,也是其高能效比的一個因素,但是更為關鍵的還是MariSilicon X當中NPU單元並沒有採用第三方的NPU IP,而是採用了OPPO自研的MariNeuro IP,以達到OPPO需要的最優能效比。

算力超蘋果A15!OPPO首款自研晶片發布:四大核心問題揭秘

那麼,之前在驍龍888上只能跑2fps、功耗達到1.7W的OPPO自研的AI降噪演算法在MariNeuro NPU上能有多大的提升呢?答案是速度提升了20倍達到了40fps,使得OPPO自研AI降噪演算法可以應用到影片降噪當中,同時功耗僅有800mW,能效比更是提升了40倍。顯然OPPO自研影像NPU所帶來的實際提升是非常驚人的。

算力超蘋果A15!OPPO首款自研晶片發布:四大核心問題揭秘
△基於MariSilicon X的4K Ultra HDR影片降噪效果

算力超蘋果A15!OPPO首款自研晶片發布:四大核心問題揭秘
△基於MariSilicon X的4K AI夜景影片效果

2、多級專用高速記憶體系統

除了NPU本身的架構使得它能夠有更高的能耗效率和更高的利用率之外,記憶體子系統也是極為關鍵的,因為記憶體和運算對於AI整個系統是相輔相成的,如果記憶體變成瓶頸,形成「記憶體牆」的話,即使有再高的算力也無法發揮。

所以,OPPO還為MariNeuro NPU訂製了一個Tb/秒級的片上記憶體子系統,這也使得NPU架構設計在與演算法緊密耦合的同時,記憶體系統也是根據演算法和場景要求進行相應訂製優化的。

姜波解釋稱:「我們根據自己的演算法和網路模型,我們知道它的網路複雜度有多少,需要多大容量和速度的片上記憶體去處理,才能達到一個最優的目標。其數據傳輸速度可達數萬億比特/秒(Tb/s),遠高於外部的DDR記憶體。」

算力超蘋果A15!OPPO首款自研晶片發布:四大核心問題揭秘

在配備片上記憶體的同時,OPPO還設計了一個多級的記憶體控制系統,並針對MariSilicon X配備了獨立DDR頻寬,這個採用了LPDDR4X的DDR頻寬為8.5Gb/s,是與MariSilicon X的Die封裝在一起的,對於一些速度要求沒那麼高的數據可以跑在專用的記憶體上去做。

算力超蘋果A15!OPPO首款自研晶片發布:四大核心問題揭秘

OPPO表示,從整個系統層面來看,當MariSilicon X跟一個SoC主晶片搭載在一起使用的時候,整個系統的DDR吞吐率增加了17%。

3、20bit Ultra HDR

目前智慧手機在繼螢幕尺寸、解析度及材質的持續提升之後,螢幕的高動態範圍 (HDR)顯示效果,正在成為智慧手機廠商及用戶追逐的熱點。同樣,對於手機影像拍攝來說,HDR效果也已經成為了關鍵點。

所謂HDR(High-Dynamic Range,高動態範圍),是一種能夠提供更大的動態範圍以及影像細節的顯示技術,可根據不同的曝光時間的LDR(Low-Dynamic Range,低動態範圍影像),並利用每個曝光時間相對應最佳細節的LDR影像來合成最終HDR影像。HDR能夠更好地反映出真實環境中的視覺效果,即實現接近人眼所能覆蓋的色域,亮度和對比度範圍。

高通最新發布的新一代驍龍8就集成了三核18-bit ISP,且支援18bit RAW格式拍攝。同樣,聯發科發布的天璣9000的第七代的Imagiq ISP,也支援18bit HDR。

不過,OPPO此次推出的MariSilicon X則更進一步,帶來了更為極致的支援人眼級別的20bit的計算位寬以及20bit Ultra HDR,能覆蓋100萬:1的最大亮度範圍,即一張照片當中最暗和最亮的部分相差了100萬倍,達到了新一代驍龍8及天璣9000的4倍。

算力超蘋果A15!OPPO首款自研晶片發布:四大核心問題揭秘

而這其中主要得益於MariSilicon X當中另外一個非常重要的OPPO自研IP——MariLumi影像處理單元,其信噪比處理能力達到了120db。相比新一代驍龍8等能夠帶來至少有8dB信噪比的增強,相當於2.6倍的提升。

4、實時RAW計算

對於經常玩單反相機的朋友來說,RAW格式並不陌生,這是一種未經過壓縮的無損原生照片格式,它完整地記錄了CMOS或者CCD影像感測器將捕捉到的光訊號轉化為數字訊號的原始數據。

相對於其他的例如JPG等壓縮照片格式,RAW格式的優勢在於,其是未經過任何的處理和壓縮的無損原生格式,最大程度保留了照片拍攝的原始資訊,這也使得其擁有更大的後期製作空間。此外,RAW還支援無損調節,同時也使得前期拍攝的環境色溫、曝光度等參數能夠有更多的容忍度(後期可以調整)。

隨著智慧手機影像技術的發展,RAW計算也開始被引入到智慧手機的拍照當中。OPPO也認為,RAW域是計算影像的黃金點,因為這給了後期的計算影像處理帶來了更大的發揮空間。

傳統的手機影像計算,通常是將影像感測器輸出的RAW資訊經過SoC當中的ISP轉換成RGB資訊,再轉換成YuV(比如MPEG、JPEG等格式),這其中每一步的轉換都是有資訊損耗的。現在手機做AI降噪的演算法也是放在YuV階段來做的,HDR也是在YUV里合成的,而這種做法做多只能做到18bit HDR。

算力超蘋果A15!OPPO首款自研晶片發布:四大核心問題揭秘

MariSilicon X之所以能夠支援20bit Ultra HDR,是因為其將傳統只能在YuV後處理階段完成的AI計算放到了最前端的RAW域計算,即影像感測器記錄的原始RAW影像資訊直接傳輸給MariSilicon X進行處理,之後再輸出給SoC中的ISP。

具體來說,OPPO的做法是將YUV的演算法做成RAW演算法,通過MariSilicon X直接在RAW域進行AI計算,即通過在無損的原生數據基礎上進行AI處理,從而得到效果更好的影像處理結果。MariSilicon X可以支援20bit RAW實時處理,並且在RAW域合成HDR Fusion。為整個影像鏈路輸出無損計算後的高品質數據。這樣的好處,就是在4k場景下,讓影像亮部有8dB的增強,暗部可以有12dB的增強,也就是說影像暗部的信噪比可以達到4倍的有效提升。

算力超蘋果A15!OPPO首款自研晶片發布:四大核心問題揭秘

雖然在RAW域計算能夠帶來更好的影像效果,但是這也使得演算法複雜度大大增加,同時20bit RAW的數據量非常大,要在RAW域進行大量的實時AI演算法計算,也使得MariSilicon X的強大算力及高能效比特性變得尤為重要。只有比原來的SoC直接處理效果更好、速度更快、更低功耗,加入自研晶片才更意義。

5、RGBW感測器能力全面釋放

對於智慧手機來說,暗光拍攝效果的提升一直是一個難點,雖然可以通過採用更大光圈、更大尺寸的感測器來有效提升進光量,從而提升暗光拍攝表現,但是由於手機內部空間及厚度的限制,使得這方面的提升也受到了限制。

於是乎,通過從底層改變感測器排列,進而提升進光量的方法也成為了另外一個方向。比如RGBW感測器的像素陣列,就是通過引入對光線更加敏感的白色子像素(W)顯著提升感光能力,從而在暗光環境下拍攝出更亮的照片。

2019年,OPPO研發團隊受到當時流行的像素聚合技術的啟發,又創造性地提出了四合一像素聚合技術與RGBW技術相結合,即全新RGBW感測器在每組4個子像素中引入2個W像素,從而讓每個像素都能具備R(紅)、G(綠)、B(藍)和W(白)訊號的識別能力。這也就是今年8月發布的新一代RGBW捕光感測器IMX709。

算力超蘋果A15!OPPO首款自研晶片發布:四大核心問題揭秘

但是,由於OPPO與索尼聯合訂製的RGBW感測器屬於新的感測器,並且應用量也相對有限,所以目前通用的手機SoC並不能很好地發揮出OPPO訂製的RGBW感測器的最大能力。

「如果想要用上RGBW感測器,第一步要做的就是在感測器端把RGBW做一個remosaic,變成傳統的RGGB資訊,再傳送給SoC處理。實際上這個處理過程中,已經丟失了一些有用的資訊。雖然,我們希望讓RGBW sensor pattern(感測器像素排列)發揮最大價值,但為了與通用的SoC配合,我們必須要做一些妥協和損耗,才能達到可以用上RGBW。」姜波解釋道。

為了更好發揮出OPPO訂製的RGBW感測器的能力,MariSilicon X在設計時就充分考慮了這一點,將MariSilicon X與RGBW感測器進行了緊密的耦合和最大限度的優化。

比如,在設計影像處理pipeline的時候,OPPO做了兩條鏈路,一路是做RGGB訊號處理,同時有一路是做White訊號處理,這兩路都是進行RAW計算,所以對於處理能力的要求也要增加數倍。

根據OPPO公布的實測數據顯示,相比一路pipeline效果,通過MariSilicon X進行兩路pipeline的處理,可以得到8.6dB的信噪比提升。同時,在紋理細節上,通過兩路pipeline的超取樣,可以到1.7倍的解析力的增強。

算力超蘋果A15!OPPO首款自研晶片發布:四大核心問題揭秘

姜波自豪地說到:「我們通過自研晶片和訂製化sensor相互的化學反應和相互耦合,真正將sensor在最初設計時候的最大能力充分發揮。」

小結:

通過上面的介紹及官方公布的相關參數,我們不難看出,MariSilicon X這款影像NPU確實非常的強大。雖然,OPPO在MariSilicon X的研發當中也是獲得了很多合作夥伴的幫助,但是核心IP基本都是OPPO自研的,這也主要得益於OPPO強大的晶片研發團隊的自研能力。

算力超蘋果A15!OPPO首款自研晶片發布:四大核心問題揭秘

據芯智訊了解,OPPO是2019年開始研發晶片的,為了開發MariSilicon X,OPPO組建的晶片研發團隊高達2000人(不排除同時有研發其他晶片),其中很多核心人員都是來自於一線的半導體大廠,比如OPPO晶片產品高級總監姜波就來自於高通。

作為對比,vivo自研的ISP晶片V1,300人研發團隊,歷時2年時間研發完成。不過,這裡需要補充的是,根據網上的爆料顯示,vivo V1並不是由vivo獨立完成的,而是與聯詠合作設計的,採用了很多第三方的IP。

另外,比起其他綜合型的NPU,MariSilicon X專註在影像上的設計也實現了更強的影片性能。

不過,姜波也坦言:「雖然如語音識別等AI演算法也可以在MariSilicon X的NPU上來跑,但是肯定不會像影像AI演算法跑得那麼好。「因為在設計這款晶片時,我們就已經有所取捨,我們在影像上,尤其是針對影片上,要做很大的優化和投入,所以針對影片和照片相關的影像處理,它是擁有極佳功耗的性能的NPU。反過來,像語音這種,它就不是最佳的,所以它的靈活性也是有一定限制的。」

總結來說,MariSilicon X是一款性能強大且擁有極致能效比的影像專用NPU。並且MariSilicon X還首次將20bit RAW計算、Ultra HDR、4K AI HDR影片降噪集成在一起,使得不論是拍照還是影片錄製體驗都能夠帶來顯著的提升。

「馬里亞納MariSilicon X是 OPPO未來十年影像的開篇之作,它的問世標誌著OPPO在計算影像領域首次實現了全鏈路垂直整合,將完全服務於OPPO訂製化的計算影像需求。 隨著明年一季度搭載MariSilicon X的全新Find系列旗艦推出,將推動Android終端第一次實現計算攝影的里程碑式躍遷,這將為整個行業的計算影像提供一個新的標杆,相信未來整個行業都會朝著這個方向發展。」姜波總結道。

Tags: