誰頂住雙11的世界級流量洪峰?神龍架構負責人等9位大牛現場拆解阿里秘籍

  • 2019 年 11 月 26 日
  • 筆記


【新智元導讀】今年雙11,天貓成交額再次刷新世界紀錄,阿里巴巴核心系統100%上雲,撐住了雙11的世界級流量洪峰。在這一流量戰場上,阿里可謂是華山論劍的最大贏家。18日下午,神龍架構負責人旭卿、OceanBase日照、菜鳥行易等阿里9位技術大牛現身北京望京,全面解析阿里雙11的武功秘籍。來新智元 AI 朋友圈和AI大咖們一起討論吧。

阿里江湖中,很多資源和技術,如神龍伺服器、OceanBase、POLARDB等等,在開源、自研、雲這三架馬車上形成協同效應,既是內功也是武器。

「不是任何一朵雲都能撐住這個流量。中國有兩朵雲,一朵是阿里雲,一朵叫其他雲。」11月11日晚,阿里巴巴集團CTO行癲(張建鋒)不久前表示。

除雲之外,要深入了解阿里的武功路數,必須知道每個花名背後的武器與絕技。旭卿、觀濤、鳴嵩、日照、褚霸、孤星、龍現、行易、鐳銘,11月18日,在阿里舉辦的「雙11 背後的技術力量」沙龍活動,這9位阿里技術大牛展示了路數,全面解讀雙十一背後的武功秘籍。

整個天貓的成交額是2684億,零點訂單峰值達到54.4萬筆/秒。這是華山論劍的結果。

自研資料庫POLARDB和OceanBase分別處理8700萬、6100萬筆/秒峰值請求、實時計算處理峰值每秒25.5億筆、計算平台單日處理970PB數據、12億筆物流智慧化等……2019年雙11期間,阿里巴巴打破了諸多技術紀錄。

點擊進入新智元小程式,可及時獲取一手資訊,與阿里雲智慧基礎產品事業部研究員旭卿等大咖進行互動。

核心交易系統100%遷移到雲,第三代神龍伺服器定義IT行業新的計算範式

雙11一個個閃亮的數字的背後有一個比較重要的事情,那就是今年阿里把核心交易系統100%遷移到阿里的公共雲上,這是史無前例的、世界級的挑戰。

要實現100%的遷移,必須提到阿里雲的神龍伺服器。神龍架構負責人的旭卿(張獻濤)介紹,「神龍伺服器是阿里雲近三年來投入巨大的資源,研發的新一代適合雲計算的計算架構的伺服器,具備高彈性、高穩定和高性能的能力。」

阿里雲從2016年開始投入相關研發,2017年10月發布了第一代神龍雲伺服器。三年內,阿里雲從自研晶片開始、到自研設備+Hypervisor、最後成功自研神龍伺服器,打通晶片、軟體、伺服器硬體之間的斷層,首次實現了雲計算行業性能、資源的零損耗。

阿里雲智慧基礎產品事業部 張獻濤(旭卿)

為什麼阿里雲要研發這樣一個神龍伺服器?

旭卿談到,在過去十幾年間,整個伺服器的架構沒有太大的變化。因此在雲計算、甚至整個IT系統層面,業界都面臨歷史遺留問題,比如性能損失

究其根本原因,就是做晶片、伺服器、軟體的廠商之間沒有太多的協同,缺乏一個頂層的設計,每一個領域,每一個廠商都是希望把自己的東西做得很強,但做強之後對整體系統效率的提升不一定有幫助,這是我們可以感受到的。

從這個角度來看,我們需要對整個計算架構做一些改變、革新和提升,提升整體的計算效率,這是阿里做神龍最初的初衷

為什麼是阿里雲做成了這件事?

「規模到達一定程度的時候,才會真切的感受到它是一個需要解決的問題,你可能將來只有10台、20台、甚至200台、2000台伺服器的時候,資源還跑不滿,在這種情況下沒有太大的動力去投入上億資金解決這樣一個問題,而今天阿里雲的整體規模已經讓我們必須直面這個問題,並且解決這個問題。」旭卿解釋道。

旭卿認為,今天神龍正在定義IT行業新的計算範式,它不僅僅能實現阿里雲的核心系統100%上雲,解決虛擬化的性能、資源的開銷,並且也能夠實現軟體、硬體完美融合,它的綜合表現在很多業務場景下都是超越物理機的性能表現。

說到物理機,旭卿還介紹了第三代神龍架構,它可以提供的性能非常高,「我們網路的性能可以做到每秒2500萬PPS的轉發,這個已經是業界標杆的5倍,存儲性能其實也做到了100萬IOPS,是業界標杆的3倍,所以有了這樣一個東西之後,我們承載雙11大促這種業務的話,其實已經比物理機的性能要高很多了。」

「當然最後我們還是認為雲是IT的集大成者,真正的雲計算廠商有責任也有義務引導今天軟硬體方面的一些創新,回饋未來的IT技術變革打下基礎。」旭卿表示。

AliNLP平台賦能700多個核心業務,客服AI搭載KAN-TTS技術處理70%問題

在語音和視覺方向,阿里也有所準備。達摩院實驗室的雷鳴就介紹了阿里的客服AI和視覺AI。

這是基於阿里巴巴真實客服人員的聲音訂製的電話客服AI,基於今年發布的新一代語音合成技術——KAN-TTS技術,這個技術可以使語音合成的效果,和真人錄音的接近程度達到97%。阿里通過技術可以把整個訂製周期壓縮到20天,錄音周期就2天左右,這有效減輕了人工客服的負擔。

這種AI會不會完全取代人工客服呢?其實,這種AI並不是完全替代人工,而是人工跟AI協同工作。AI可以解決常規問題,剩下30%的問題則需要人工客服來解決,這是一個比較好的人機協同模式。

從數據來看,阿里巴巴AI每天調用超過1萬億次,服務全球10億人,日處理影像10億張,日處理影片120萬小時,日處理語音55萬小時,日處理自然語言5千億句。

達摩院在自然語言處理、智慧語音、視覺計算等領域奪得40多項世界第一,同時自然語言處理在SQuAD機器閱讀評比中精確閱讀率首次超過人類,智慧語音入選MIT Technology Review2019年全球十大突破性技術。這些技術在雙十一的貢獻有以下三個方面。

首先是自然語言處理方面,通過AliNLP平台,賦能淘寶、天貓、盒馬、國際化等數十個BU的700多個核心業務。雙十一重點支援23個業務方,包括阿里媽媽、阿里雲、小蜜、菜鳥、新零售、天貓精靈等,在雙十一當天,在線調用量超過11億。

其次是客服AI,阿里小蜜承接了淘寶天貓平台97%的在線服務需求,換算過來相當於8.5萬名人工客服小二工作量,其次阿里小蜜今年推出了多項新功能,包括直播小蜜、基於圖片的智慧問答、多樣性文本生成。另外阿里小蜜並不是一個單方向的能力,更多的是綜合了語音、語言、視覺、翻譯等能力,而且小蜜與用戶的交互,已經朝著文本、影像、語音等多模態的方向發展。

在視覺方面,拍立淘日處理圖片10億張,今年雙十一,視覺AI對拍立淘做了技術升級,從一圖一物到一圖多物的升級,比如之前只識別一個元素,到今天全身穿搭一次性識別,而且這個技術在電腦視覺領域頂級會議上ICCV 2019上贏得一個冠軍。

飛天大數據平台和飛天AI,以技術實現商品和消費者最優匹配

AI不僅幫助商品識別、客服與顧客之間的溝通,同樣,最重要的消費關係中也有大數據和AI的支撐。

阿里雲智慧計算平台事業部研究員關濤(觀濤)表示,雙十一的挑戰從商務角度看是商品和消費者最優化匹配的問題,往下則是大數據和AI能力的挑戰,

從數據來看,今年雙11數據量達到970 PB,這大概是一個什麼量級?央視網所有的電視劇和新聞節目的數據量是80 PB左右,對比來看,阿里巴巴通過大數據和AI技術分析出來大概是央視數據量的10倍以上。

這樣的數據能力背後的平台是什麼?就是阿里十年前開始做的飛天大數據平台。在雙11中,阿里使用了全自研的一整套平台,平台包括超過10萬台規模伺服器集群,10+數據中心、10EB級別存儲、每天千萬級別的大數據和AI計算作業。

在AI方面,關濤介紹了後台的流計算系統,它是一個數據實時計算系統,通過實時計算的模式,能夠給系統、商家和消費者非常實時的數據的能力。流計算系統可以通過實時計算和AI預測,支援商家的商業決策。據統計,去年2018年雙十一的時候,這樣的實時推薦給商家的智慧決策,90%都會被商家採用。

實時計算的系統層面,能夠支援TPS、每天有超過萬級別的在線實時在跑,每天處理超過10 Trillions of Records,包括實時分析、實時預警、實時搜索、在線機器學習、廣告實時推薦,這些都是大數據和AI在做的。

另外,還有飛天AI平台,通過處理音頻和影片元素,不僅可以做到千人千面,對於同一件商品,還能提供上千種不同的影片封面。

20個工程師貸出3000億貸款,網商銀行融合算力、算料、演算法形成核心競爭力

商家能夠上新產品和作出商業決策的一大前提是資金到位,這就涉及到網商銀行的業務了。

「網商銀行其實大家不一定多麼熟悉,我去之前都不清楚在做什麼。」螞蟻金服網商銀行研究員褚霸說到。

網商銀行成立於2009年,前身是阿里小貸。10年後的今天,網商銀行總共貸出去3000億的貸款,而這3000億貸款就是20個演算法工程師完成的。褚霸認為,「20個人就能很漂亮的把這件事完成,我覺得科技是最大的功臣。」

能夠完成這樣一個業績的網商銀行,褚霸卻笑稱其為「傻子銀行」,「因為網商其實是一家銀行,不是做技術的,我們是一個技術的整合者,前面幾位介紹那些技術都是被我們很好的去整合到今天的系統裡面去。」

但其實並不是「傻子」,在新的技術,比如說像雲延伸的技術引入方面,網商銀行其實還是走在前面的。

還有實時反欺詐技術,這樣一整套的技術能夠將不良率做到1%或者更低。從金融風險看,業界不良率是5%。「因為今天我們有各種各樣的大數據,AI的計算能力,還有非常優秀的演算法工程師能夠把這些算力、算料、演算法串聯起來,形成一個比較核心的競爭力。」褚霸解釋道。

在交易中,不可或缺的是記錄交易的資料庫,其中一大重點的POLARDB不容忽視。

阿里雲智慧資料庫事業部資深技術專家曹偉(鳴嵩)介紹了阿里巴巴資料庫發展的歷史,經過三個階段:第一個階段是使用IOE,使用Oracle;到了2015、2016年開始自主研發POLARDB,再到今年100%上雲,所有阿里的核心的交易還有庫存等等業務都會使用POLARDB以及我們的生態,就是物流雲都在POLARDB支援今年雙十一。

鳴嵩介紹道,我們2010年做了去IOE這件事情,2013年開始起我們把所有的Oracle系統下掉,換成AliSQL,今年我們做了POLARDB,而POLARDB在今年雙十一達到8700萬次每秒的這麼一個峰值TPS,在它的背後我們有在VLDB、SIGMOD、ICDE上發表的創新技術。

IOT技術、自動化技術和智慧演算法,實現數字化和智慧化的倉儲物流

而在物流領域,那些我們看的見的包裹中都蘊含著哪些看不見的技術。

雙11的包裹量從1.52億到今年的12.98億,大概提升了8倍,然後雙11包裹簽售破億時間點從原來的9天到今天我們只需2.4天就可以完成一個包裹的投遞。

「今年我們雙11整個備貨量足可以塞滿1000個鳥巢或者16000架A380飛機。菜鳥到現在為止成立了大概6年的時間,這6年其實菜鳥已經把科技塞到未來的每個毛細血管。」菜鳥北京技術中心資深技術專家陳罡(花名:行易)說道。

首先,在包裹產出也就是倉庫上。 菜鳥」用三個技術來達成數字化,即IOT技術、自動化技術和智慧演算法,確保實現數字化和智慧化的倉儲能力。

例如,每年雙十一,倉庫會招收很多臨時工,但因業務熟練度問題,臨時工培訓和熟練完成工作需要耗費大量時間,而今年IOT技術就包含了一個lemo設備,能夠讓一個臨時工在幾分鐘之內學會怎麼操作,通過這個設備,臨時工可以在一天之內達到99%的熟練度。

11月12日,阿里巴巴的董事長兼CEO張勇就在倉庫里,花了5分鐘時間使用了Lemo,他親自點選了一些訂單,並且在10分鐘之內就把整個工作流程做完了。

目前,菜鳥在全國的自動化流水線已經超過了5000公里,自動化設備比去年增加了50%以上。在無錫還有一個機器人的生產線,在驛站這邊「秒取快遞」技術,自助可以通過刷臉取快遞等一系列的。另外,電子面單使用率超過99%,大幅度的減少了整個中國的物流成本。

綠色數據中心、開放式網路架構、RDMA高性能網路、彈性跨域訪問和自研數據平台,5項絕技縱橫江湖

以上大多技術,都需要基礎設施去支撐。在基礎設施的人眼中,雙十一是什麼?

阿里雲智慧基礎設施事業部資深技術專家 唐陵波(花名:龍現)談道,「我們認為雙十一就是華山論劍,阿里毫無疑問是世界第一。但是我們認為,所有的武功都不是一天練的,創新的內功和賦能的武器才是我們在華山之巔拿到的利器、基石。

阿里是怎麼練內功的呢?這就要看阿里綠色數據中心裡一個比較創新的技術,叫液冷伺服器,這個技術在2016年上線了1.0版本,現在是2.0,已經在阿里做了大規模的部署。今年雙十一,液冷技術能夠把每萬筆交易量的耗電量降到2度左右。如果所有的交易都放在液冷上實現的話,雙11當天可以節約15萬度左右的電

目前,阿里巴巴數據中心已經遍布了200多個國家和地區。這樣分布廣泛的數據中心被看作是易筋經一樣的肋骨,是驅動阿里一切商業行為和商業流量的基礎,不僅能夠支援雙十一的峰值而且能夠提供彈性的服務。另外,液冷技術近期將會開源。

練完內功再來看屠龍寶刀,也就是阿里的自研伺服器,它能夠優化阿里應用場景,促進產業生態研進。在存儲場景中,龍現重點介紹了AliFlash,它已經廣泛運用在存儲場景裡面,通過硬體的創新和軟體技術的結合,阿里現在做到了軟體一體化上下的協同設計,在性能和功能上都有突破性的創新。

在阿里百萬級的伺服器規模背後,怎麼讓資源能夠充分利用?龍現說道,「我覺得極致彈性和自動化,是我們能夠支撐這麼大規模的伺服器,放在我們自己的數據中心裏面的一個最重要的原因。」

還有被龍現比作倚天劍的自研交換機,自研交換機就是阿里在網路領域的一個重大的技術創新,實際上是就是網路界的去IOE,它承擔了大部分的核心流量、網路流量,能夠讓大家感知不到網路的減速或「晃動」,使雙11平滑過去。

另外,RDMA網路也是一個重點技術,今年像存儲計算分離之後的雲盤和核心資料庫的核心交易量,在去年的基礎上發展了3倍,所有的這一切就是阿里在數據中心網路裡面做的幾個比較突出的工作。

供應鏈中也蘊含著太極拳。「大家都知道太極拳是以靜制動的,放在企業層面它更多強調的是人的協同。從當初集團決定雙11上雲使用神龍,到最後上線只有兩個月時間,供貨、備貨、測試都非常緊張,但是供應鏈的同事通過優化庫存、優化流程,然後去幫助供應鏈廠商優化資源共享,極大的提高了供應鏈的交付情況,取得了較為滿意的結果,有效的支援了雙11上雲這個目標。」龍現解釋道。

總結來看,支援雲上雙十一的硬核基礎設施,共有5項絕技縱橫江湖綠色數據中心、開放式的網路架構、RDMA高性能網路、彈性跨域訪問和自研數據平台。

未來將持續擁抱開源,擁抱雲原生技術,以技術效率提升商業效率

在過去十幾年電商的發展的背後是技術力量的持續發展,電商的發展帶給技術巨大的挑戰,技術的突破和變革也支撐起電商業務規模的不斷壯大和商業場景的拓寬。

阿里巴巴淘系技術部資深技術專家洪海(花名:孤星)談道,我們經歷了系統架構從集中式到分散式,從中心化到去中心化,從私有雲到混合雲,今天全面進入阿里雲的公有雲的過程。在這個業務的高速發展的過程中,一個個難題放在了技術人的面前,最大的挑戰來自雙十一,在這個巨大的商業盛況的背後是一層層技術的突破。

網路、伺服器、存儲這些基礎設施多年來發生了翻天覆地的變化,微服務,容器化,資料庫等一系列的底層技術和框架的持續演進,帶動了電商技術今天在搜索,個性化推薦,影片互動,消息等各個應用領域支撐和連接著數億消費者。

解決了業務規模增長的技術瓶頸之後成本的問題擺在了阿里人的眼前。為此,電商開始嘗試混合雲的架構,在大促時短時間內租用雲的機器進行擴容,進而形成了雲單元,另一方面又利用離線大數據集群和在線集群的錯峰互補,形成了混布技術。在這個階段我容器化技術飛速發展,Pouch容器和Sigma調度系統成為了整個資源管理調度的基石,支撐了數百萬的容器的管理和運行。通過這一系列手段,應對雙十一峰值的計算資源的成本得到了有效的控制。

在成本問題之後,阿里藉助神龍伺服器、雲的彈性能力、秒級擴容技術、雲端一體研發等實現了更有效率和更加開放。

最後,孤星表示,「未來我們將持續擁抱開源,擁抱雲原生技術,全面上雲。通過技術效率的提升推動商業更有效率,生態更加開放,讓技術創造新商業。

新智元報道

編輯:亮亮