邊緣計算場景下雲邊端一體化的挑戰與實踐
本文整理自騰訊雲專家工程師王繼羅在 2020年12月深圳 Qcon 大會上的分享內容——邊緣計算場景下雲邊端一體化的挑戰與實踐 。
邊緣計算想必大家都已經聽過了,但是如何將業務擴展到邊緣,從而實現更大的業務價值呢?
關於這個問題,騰訊雲早在幾年前就已開始進行思考,並且着手打造了雲邊端一體化的超融合平台,目的是希望能夠讓業務可以更容易落地到邊緣。
今天,我們就從以下三個部分展開,跟大家分享騰訊雲在建設超融合平台時的一些經驗:
-
第一部分:主要介紹邊緣計算有什麼作用、業務落地邊緣存在哪些挑戰、以及為什麼要有雲邊端一體化;
-
第二部分:主要介紹騰訊雲在打造超融合平台時的一些實戰經驗和進展;
-
第三部分:介紹 3 個邊緣業務落地案例。
雲計算髮展趨勢
提到雲計算,大家第一時間就會想起中心雲計算。中心雲計算是一種集中式架構,計算資源位於中心機房,由雲廠商統一維護。那麼,這種模式有什麼好處呢?
-
業務方不再需要管理底層資源,更能聚焦於業務本身,降低了管理成本;
-
業務方可以靈活高效地申請、使用、退還底層資源,從整體上提高了資源利用率,降低了資源的使用成本。
而邊緣計算,是一種分佈式計算,計算資源分散在離數據源比較近的地方,達到就近提供服務的目的。從時間維度上看,邊緣計算的發展可以分為 3 個階段:
-
技術形成期,1998 – 2013。最早可以追溯到內容分髮網絡(CDN),主要用途把數據緩存在離用戶近的位置,達到縮短數據下載時間,提高用戶體驗的目的。
-
快速發展期,2014 – 2017。由於滿足萬物互聯的需求,引起國內外學術界和產業界的密切關注,各機構紛紛出台相關的白皮書。
-
實際落地期,2018 – ? 隨着 5G 的發展,出現越來越多的落地場景,進入政府工作指導報告,基本上可以預見邊緣計算會開始爆發。
邊緣計算有什麼用
前面我們講了邊緣計算是什麼,有些人就會有這樣一個疑問:既然我們已經有了中心雲計算,為什麼還需要邊緣計算?邊緣計算能帶來什麼價值呢?
其實隨着技術不斷地發展,雲計算的範疇已經從中心不斷地向邊緣擴展,演變成了中心雲-邊緣雲-端設備協同工作的架構模式。
為什麼會發生這樣變化呢?主要是因為需求和場景在不斷變化,尤其是許多傳統行業在信息化改造過程中提出來更多新需求,如:工業製造、港口物流、交通能源等等。
以智能製造為例,智能製造的本質就是設備智能化、信息化,整個系統的工作流程是:採集數據、處理數據、指導生產。這帶來了兩個方面的問題:
-
高實時性要求。很多工業數據具有極強的實時性,過期時間非常短,往往只有幾毫秒,這就要求採集數據、數據處理、指導生產的整個過程需要在幾毫秒內完成。如果上傳到雲端處理,然後從雲端返回控制指令,整個過程就會耗時比較長,顯然不能滿足時效性要求,會造成嚴重的後果,比如製造出的產品精度不夠,或者次品率比較高,所以就近處理數據是智能製造的核心。
-
海量數據如何處理。智能工控設備、傳感器源源不斷地產生工業產品及環境方面的數據,帶來很高的傳輸和存儲成本,這些成本甚至超過智能化帶來的利潤,反而成了工業往智能化轉型的阻礙。另一方面,這些數據 90% 以上都是無效數據,如果可以儘可能早地篩選出有用數據,去除無效數據,就可以很好地降低傳輸和存儲成本。
再舉一個高清視頻的例子,4K的高清視頻需要至少 40M 帶寬,帶寬容量和成本是我們必須考慮的重要因素,相對於中心機房,邊緣機房的總帶寬容量要大,單價也更便宜,因此這類服務很適合部署在邊緣。
總的來說,邊緣計算可以帶來4個方面的好處,容量更大、時延更低、成本更低、支持本地化處理。
邊緣計算架構
前面我們講了雲計算在逐步演變成中心雲-邊緣雲-端設備協同工作的模式,那新模式下的架構如何呢?
以騰訊云為例,中心雲通常指的是 IDC 機房,邊緣雲依次會是 ec、oc、mec 機房,現場設備一般位於數據源附近,比如:家庭網關、交通燈路口、港口/園區/礦山內部。
通常物聯設備與邊緣端設備之間的時延可以控制在 2 ms內,適合處理實時性要求極高的業務數據,比如工業控制類的業務。
與邊緣雲之間的時延可以控制在 10ms 內,可以滿足實時音視頻、ARVR、雲遊戲的業務場景。
這就是邊緣計算的大致架構情況。
帶來的挑戰
下面我們一起看一下邊緣計算場景會帶來哪些新挑戰。
-
異構嚴重。在軟硬件兩方面都有體現,像中心雲和邊緣雲通常採用x86和linux 標準發行版,而邊緣資源由於需要考慮成本以及業務的特殊要求很可能是採用成本更便宜或者是定製化的軟硬件方案。
-
規模龐大。根據各種權威機構預測,2025年全球物聯設備數量會突破千億,分佈在全球各地。如何去管理這麼大規模的設備也是一項很有挑戰的任務
-
環境複雜。位於雲機房的設備還好,很多終端設備常常位於惡劣的環境,你比如鍊鋼廠的很多設備長期處於高溫環境、水利監測方面的設備部署環境往往都比較潮濕。設備網絡環境也是各種各樣,有線的、無線的,無線又有 WIFI、4G5G網絡、zigbee等等。
-
標準不統一。很多地方還處於沒有標準,或者是有很多標準但沒有一種公認標準,尤其是在管理方式上極其不統一。
這些挑戰帶來的後果就是:
-
效率下降。包括研發測試、交付部署、升級運維等等
-
管理困難。規模很大,各方面環境很複雜,標準也很多,想要管好我們的資源也變得困難重重。
-
可靠性降低。邊緣環境很惡劣,如何在惡劣的環境下保證服務質量也是一個難題
雲邊端一體化的意義
邊緣場景有如此多的挑戰,帶來的影響就是業務落地非常困難,這個問題直接阻礙了行業的發展。為了降低業務落地門檻,促進行業順利發展,雲邊端一體化的就顯得很有必要。
一體化體現在多個方面:
-
統一管理。首先,我們要把複雜多變底層資源管理方案統一起來,盡量減少業務對底層細節的不必要感知,比如硬件架構、操作系統、網絡環境等等。其次是提供的管理能力要儘可能與中心雲保持統一,比如監控告警、發佈運維等等各種業務常用的基礎能力。
-
雲邊協同。在邊緣計算場景下,把業務從中心下沉到邊緣是很自然的事情,但是還不夠。通常都需要讓邊緣和雲協同工作起來,比如:把邊緣的有用數據收集到中心進行分析處理,然後繼續反饋到邊緣也是非常有必要的。以AI場景為例,我們可以把推理放到邊緣進行,然後從邊緣收集數據在中心進行訓練,訓練好的模型又下發到邊緣。另外,雲上的能力也需要形成聯動,比如把邊緣的有用數據收集上來,在雲上做呈現和再加工。
-
資源調度。邊緣計算場景下資源很分散,負載隨着時空不同而差異很大,如何根據時空差異對資源做合理有效的調節,使資源使用達到最佳效果也是一件很有意義的事情。合理的資源調度可以讓系統變得更高效、穩定、低成本。
超融合平台的使命
上面我們一起探討了邊緣計算的挑戰和雲邊端一體化的意義,騰訊雲幾年前就開始往這方面投入資源,經過多年沉澱逐步建設了囊括方方面面的超融合平台,接下來再和大家分享下騰訊雲在超融合平台建設方面的實踐。
在建設初期,大家思考得最多的問題就是什麼是超融合平台,我們希望超融合平台給業務帶來什麼樣的好處。經過長時間的摸索,我們確定了超融合平台的使命:讓邊緣資源像中心雲資源一樣容易管理。
簡單來說就是,從平台層面屏蔽底層的複雜性,所有的基礎能力儘可能與中心雲對齊,從而讓業務使用起來感受不到太多差異,業務方可以更加聚焦,把精力集中於具體業務研發,最終讓所有的事情都變得簡單高效。
如何達成這種效果
方向:
-
完全自研。從零開始,代價很高;不具有普適性,難以推廣。
-
擁抱雲原生。雲原生是一種生態,囊括了方方面面的能力,我們可以基於這些能力,而不是重複造輪子,更聚焦於解決邊緣場景的特殊性,達到事半功倍的效果。
方案:
-
使用原生 Kubernetes。並非針對邊緣計算場景,直接在邊緣使用會有一些問題。
-
魔改 Kubernetes。門檻高,代價大,兼容性問題不可忽視。
-
增強 Kubernetes。遵守 Kubernetes 標準,靈活,開放,學習成本低,使用起來容易。
TKE Edge
TKE Edge 是騰訊雲基於原生 Kubernetes 研發的邊緣計算容器系統,它的主要目的是屏蔽錯綜複雜的邊緣計算物理環境,為業務提供一種統一的、標準的資源管理和調度方案。其部分能力已經開源為 SuperEdge 項目。
TKE Edge 有多個特點:
- Kubernetes 原生。以無侵入的方式將 Kubernetes 強大的容器編排、調度能力拓展到邊緣端,其原生支持 Kubernetes,完全兼容 Kubernetes 所有 API 及資源,無額外學習成本。
- 邊緣自治。提供 L3 級邊緣自治能力,當邊緣節點與雲端網絡連接不穩定或處於離線狀態時,邊緣節點可以自主工作,化解了網絡不可靠所帶來的不利影響。
- 分佈式節點健康監測。是業內首個提供邊緣側健康監測能力的開源容器管理系統。SuperEdge 能在邊緣側持續守護進程,並收集節點的故障信息,實現更加快速和精準的問題發現與報告。此外,其分佈式的設計還可以實現多區域、多範圍的監測和管理。
- 內置邊緣編排能力。能夠自動部署多區域的微服務,方便管理運行於多個地區的微服務。同時,網格內閉環服務可以有效減少運行負載,提高系統的容錯能力和可用性。
- 內網穿透。能夠保證 Kubernetes 節點在有無公共網絡的情況下都可以連續運行和維護,並且同時支持傳輸控制協議(TCP)、超文本傳輸協議(HTTP)和超文本傳輸安全協議(HTTPS)。
超融合平台
超融合平台是以底層IaaS為基礎,以TKE Edge為粘接,集成大量騰訊雲上能力和業務的邊雲聯動平台,平台有三大特點:
- 開放性。在 IaaS 資源側,除了可以接入騰訊的資源,還可以很方便地接入用戶已有的計算資源:如其他雲廠商服務器、用戶自建機房、智能設備等等。
- 集成性。平台集成大量雲上基礎服務能力,雲監控、雲日誌、雲運維等,能滿足大部分使用需求;另外還打通了騰訊雲資源,邊緣計算機器、騰訊雲智能網關設備等等。
- 易用性。功能使用方式基本與中心雲使用方式保持一致,無須學習額外的使用知識。
邊緣資源建設情況
-
邊緣計算機器(Edge Computing Machine,ECM)。該產品通過將計算能力從中心節點下沉到靠近用戶的邊緣節點,提供低時延、高可用、低成本的邊緣計算服務,目前已開放 300+ 節點,全國覆蓋。產品主頁://console.cloud.tencent.com/ecm
-
一體化中心。該產品以騰訊雲自研的 Mini T-Block 的移動數據中心基礎設施為載體,融合 5G、邊緣計算、物聯網等技術能力,以及引入騰訊雲邊緣計算 IaaS/PaaS/SaaS平台產品能力,支持雲遊戲、4K直播、機械人等5G 2C和2B業務,提供全面創新、可交付型的5G邊緣計算整體解決方案。
-
邊緣智能網關。該產品是騰訊面對物聯網邊緣應用場景的工業級設備,提供IoT設備接入、AI本地分析、邊雲協同等功能,具有小體積、高可靠、多網絡、超靜音、易管理等特性,適用於園區安防、智慧零售、電力巡檢、智慧路燈、智能交通、水利監測、工業質檢等場景。
邊緣業務落地案例
音視頻業務實踐
-
資源量極大,分佈極廣,異構很嚴重。開發時需要考慮適配不同的硬件環境,測試的工作量成倍增加,發佈上線更是相當麻煩。
-
如果是每個機房部署一套 K8s,一則是帶來的額外資源開銷成本不可忽視,二則會出現上千個集群基本上已經無法管理。
-
接入超融合平台後,通過容器化技術最大程度屏蔽掉底層資源異構,集群數量可以從上千個減少到幾十套。開發、測試、發佈運維成本下降明顯。
工業雲
工業雲的底層是一個私有雲機房,上面部署許多工業領域方面的管理系統。其中交付和運維是他們最頭痛的兩個問題。以往都是派遣交付團隊去客戶現場部署,交付一套系統少則半個月,日常運維、擴容等基本都需要去現場實施,效率很低,成本極高。
對接到超融合平台後,他們的交付精簡成只需在用戶環境中執行一條命令,日常運維等操作全部在雲上完成。
另一個是工業增值業務,以往都是用戶選中需要的增值業務,簽合同,去現場部署,客戶付錢,流程繁瑣,周期很長。現在做出了雲上工業電商模式,用戶把業務加到購物車,自行下單後業務實時生效。
混合資源管理
這個場景的特點是資源類型很多,有雲主機、自建機房、邊緣智能設備,網絡環境也很複雜:4/5G、單向網絡,都有。
以車路協同為例,通常在一個區域有一個雲中心,上面運行車路協同相關的系統管理服務;雲中心之下是邊緣雲小機房,數量從幾個到上百個不等,主要做數據存儲;再下面是路口智能設備,運行 AI 推理方面的服務,負責處理路口攝像頭視頻數據;
以前的管理方式是在中心雲和邊緣雲均部署一套 K8s,路口智能設備由於資源有限不足以部署完整的 Kubernetes 集群,未容器化。這場景兩大主要痛點是:
- 集群數量太多,管理起來是一個沉重的負擔。另一個是服務更新和配置升級很麻煩,需要一個一個集群操作,很容易遺漏。
- 路口智能設備由於未容器化,無論是服務升級還是線上 debug 均不方便。
由於超融合平台不要求邊緣資源在同一內網,很方便就在同一個集群內同時管理中心雲、邊緣雲、路口設備,很好地解決了上面提到的兩個痛點。
【騰訊雲原生】雲說新品、雲研新術、雲遊新活、雲賞資訊,掃碼關注同名公眾號,及時獲取更多乾貨!!