使用Netty,我們到底在開發些什麼?

  • 2019 年 10 月 6 日
  • 筆記

在java界,netty無疑是開發網路應用的拿手菜。你不需要太多關注複雜的nio模型和底層網路的細節,使用其豐富的介面,可以很容易的實現複雜的通訊功能。

和golang的網路模組相比,netty還是太過臃腫。不過java類框架就是這樣,屬於那種離了IDE就無法存活的編碼語言。

最新的netty版本將模組分的非常細,如果不清楚每個模組都有什麼內容,直接使用netty-all即可。

單純從使用方面來說,netty是非常簡單的,掌握ByteBuf、Channel、Pipeline、Event模型等,就可以進行開發了。你會發現面試netty相關知識,沒得聊。但Netty與其他開發模式很大不同,最主要的就是其非同步化。非同步化造成的後果就是編程模型的不同,同時有調試上的困難,對編碼的要求比較高,因為bug的代價與業務程式碼的bug代價不可同日而語。

但從項目來說,麻雀雖小五臟俱全,從業務層到服務網關,以及各種技術保障,包括監控和配置,都是需要考慮的因素。netty本身佔比很小。

本文將說明使用netty開發,都關注哪些通用的內容,然後附上單機支援100w連接的linux配置。本文並不關注netty的基礎知識。

協議開發

網路開發中最重要的就是其通訊格式,協議。我們常見的protobuf、json、avro、mqtt等,都屬於此列。協議有語法、語義、時序三個要素。

我見過很多中間件應用,採用的是redis協議,而後端落地的卻是mysql;也見過更多的採用mysql協議實現的各種自定義存儲系統,比如proxy端的分庫分表中間件、tidb等。

我們常用的redis,使用的是文本協議;mysql等實現的是二進位協議。放在netty中也是一樣,實現一套codec即可(繼承Decoder或Encoder系列)。netty默認實現了dns、haproxy、http、http2、memcache、mqtt、redis、smtp、socks、stomp、xml等協議,可以說是很全了,直接拿來用很爽。

一個可能的產品結構會是這樣的,對外提供一致的外觀,核心存儲卻不同:

文本協議在調試起來是比較直觀和容易的,但安全性欠佳;而二進位協議就需要依賴日誌、wireshark等其他方式進行分析,增加了開發難度。傳說中的粘包拆包,就在這裡處理。而造成粘包的原因,主要是由於緩衝區的介入,所以需要約定雙方的傳輸概要等資訊,netty在一定程度上解決了這個問題。

每一個想要開發網路應用的同學,心裡都埋了一顆重新設計協議的夢想種子。但協議的設計可以說是非常困難了,要深耕相應業務,還要考慮其擴展性。如沒有特別的必要,建議使用現有的協議。

連接管理功能

做Netty開發,連接管理功能是非常重要的。通訊品質、系統狀態,以及一些黑科技功能,都是依賴連接管理功能。

無論是作為服務端還是客戶端,netty在創建連接之後,都會得到一個叫做Channel的對象。我們所要做的,就是對它的管理,我習慣給它起名叫做ConnectionManager

管理類會通過快取一些記憶體對象,用來統計運行中的數據。比如面向連接的功能:包發送、接收數量;包發送、接收速率;錯誤計數;連接重連次數;調用延遲;連接狀態等。這會頻繁用到java中concurrent包的相關類,往往也是bug集中地。

但我們還需要更多,管理類會給予每個連接更多的功能。比如,連接創建後,想要預熱一些功能,那這些狀態就可以參與路由的決策。通常情況下,將用戶或其他元資訊也attach到連接上,能夠多維度的根據條件篩選一些連接,進行批量操作,比如灰度、過載保護等,是一個非常重要的功能。

管理後台可以看到每個連接的資訊,篩選到一個或多個連接後,能夠開啟對這些連接的流量錄製、資訊監控、斷點調試,你能體驗到掌控一切的感覺。

管理功能還能夠看到系統的整個運行狀態,及時調整負載均衡策略;同時對擴容、縮容提供數據依據。

心跳檢測

應用協議層的心跳是必須的,它和tcp keepalive是完全不同的概念。

應用層協議層的心跳檢測的是連接雙方的存活性,兼而連接品質,而keepalive檢測的是連接本身的存活性。而且後者的超時時間默認過長,完全不能適應現代的網路環境。

心跳就是靠輪訓,無論是服務端,還是客戶端比如GCM等。保活機制會在不同的應用場景進行動態的切換,比如程式喚起和在後台,輪訓的策略是不一樣的。

Netty內置通過增加IdleStateHandler產生IDLE事件進行便捷的心跳控制。你要處理的,就是心跳超時的邏輯,比如延遲重連。但它的輪訓時間是固定的,無法動態修改,高級功能需要自己訂製。

在一些客戶端比如Android,頻繁心跳的喚起會浪費大量的網路和電量,它的心跳策略會更加複雜一些。

邊界

優雅退出機制

Java的優雅停機通常通過註冊JDK ShutdownHook來實現。

Runtime.getRuntime().addShutdownHook();

一般通過kill -15進行java進程的關閉,以便在進程死亡之前進行一些清理工作。

注意:kill -9 會立馬殺死進程,不給遺言的機會,比較危險。

雖然netty做了很多優雅退出的工作,通過EventLoopGroupshutdownGracefully方法對nio進行了一些狀態設置,但在很多情況下,這還不夠多。它只負責單機環境的優雅關閉。

流量可能還會通過外層的路由持續進入,造成無效請求。我的通常做法是首先在外層路由進行一次本地實例的摘除,把流量截斷,然後再進行netty本身的優雅關閉。這種設計非常簡單,即使沒有重試機制也會運行的很好,前提是在路由層需要提前暴露相關介面。

異常處理功能

netty由於其非同步化的開發方式,以及其事件機制,在異常處理方面就顯得異常重要。為了保證連接的高可靠性,許多異常需要靜悄悄的忽略,或者在用戶態沒有感知。

netty的異常會通過pipeline進行傳播,所以在任何一層進行處理都是可行的,但編程習慣上,習慣性拋到最外層集中處理。

為了最大限度的區別異常資訊,通常會定義大量的異常類,不同的錯誤會拋出不同的異常。發生異常後,可以根據不同的類型選擇斷線重連(比如一些二進位協議的編解碼紊亂問題),或者調度到其他節點。

功能限制

指令模式

網路應用就該干網路應用的事,任何通訊都是昂貴的。在《Linux之《荒島餘生》(五)網路篇》中,我們談到百萬連接的伺服器,廣播一個1kb消息,就需要1000M的頻寬,所以並不是什麼都可以放在網路應用里的。

一個大型網路應用的合理的思路就是值發送相關指令。客戶端在收到指令以後,通過其他方式,比如http,進行大型文件到獲取。很多IM的設計思路就是如此。

指令模式還會讓通訊系統的擴展性和穩定性得到保證。增加指令可以是配置式的,立即生效,服務端不需要編碼重啟。

穩定性保證

網路應用的流量一般都是非常大的,並不適合全量日誌的開啟。應用應該只關注主要事件的日誌,關注異常情況下的處理流程,日誌要列印有度。

網路應用也不適合調用其他緩慢的api,或者任何阻塞I/O的介面。一些實時的事件,也不應該通過調用介面吐出數據,可以走高速mq等其他非同步通道。

快取可能是網路應用里用的最多的組件。jvm內快取可以存儲一些單機的統計數據,redis等存儲一些全局性的統計和中間態數據。

網路應用中會大量使用redis、kv、高吞吐的mq,用來快速響應用戶請求。總之,盡量保持通訊層的清爽,你會省去很多憂慮。

單機支援100萬連接的Linux配置

單機支援100萬連接是可行的,但頻寬問題會成為顯著的瓶頸。啟用壓縮的二進位協議會節省部分頻寬,但開發難度增加。

《LWP進程資源耗盡,Resource temporarily unavailable》中提到的ES配置一樣,優化都有類似的思路。這份配置,可以節省你幾天的時間,請收下!

作業系統優化

更改進程最大文件句柄數

ulimit -n 1048576

修改單個進程可分配的最大文件數

echo 2097152 > /proc/sys/fs/nr_open

修改/etc/security/limits.conf文件

*   soft nofile  1048576  *   hard nofile 1048576  *   soft nproc unlimited  root soft nproc unlimited

記得清理掉/etc/security/limits.d/*下的配置

網路優化

打開/etc/sysctl.conf,添加配置 然後執行,使用sysctl生效

#單個進程可分配的最大文件數  fs.nr_open=2097152    #系統最大文件句柄數  fs.file-max = 1048576    #backlog 設置  net.core.somaxconn=32768  net.ipv4.tcp_max_syn_backlog=16384  net.core.netdev_max_backlog=16384    #可用知名埠範圍配置  net.ipv4.ip_local_port_range='1000 65535'    #TCP Socket 讀寫 Buffer 設置  net.core.rmem_default=262144  net.core.wmem_default=262144  net.core.rmem_max=16777216  net.core.wmem_max=16777216  net.core.optmem_max=16777216  net.ipv4.tcp_rmem='1024 4096 16777216'  net.ipv4.tcp_wmem='1024 4096 16777216'    #TCP 連接追蹤設置  net.nf_conntrack_max=1000000  net.netfilter.nf_conntrack_max=1000000  net.netfilter.nf_conntrack_tcp_timeout_time_wait=30    #TIME-WAIT Socket 最大數量、回收與重用設置  net.ipv4.tcp_max_tw_buckets=1048576    # FIN-WAIT-2 Socket 超時設置  net.ipv4.tcp_fin_timeout = 15

總結

netty的開發工作並不集中在netty本身,更多體現在保證服務的高可靠性和穩定性上。同時有大量的工作集中在監控和調試,減少bug修復的成本。

深入了解netty是在系統遇到疑難問題時能夠深入挖掘進行排查,或者對苛刻的性能進行提升。但對於廣大應用開發者來說,netty的上手成本小,死挖底層並不會產生太多收益。

它只是個工具,你還能讓它怎樣啊。