Http協議Content-Length詳解

  • 2019 年 10 月 14 日
  • 筆記

前言

http協議是互聯網中最重要的協議之一,雖然看上去很簡單,但是實際中經常遇到問題,我們就已經遇到好幾次了。有長連接相關的,有報文解析相關的。對http協議不能一知半解,必須透徹理解才行。本文通過一個線上實例,詳細介紹http協議中的content-length欄位。

問題

我們的手機App在做更新時會從伺服器上下載的一些資源,一般都是一些小文件,更新的程式碼差不多是下面這樣的:

static void update() throws IOException {      URL url = new URL("http://172.16.59.129:8000/update/test.so");      HttpURLConnection conn = (HttpURLConnection) url.openConnection();      if(conn.getResponseCode() == 200) {          int totalLength = conn.getContentLength();      BufferedInputStream in = new BufferedInputStream(conn.getInputStream());      byte[] buffer = new byte[512];      int readLength = 0;      int length = 0;      while((length=in.read(buffer)) != -1) {          readLength += length;          //進度條          System.out.println(((float)readLength) /((float)(totalLength)));      }      }  }

比如上面的程式碼更新一個so文件,先通過content-length獲取文件的總大小,然後讀Stream,每讀一段,就計算出當前讀的總大小,除以content-length,用來顯示進度條。

結果weblogic從10升級到12後,content-length一直返回-1,這樣就不能顯示進度條了,但是文件流還能正常讀。把weblogic重啟了,一開始還能返回content-length,一會又是-1了。

原因分析

Http協議的請求報文和回復報文都有header和body,body就是你要獲取的資源,例如一個html頁面,一個jpeg圖片,而header是用來做某些約定的。例如客戶端與服務端商定一些傳輸格式,客戶端先獲取頭部,得知一些格式資訊,然後才開始讀取body。

客戶端: Accept-Encoding:gzip (給我壓縮一下,我用的是流量,先下載下來我再慢慢解壓吧)

服務端1:Content-Encoding:null(沒有Content-Encoding頭。 我不給壓縮,CPU沒空,你愛要不要)

服務端2:Content-Encoding:gzip (給你節省流量,壓縮一下)

客戶端:Connection: keep-alive (大哥,咱好不容易建了個TCP連接,下次接著用)

服務端1: Connection: keep-alive (都不容易,接著用)

服務端2: Connection: close (誰跟你接著用,我們這個TCP是一次性的,下次再找我還得重新連)

http協議沒有三次握手,一般客戶端向服務端請求資源時,以服務端為準。還有一些header並沒有協商的過程,而是服務端直接告訴客戶端按什麼來。例如上述的Content-Length,是服務端告訴客戶端body的大小有多大。但是!服務端並不一定能準確的提前告訴你body有多大。服務端要先寫header,再寫body,如果要在header里把body大小寫進去,就得提前知道body大小。如果這個body是動態生成的,服務端先生成完,再開始寫header,這樣需要很多額外的開銷,所以header里不一定有content-length。

那客戶端怎麼知道body的大小呢?伺服器有三種方式告訴你。

1.伺服器已經知道資源大小,通過content-length這個header告訴你。

Content-Length:1076(body的大小是1076B,你讀取1076B就可以完成任務了)  Transfer-Encoding: null

2.伺服器沒法提前知道資源的大小,或者不願意花費資源提前計算資源大小,就會把http回復報文中加一個header叫Transfer-Encoding:chunked,就是分塊傳輸的意思。每一塊都使用固定的格式,前邊是塊的大小,後面是數據,然後最後一塊大小是0。這樣客戶端解析的時候就需要注意去掉一些無用的欄位。

Content-Length:null  Transfer-Encoding:chunked (接下來的body我要一塊一塊的傳,每一塊開始是這一塊的大小,等我傳到大小為0的塊時,就沒了)

3.伺服器不知道資源的大小,同時也不支援chunked的傳輸模式,那麼就既沒有content-length頭,也沒有transfer-encoding頭,這種情況下必須使用短連接,以連接結束來標示數據傳輸結束,傳輸結束就能知道大小了。這時候伺服器返回的header里Connection一定是close。

Content-Length:null    Transfer-Encoding:null    Connection:close(我不知道大小,我也用不了chunked,啥時候我關了tcp連接,就說明傳輸結束了)

實驗

我通過nginx在虛擬機里做實驗,默認nginx是支援chunked模式的,可以關掉。

使用的程式碼如下,可能會調整參數。

static void update() throws IOException {      URL url = new URL("http://172.16.59.129:8000/update/test.so");      HttpURLConnection conn = (HttpURLConnection) url.openConnection();      //conn.setRequestProperty("Accept-Encoding", "gzip");      //conn.setRequestProperty("Connection", "keep-alive");      conn.connect();      if(conn.getResponseCode() == 200) {          System.out.println(conn.getHeaderFields().keySet());          System.out.println(conn.getHeaderField("transfer-encoding"));          System.out.println(conn.getHeaderField("Content-Length"));          System.out.println(conn.getHeaderField("Content-Encoding"));          System.out.println(conn.getHeaderField("Connection"));      }  }

1.nginx在開啟chunked_transfer_encoding的時候

(1) 在reqeust header里不使用gzip,也就是不加accept-encoding:gzip

test.so文件大小 結果
100B 能正常返回content-length,沒有transfer-encoding頭
69M 能正常返回content-length,沒有transfer-encoding頭
3072M 能正常返回content-length,沒有transfer-encoding頭

可以發現nginx不管資源多大,如果客戶端不接受gzip的壓縮格式,就不會使用chunked模式,而且跟是否使用短連接沒關係。

(2)在request header里加入gzip,accepting-encoding:gzip

test.so文件大小 結果
100B 沒有content-length,transfer-encoding=trunked
69M 沒有content-length,transfer-encoding=trunked
3072M 沒有content-length,transfer-encoding=trunked

可以看到nginx在開啟chunked_transfer_encoding,並且客戶端接受gzip的時候,會使用chunked模式,nginx開啟gzip後不會計算資源的大小,直接用chunked模式。

2.nginx關閉chunked_transfer_encoding

(1) 在reqeust header里不使用gzip,也就是不加accept-encoding:gzip

test.so文件大小 結果
100B 能正常返回content-length,沒有transfer-encoding頭
69M 能正常返回content-length,沒有transfer-encoding頭
3072M 能正常返回content-length,沒有transfer-encoding頭

因為能很容易的知道文件大小,所以nginx還是能返回content-length。

(2)在request header里加入gzip,accepting-encoding:gzip

test.so文件大小 結果
100B 沒有content-length和transfer-encoding頭,不論客戶端connection為keep-alive還是close,服務端返回的connection頭都是close
69M 沒有content-length和transfer-encoding頭,不論客戶端connection為keep-alive還是close,服務端返回的connection頭都是close
3072M 沒有content-length和transfer-encoding頭,不論客戶端connection為keep-alive還是close,服務端返回的connection頭都是close

這就是上面說的第三種情況,不知道大小,也不支援trunked,那就必須使用短連接來標示結束。

問題解決方案

諮詢了中間件組的同事,以前也遇到類似的問題,因為升級了Weblogic導致客戶端解析XML出錯,因為使用了chunked模式,中間有一些格式化的字元,而客戶端解析的程式碼並沒有考慮chunked模式的解析,導致解析出錯。

因為我們客戶端必須用content-length展示進度,因此不能用chunked模式,Weblogic可以把chunked模式關閉。用下面的方法:

#!java weblogic.WLST  connect('username』,'password', 't3://localhost:7001')  edit()  startEdit()  cd("Servers/AdminServer/WebServer/AdminServer")  cmo.setChunkedTransferDisabled(true)  save()  activate()  exit()

改了之後,確實不返回chunked了,但是也沒有content-length,因為Weblogic就是不提前獲取文件大小,而是強制加了connection:close,也就是前邊說的第三種,通過連接結束標識數據結束。最後只能把這些資源放倒apache里了。

總結

一個好的http客戶端,必須充分實現協議,不然就可能出問題,瀏覽器對於服務端可能產生的各種情況都很好的做了處理,但是自己實現http協議的解析時一定得注意考慮多種情況。