爬蟲 (六) 必須掌握的基礎概念 (三)

  • 2019 年 12 月 15 日
  • 筆記

01

客戶端 和 HTTP 請求

URL只是標識資源的位置,而HTTP是用來提交和獲取資源。客戶端發送一個HTTP請求到伺服器的請求消息,包括以下格式:

請求行請求頭部空行請求數據

四個部分組成,下圖給出了請求報文的一般格式

一個典型的HTTP請求示例
GET https://www.baidu.com/ HTTP/1.1  Host: www.baidu.com  Connection: keep-alive  Upgrade-Insecure-Requests: 1  User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36  Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8  Referer: http://www.baidu.com/  Accept-Encoding: gzip, deflate, sdch, br  Accept-Language: zh-CN,zh;q=0.8,en;q=0.6  Cookie: BAIDUID=04E4001F34EA74AD4601512DD3C41A7B:FG=1; BIDUPSID=04E4001F34EA74AD4601512DD3C41A7B; PSTM=1470329258; MCITY=-343%3A340%3A; BDUSS=nF0MVFiMTVLcUh-Q2MxQ0M3STZGQUZ4N2hBa1FFRkIzUDI3QlBCZjg5cFdOd1pZQVFBQUFBJCQAAAAAAAAAAAEAAADpLvgG0KGyvLrcyfrG-AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAFaq3ldWqt5XN; H_PS_PSSID=1447_18240_21105_21386_21454_21409_21554; BD_UPN=12314753; sug=3; sugstore=0; ORIGIN=0; bdime=0; H_PS_645EC=7e2ad3QHl181NSPbFbd7PRUCE1LlufzxrcFmwYin0E6b%2BW8bbTMKHZbDP0g; BDSVRTM=0  請求方法GET https://www.baidu.com/ HTTP/1.1根據HTTP標準,HTTP請求可以使用多種請求方法。HTTP 0.9:只有基本的文本 GET 功能。HTTP 1.0:完善的請求/響應模型,並將協議補充完整,定義了三種請求方法:GET, POST 和 HEAD方法。HTTP 1.1:在 1.0 基礎上進行更新,新增了五種請求方法:OPTIONS, PUT, DELETE, TRACE 和 CONNECT 方法。HTTP 2.0(未普及):請求/響應首部的定義基本沒有改變,只是所有首部鍵必須全部小寫,而且請求行要獨立為 :method、:scheme、:host、:path這些鍵值對。序號方法描述1GET請求指定的頁面資訊,並返回實體主體。2HEAD類似於get請求,只不過返回的響應中沒有具體的內容,用於獲取報頭3POST向指定資源提交數據進行處理請求(例如提交表單或者上傳文件),數據被包含在請求體中。POST請求可能會導致新的資源的建立和/或已有資源的修改。4PUT從客戶端向伺服器傳送的數據取代指定的文檔的內容。5DELETE請求伺服器刪除指定的頁面。6CONNECTHTTP/1.1協議中預留給能夠將連接改為管道方式的代理伺服器。7OPTIONS允許客戶端查看伺服器的性能。8TRACE回顯伺服器收到的請求,主要用於測試或診斷。HTTP請求主要分為Get和Post兩種方法GET是從伺服器上獲取數據,POST是向伺服器傳送數據GET請求參數顯示,都顯示在瀏覽器網址上,HTTP伺服器根據該請求所包含URL中的參數來產生響應內容,即「Get」請求的參數是URL的一部分。例如: http://www.baidu.com/s?wd=ChinesePOST請求參數在請求體當中,消息長度沒有限制而且以隱式的方式進行發送,通常用來向HTTP伺服器提交量比較大的數據(比如請求中包含許多參數或者文件上傳操作等),請求的參數包含在「Content-Type」消息頭裡,指明該消息體的媒體類型和編碼,注意:避免使用Get方式提交表單,因為有可能會導致安全問題。比如說在登陸表單中用Get方式,用戶輸入的用戶名和密碼將在地址欄中暴露無遺。常用的請求報頭1. Host (主機和埠號)Host:對應網址URL中的Web名稱和埠號,用於指定被請求資源的Internet主機和埠號,通常屬於URL的一部分。2. Connection (鏈接類型)Connection:表示客戶端與服務連接類型Client 發起一個包含 Connection:keep-alive 的請求,HTTP/1.1使用 keep-alive 為默認值。Server收到請求後:如果 Server 支援 keep-alive,回復一個包含 Connection:keep-alive 的響應,不關閉連接;如果 Server 不支援 keep-alive,回復一個包含 Connection:close 的響應,關閉連接。如果client收到包含 Connection:keep-alive 的響應,向同一個連接發送下一個請求,直到一方主動關閉連接。keep-alive在很多情況下能夠重用連接,減少資源消耗,縮短響應時間,比如當瀏覽器需要多個文件時(比如一個HTML文件和相關的圖形文件),不需要每次都去請求建立連接。3. Upgrade-Insecure-Requests (升級為HTTPS請求)Upgrade-Insecure-Requests:升級不安全的請求,意思是會在載入 http 資源時自動替換成 https 請求,讓瀏覽器不再顯示https頁面中的http請求警報。HTTPS 是以安全為目標的 HTTP 通道,所以在 HTTPS 承載的頁面上不允許出現 HTTP 請求,一旦出現就是提示或報錯。4. User-Agent (瀏覽器名稱)User-Agent:是客戶瀏覽器的名稱,以後會詳細講。5. Accept (傳輸文件類型)Accept:指瀏覽器或其他客戶端可以接受的MIME(Multipurpose Internet Mail Extensions(多用途互聯網郵件擴展))文件類型,伺服器可以根據它判斷並返回適當的文件格式。舉例:Accept: */*:表示什麼都可以接收。Accept:image/gif:表明客戶端希望接受GIF影像格式的資源;Accept:text/html:表明客戶端希望接受html文本。Accept: text/html, application/xhtml+xml;q=0.9, image/*;q=0.8:表示瀏覽器支援的 MIME 類型分別是 html文本、xhtml和xml文檔、所有的影像格式資源。q是權重係數,範圍 0 =< q <= 1,q 值越大,請求越傾向於獲得其「;」之前的類型表示的內容。若沒有指定q值,則默認為1,按從左到右排序順序;若被賦值為0,則用於表示瀏覽器不接受此內容類型。Text:用於標準化地表示的文本資訊,文本消息可以是多種字符集和或者多種格式的;Application:用於傳輸應用程式數據或者二進位數據。詳細請點擊6. Referer (頁面跳轉處)Referer:表明產生請求的網頁來自於哪個URL,用戶是從該 Referer頁面訪問到當前請求的頁面。這個屬性可以用來跟蹤Web請求來自哪個頁面,是從什麼網站來的等。有時候遇到下載某網站圖片,需要對應的referer,否則無法下載圖片,那是因為人家做了防盜鏈,原理就是根據referer去判斷是否是本網站的地址,如果不是,則拒絕,如果是,就可以下載;7. Accept-Encoding(文件編解碼格式)Accept-Encoding:指出瀏覽器可以接受的編碼方式。編碼方式不同於文件格式,它是為了壓縮文件並加速文件傳遞速度。瀏覽器在接收到Web響應之後先解碼,然後再檢查文件格式,許多情形下這可以減少大量的下載時間。舉例:Accept-Encoding:gzip;q=1.0, identity; q=0.5, *;q=0如果有多個Encoding同時匹配, 按照q值順序排列,本例中按順序支援 gzip, identity壓縮編碼,支援gzip的瀏覽器會返回經過gzip編碼的HTML頁面。 如果請求消息中沒有設置這個域伺服器假定客戶端對各種內容編碼都可以接受。8. Accept-Language(語言種類)Accept-Langeuage:指出瀏覽器可以接受的語言種類,如en或en-us指英語,zh或者zh-cn指中文,當伺服器能夠提供一種以上的語言版本時要用到。9. Accept-Charset(字元編碼)Accept-Charset:指出瀏覽器可以接受的字元編碼。舉例:Accept-Charset:iso-8859-1,gb2312,utf-8ISO8859-1:通常叫做Latin-1。Latin-1包括了書寫所有西方歐洲語言不可缺少的附加字元,英文瀏覽器的默認值是ISO-8859-1.gb2312:標準簡體中文字符集;utf-8:UNICODE 的一種變長字元編碼,可以解決多種語言文本顯示問題,從而實現應用國際化和本地化。如果在請求消息中沒有設置這個域,預設是任何字符集都可以接受。10. Cookie (Cookie)Cookie:瀏覽器用這個屬性向伺服器發送Cookie。Cookie是在瀏覽器中寄存的小型數據體,它可以記載和伺服器相關的用戶資訊,也可以用來實現會話功能,以後會詳細講。11. Content-Type (POST數據類型)Content-Type:POST請求里用來表示的內容類型。舉例:Content-Type = Text/XML; charset=gb2312:指明該請求的消息體中包含的是純文本的XML類型的數據,字元編碼採用「gb2312」。02關注我