scrapy （四）基本配置

2019 年 10 月 10 日
筆記

今天小婷兒給大家分享的是scrapy （四）基本配置。

scrapy （四）基本配置

scrapy使用細節配置

一、建立項目

1、scrapy startproject 項目名字

2、進入項目：

scrapy genspider 名字不帶http的根網址

3、默認模板（或改變模板）

默認模板：class HuaSpider(scrapy.Spider)：

改變模板：scapy genspider -t crwal 名字(hua2) 不帶http的根網址:

(class Hua2Spider(CrawlSpider)

4、目錄結構

二、setting基本設置

1、log日誌輸出的級別：

INFO、ERROR……

LOG_LEVEL = 'ERROR'

2、將log寫到文件中（自動創建log.txt）

LOG_FILE = './log.txt'

3、robots

是否遵守各大網站的爬蟲規則（robots），默認是True，為了得到我們想要的數據，設置ROBOTSTXT_OBEY為F alse: ROBOTSTXT_OBEY = False

查看各大網站的規則：根網址+/robots.txt，例如https://www.baidu.com/robots.txt

4、設置代理middlewares.py

下載中間件設置:

1) 在setting中打開以下配置

DOWNLOADER_MIDDLEWARES = {

'postproject.middlewares.PostprojectDownloaderMiddleware': 543,

}

2）在middlewares.py中添加代理

在class PostprojectDownloaderMiddleware(object):

def process_request(self, request, spider):

公開代理格式：request.meta['proxy'] ='http://ip:port'

私密代理格式：request.meta['proxy'] = 'http://username:password@ip:port'

3）回到setting，解開下載中間件DOWNLOADER_MIDDLEWARES

scrapy （四）基本配置

一、建立項目

1、scrapy startproject 項目名字

2、進入項目：

3、默認模板（或改變模板）

4、目錄結構

二、setting基本設置

1、log日誌輸出的級別：

2、將log寫到文件中（自動創建log.txt）

3、robots

4、設置代理middlewares.py

下載中間件設置:

VirMach 便宜 VPS

QNews

scrapy （四）基本配置

一、建立項目

1、scrapy startproject 項目名字

2、進入項目：

3、默認模板（或改變模板）

4、目錄結構

二、setting基本設置

1、log日誌輸出的級別：

2、將log寫到文件中（自動創建log.txt）

3、robots

4、設置代理middlewares.py

下載中間件設置:

分享此文：

Related Posts

辨析BI、數據倉庫、數據湖和數據中台內涵及差異點(建議收藏)

Spark 系列（四）—— RDD常用運算元詳解

【DB筆試面試645】在Oracle中，當收集表的統計資訊時應該注意哪些問題？

ajax基礎–基本概念

VirMach 便宜 VPS

QNews

熱門搜尋