scrapy (四)基本配置
- 2019 年 10 月 10 日
- 筆記
今天小婷兒給大家分享的是scrapy (四)基本配置。
scrapy (四)基本配置
scrapy使用細節配置
一、建立項目
1、scrapy startproject 項目名字
2、進入項目:
scrapy genspider 名字 不帶http的根網址
3、默認模板(或改變模板)
默認模板:class HuaSpider(scrapy.Spider):
改變模板:scapy genspider -t crwal 名字(hua2) 不帶http的根網址:
(class Hua2Spider(CrawlSpider)
4、目錄結構

二、setting基本設置
1、log日誌輸出的級別:
INFO、ERROR……
LOG_LEVEL = 'ERROR'
2、將log寫到文件中(自動創建log.txt)
LOG_FILE = './log.txt'
3、robots
是否遵守各大網站的爬蟲規則(robots),默認是True,為了得到我們想要的數據,設置ROBOTSTXT_OBEY為F alse: ROBOTSTXT_OBEY = False
查看各大網站的規則:根網址+/robots.txt,例如https://www.baidu.com/robots.txt
4、設置代理middlewares.py
下載中間件設置:
1) 在setting中打開以下配置
DOWNLOADER_MIDDLEWARES = {
'postproject.middlewares.PostprojectDownloaderMiddleware': 543,
}
2)在middlewares.py中添加代理
在class PostprojectDownloaderMiddleware(object):
def process_request(self, request, spider):
公開代理格式:request.meta['proxy'] ='http://ip:port'
私密代理格式:request.meta['proxy'] = 'http://username:password@ip:port'

3)回到setting,解開下載中間件DOWNLOADER_MIDDLEWARES
