Scrapy命令行調用傳入自定義參數

在做爬蟲服務化時,有這樣一個需求:介面用命令行啟動爬蟲,但是數據入庫時要記錄此次任務的task_id。

簡單說就是,Scrapy命令行啟動時要動態傳參進去。

 

解決方案:

在spider中定義一個構造函數

def __init__(self, task_id=None, *args, **kwargs):
    super(AtomicscientistSpider, self).__init__(*args, **kwargs)
    self.task_id = task_id

 

通過使用-a可以向爬蟲文件中定義的類傳遞屬性,然後在該類中獲取該屬性即可實現傳入自定義參數。

這樣,在啟動scrapy時,task_id當做參數傳入spider中了:

scrapy crawl spider_name -a task_id=123

 

解釋說明:

 

其他示例:

可用來傳入參數,控制爬取的頁數。

def __init__(self, pages=None, *args, **kwargs):
    super(LvideoSpider, self).__init__(*args, **kwargs)
    self.pages = pages
    
...
def parse(self, response):
    pages = re.findall(r'當前:1/(\d+)頁', response.text, re.S)[0]
    link = response.meta['format_page']
    # 如果self.pages存在,那麼就會代替正則取到的頁數
    if self.pages:
        pages = self.pages
        print('' + str(pages) + '')
    for page in range(1, int(pages) + 1):
        page_link = link.format(page)
        yield Request(page_link, callback=self.parse_video_link,
                      meta={'soucre_name': response.meta['soucre_name'],
                            'domin': response.meta['domin'],
                            'page_link': page_link}, dont_filter=True)

 

啟動並控制爬取的頁數:

scrapy crawl spider_name -a pages=10

  

 參考:

//scrapy-chs.readthedocs.io/zh_CN/latest/

//zhuanlan.zhihu.com/p/62584367

//www.jianshu.com/p/a7d32207a5f8