爬蟲斷了？

2019 年 10 月 7 日
筆記

摘要：使用 update_one() 而不是 insert_one() 方法存儲數據。

相信你一定有過這樣的經歷：大晚上好不容易寫好一個爬蟲，添加了種種可能出現的異常處理，測試了很多遍都沒有問題，點擊了 RUN 開始正式運行，然後美滋滋地準備鑽被窩睡覺，睡前還特意檢查了下確認沒有問題，合上眼後期待著第二天起來，數據都乖乖地躺在 MongoDB 中。第二天早上一睜眼就滿心歡喜地衝到電腦前，結果發現爬蟲半夜斷了，你氣得想要砸電腦，然後你看了一下 MongoDB 中爬了一半的數據，在想是刪掉重新爬，還是保留下來接著爬。

到這兒問題就來了，刪掉太可惜，接著爬很可能會爬到重複數據，雖然後期可以去重，但你有強迫症，就是不想爬到重複數據，怎麼辦呢？

這就遇到了「爬蟲斷點續傳」問題，關於這個問題的解決方法有很多種，不過本文主要介紹數據存儲到 MongoDB 時如何做到只插入新數據，而重複數據自動過濾不插入。

先來個簡單例子，比如現在有兩個 list ，data2 中的第一條數據和 data 列表中的第一條數據是重複的，我們想將這兩個 list 依次插入 MnogoDB 中去，通常我們會使用 insert_one() 或者 insert_many() 方法插入，這裡我們使用 insert_one() 插入，看一下效果。

data = [  {'index':'A','name':'James','rank':'1' },  {'index':'B','name':'Wade','rank':'2' },  {'index':'C','name':'Paul','rank':'3' },  ]    data2 = [  {'index':'A','name':'James','rank':'1' },  {'index':'D','name':'Anthony','rank':'4' },  ]    import pymongo  client = pymongo.MongoClient('localhost',27017)  db = client.Douban  mongo_collection = db.douban    for i in data:      mongo_collection.insert_one(i)

插入第一個 list ：

插入第二個 list ：

你會發現，重複的數據 A 被插入進去了，那麼怎麼只插入 D，而不插入 A 呢，這裡就要用到 update_one() 方法了，改寫一下插入方法：

for i in data2:      mongo_collection.update_one(i,{'$set':i},upsert=True)

這裡用到了 $set 運算符，該運算符作用是將欄位的值替換為指定的值，upsert 為 True 表示插入。這裡也可以用 update() 方法，但是這個方法比較老了，不建議使用。另外嘗試使用 update_many() 方法發現不能更新多個相同的值。

for i in data2:      mongo_collection.update(i, i, upsert=True)

下面舉一個豆瓣電影 TOP250 的實例，假設我們先獲取 10 個電影的資訊，然後再獲取前 20 個電影，分別用 insert_one() 和 update_one() 方法對比一下結果。

insert_one() 方法會重複爬取前 10 個電影，最終生成 30 個數據：

update_one() 方法則只會插入新的 10 個電影,最終生成 20 個數據：

這就很好了對吧，所以當我們去爬那些需要分頁的網站，最好在爬取之前使用 update_one() 方法，這樣就算爬蟲中斷了，也不用擔心會爬取重複數據。

程式碼實現如下：

import requests  import json  import csv  import pandas as pd  from urllib.parse import urlencode  import pymongo    client = pymongo.MongoClient('localhost', 27017)  db = client.Douban  mongo_collection = db.douban  class Douban(object):      def __init__(self):          self.url = 'https://api.douban.com/v2/movie/top250?'        def get_content(self, start_page):          params = {              'start': start_page,              'count': 10          }          response = requests.get(self.url, params=params).json()          movies = response['subjects']          data = [{              'rating': item['rating']['average'],              'genres':item['genres'],              'name':item['title'],              'actor':self.get_actor(item['casts']),              'original_title':item['original_title'],              'year':item['year'],          } for item in movies]            self.write_to_mongodb(data)        def get_actor(self, actors):          actor = [i['name'] for i in actors]          return actor        def write_to_mongodb(self, data):          for item in data:              if mongo_collection.update_one(item, {'$set': item}, upsert=True):                  # if mongo_collection.insert_one(item):                  print('存儲成功')              else:                  print('存儲失敗')        def get_douban(self, total_movie):          # 每頁10條，start_page循環1次          for start_page in range(0, total_movie, 10):              self.get_content(start_page)    if __name__ == '__main__':      douban = Douban()      douban.get_douban(10)

爬蟲斷了？

VirMach 便宜 VPS

QNews

爬蟲斷了？

分享此文：

Related Posts

centos使用lftp備份文件

webpack 中，module，chunk 和 bundle 的區別是什麼？

hosts文件是什麼？有什麼用？

python 從字典中提取子集

VirMach 便宜 VPS

QNews

熱門搜尋