使用Python爬取知乎上的高顏值小姐姐 - ⎝⎛CodingNote.cc ⎞⎠

使用Python爬取知乎上的高顏值小姐姐

2020 年 3 月 9 日
筆記

「你見過的有些人能漂亮到什麼程度？」

爬取鏈接

原問題在這兒你見過的有些人能漂亮到什麼程度？

爬取思路

使用Python爬蟲爬取這個問題下的高贊照片。

爬蟲爬了下這個問題下的高贊照片。在欣賞小姐姐的美照之前，我們先來分享一下思路。
通過知乎回答的url，先把回答一頁一頁的爬下來，存到本地資料庫。隨後從資料庫里讀取數據，篩選出高贊的回答，把回答里的圖片解析出來。

函數解析

def get_answers_by_page(page_no):      offset = page_no * 10      url = "<answer url>&offset={}&limit=10&sort_by=default&platform=desktop".format(offset)      headers = {          "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36",      }      r = requests.get(url, verify=False, headers=headers)      content = r.content.decode("utf-8")      data = json.loads(content)      is_end = data["paging"]["is_end"]      items = data["data"]      client = pymongo.MongoClient()      db = client["beauty"]      if len(items) > 0:          db.answers.insert_many(items)      return is_end    def get_answers():      page_no = 0      client = pymongo.MongoClient()      while True:          print(page_no)          is_end = get_answers_by_page(page_no)          page_no += 1          if is_end:              break    def query():      client = pymongo.MongoClient()      db = client["beauty"]      items = db.answers.find({"voteup_count": {"$gte": 100}}).sort([("voteup_count", pymongo.DESCENDING)])      count = 0        for item in items:          content = item["content"]          vote_num = item["voteup_count"]          author = item["author"]["name"]          matched = re.findall(r'data-original="([^"]+)"', content)          print("> 來自 {}n".format(item["url"]))          print("> 作者 {}n".format(author))          print("> 贊數 {}n".format(vote_num))          img_urls = []          for img_url in matched:              if img_url not in img_urls:                  print("![]({})".format(img_url))                  img_urls.append(img_url)          count += len(img_urls)          print("nn")      print(count)

get_answers_by_page – 這個函數用於獲取一頁的回答內容，獲取的內容會存到本地MongoDB里 get_answers – 這個函數用於獲取所有頁的內容，它會調用上面的函數，循環獲取每一頁的內容 query – 這個函數用於從MongoDB里查詢數據，篩選高贊回答，並且把結果列印出來

如果要完整的運行這個項目，大家可以下載源程式碼後，在本地運行。運行項目後，程式會篩選出所有贊數大於100的回答，並且把回答里的圖片整理出來。贊數越高的回答，小姐姐的顏值越高。

源碼下載

Previous post

趣談編程史第4期-飽受爭議的前端之王JavaScript的血淚成長史

Next post

Django (fields.W340) null has no effect on ManyToManyField.