使用Python爬取知乎上的高顏值小姐姐
- 2020 年 3 月 9 日
- 筆記
「你見過的有些人能漂亮到什麼程度?」
爬取鏈接
原問題在這兒你見過的有些人能漂亮到什麼程度?
爬取思路
使用Python爬蟲爬取這個問題下的高贊照片。
- 爬蟲爬了下這個問題下的高贊照片。在欣賞小姐姐的美照之前,我們先來分享一下思路。
- 通過知乎回答的url,先把回答一頁一頁的爬下來,存到本地資料庫。隨後從資料庫里讀取數據,篩選出高贊的回答,把回答里的圖片解析出來。
函數解析
def get_answers_by_page(page_no): offset = page_no * 10 url = "<answer url>&offset={}&limit=10&sort_by=default&platform=desktop".format(offset) headers = { "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36", } r = requests.get(url, verify=False, headers=headers) content = r.content.decode("utf-8") data = json.loads(content) is_end = data["paging"]["is_end"] items = data["data"] client = pymongo.MongoClient() db = client["beauty"] if len(items) > 0: db.answers.insert_many(items) return is_end def get_answers(): page_no = 0 client = pymongo.MongoClient() while True: print(page_no) is_end = get_answers_by_page(page_no) page_no += 1 if is_end: break def query(): client = pymongo.MongoClient() db = client["beauty"] items = db.answers.find({"voteup_count": {"$gte": 100}}).sort([("voteup_count", pymongo.DESCENDING)]) count = 0 for item in items: content = item["content"] vote_num = item["voteup_count"] author = item["author"]["name"] matched = re.findall(r'data-original="([^"]+)"', content) print("> 來自 {}n".format(item["url"])) print("> 作者 {}n".format(author)) print("> 贊數 {}n".format(vote_num)) img_urls = [] for img_url in matched: if img_url not in img_urls: print("".format(img_url)) img_urls.append(img_url) count += len(img_urls) print("nn") print(count)
get_answers_by_page
– 這個函數用於獲取一頁的回答內容,獲取的內容會存到本地MongoDB里 get_answers
– 這個函數用於獲取所有頁的內容,它會調用上面的函數,循環獲取每一頁的內容 query
– 這個函數用於從MongoDB里查詢數據,篩選高贊回答,並且把結果列印出來
如果要完整的運行這個項目,大家可以下載源程式碼後,在本地運行。 運行項目後,程式會篩選出所有贊數大於100的回答,並且把回答里的圖片整理出來。贊數越高的回答,小姐姐的顏值越高。