在知乎上學 Python – 爬蟲篇

  • 2019 年 10 月 5 日
  • 筆記

知乎是個好地方。雖然近年來,為了吸引更多的用戶,知乎的定位與早期略有點偏離。但從內容質量和專業性來說,知乎仍然是國內數一數二的知識型社區。不少同學都是通過知乎發現了我們編程教室,我自己也經常會通過知乎去尋求一些專業知識的解答和參考。

之前,為了讓大家能更好地挖掘知乎上有價值的信息,我們做了一個索引,把編程入門相關的一些問答和文章做了整理:

在知乎上學 Python – 入門篇

文中曾立下FLAG說之後會整理爬蟲、數據分析、機器學習等方面的索引,然而卻一拖再拖。好在現在,有同學幫我們做了後續整理,今天就把「爬蟲篇」分享給大家。


注意:由於微信文中不能直接跳轉外部鏈接,因此建議點擊文末的「閱讀原文」,收藏知乎原文。


有很多人正在入門Python爬蟲,學習Python爬蟲。在這個過程中,會遇到很多難題,許多小夥伴都會去尋找答案,但是因為答案的紛繁複雜和種類多樣,往往要花上好些時間。

所以我通過整理知乎上關於Python爬蟲的精彩回答文章和教程,製作一篇關於Python爬蟲的索引,包括:

入門指南-教程資源-框架工具-爬蟲實例-專欄索引

大家有什麼好的建議和資源也可以留言提出。


入門指南: 1.如何入門Python爬蟲?—謝科的回答 https://www.zhihu.com/question/20899988/answer/24923424

(簡介:爬蟲怎麼工作以及怎麼在python實現。)

2.爬蟲基本原理

https://zhuanlan.zhihu.com/p/35324806

(簡介:給有一些有python基礎,但是對爬蟲一無所知的人)

3.Python爬蟲入門

第一講:Python爬蟲|Python爬蟲入門(一):基本

https://zhuanlan.zhihu.com/p/21377121?refer=xmucpp

第二講:Python爬蟲|Python爬蟲入門(二):請求

https://zhuanlan.zhihu.com/p/21394571

第三講:Python爬蟲|Python爬蟲入門(三):解析

https://zhuanlan.zhihu.com/p/21442500

第四講:Python爬蟲|Python爬蟲入門(四):儲存

https://zhuanlan.zhihu.com/p/21452812

(簡介:本爬蟲系列入門教程假設讀者僅有一點點Python基礎或者近乎為零的基礎。如果是有Python基礎的可以跳過一些對於Python基本知識的補充。)


教程資源:

書籍:

1.一份Python爬蟲電子書 (路人甲)

https://zhuanlan.zhihu.com/p/28865834

(簡介:這本書主要內容是Python入門,以及Python爬蟲入門和Python爬蟲進階)

2.問題:求大神們推薦Python入門書籍

https://www.zhihu.com/question/38801925/answer/184406876

(簡介:Python爬蟲方面入門書籍推薦)

教程:

系列教程:

1.Python爬蟲學習系列教程

https://zhuanlan.zhihu.com/p/25949099

(簡介:學習過程中我把一些學習的筆記總結下來,還記錄了一些自己實際寫的一些小爬蟲)

2.Python爬蟲教程(一)使用request+Beautifi

https://zhuanlan.zhihu.com/p/35493091

Python爬蟲教程(二)使用request+正則re批量下載好聽輕音樂網歌曲https://zhuanlan.zhihu.com/p/35528714

3.python爬蟲初探(一):爬蟲的基本結構

https://zhuanlan.zhihu.com/p/32652572

python爬蟲初探(二):URL管理器和下載器

https://zhuanlan.zhihu.com/p/32673371

python爬蟲初探(三):HTML解析器

https://zhuanlan.zhihu.com/p/32675668

python爬蟲初探(四):數據存儲器

https://zhuanlan.zhihu.com/p/32697330

拓展教程:

1.爬蟲萬金油,一鵝在手,抓遍全球:goose 簡介https://zhuanlan.zhihu.com/p/46595420

2.這個男人讓你的爬蟲開發效率提升8倍

https://zhuanlan.zhihu.com/p/38466193

3.Python 抓取網頁亂碼原因分析

https://zhuanlan.zhihu.com/p/21057822

4.幹了這碗「美麗湯」,網頁解析倍兒爽

https://zhuanlan.zhihu.com/p/58445021

進階拓展:

進階:

1.Python爬蟲進階

https://www.zhihu.com/question/35461941/answer/192693594

https://www.zhihu.com/question/35461941/answer/72909421

(簡介:爬蟲無非分為這幾塊:分析目標、下載頁面、解析頁面、存儲內容)

2.「百行代碼」實現簡單的Python分佈式爬蟲

https://zhuanlan.zhihu.com/p/26045460

(簡介:進階知識)

拓展:

1.利用爬蟲技術能做到哪些很酷很有用的事情?

https://www.zhihu.com/question/27621722

2.Python爬蟲學到什麼樣就可以找工作了https://www.zhihu.com/question/61103114/answer/183926752

3.從python爬蟲,到更愛這個世界

https://zhuanlan.zhihu.com/p/32711505

4.Python爬蟲和情感分析簡介

https://zhuanlan.zhihu.com/p/20359324

5.你是如何開始能寫Python爬蟲?

https://www.zhihu.com/question/21358581/answer/274132025

爬蟲資源:

1.一個很「水」的Python爬蟲入門代碼文件

https://zhuanlan.zhihu.com/p/22982208

2.156個Python網絡爬蟲資源!

https://zhuanlan.zhihu.com/p/28407245

3.可能是最全面的75個Python爬蟲資源

https://zhuanlan.zhihu.com/p/27985429

學習經驗: 1.用Python寫爬蟲時應該注意的坑?

https://www.zhihu.com/question/49296232/answer/368313956

2.Python3網絡爬蟲學習建議?

https://www.zhihu.com/question/41277528/answer/95885043

3.Python爬蟲知識點梳理

https://zhuanlan.zhihu.com/p/29523349

4.常用的 Python 爬蟲技巧

https://zhuanlan.zhihu.com/p/23088379

5.如何優化Python爬蟲的速度?

https://www.zhihu.com/question/20145091/answer/618321662

6.Python爬蟲—破解JS加密的Cookie

https://zhuanlan.zhihu.com/p/25957793

7.主流網站 Python 爬蟲模擬登陸方法匯總

https://zhuanlan.zhihu.com/p/59733826

8.三步走,教你定製自己的個性Python爬蟲

https://zhuanlan.zhihu.com/p/23178014

9.Python爬蟲傳送post請求要攜帶哪些參數?https://www.zhihu.com/question/60256922/answer/174211193


框架工具:

框架: 1.Python有哪些常見的、好用的爬蟲框架?

https://www.zhihu.com/question/60280580/answer/617068010

2.一個極為簡潔的Python爬蟲框架

https://zhuanlan.zhihu.com/p/23017812

3.擁有屬於自己的Python爬蟲框架–練習編寫多線程、協程爬蟲框架https://zhuanlan.zhihu.com/p/24469566

工具:

1.10個爬蟲工程師必備的工具了解一哈

https://zhuanlan.zhihu.com/p/54855072

(簡介:工欲善其事必先利其器的道理相信大家都懂。)

2.推薦4個爬蟲抓包神器

https://zhuanlan.zhihu.com/p/61980749

(簡介:今天推薦4個HTTP代理工具通過抓包分析,幫助你還原APP背後的每個請求。)

3.爬蟲必備工具,掌握它就解決了一半的問題

https://zhuanlan.zhihu.com/p/39340856

(簡介:今天這篇文章不談任何具體網站的抓取,只來說一個共性的東西:如何通過 Chrome 開發者工具尋找一個網站上特定數據的抓取方式。)

4.聽說你好不容易寫了個爬蟲,結果沒抓幾個就被封了?

https://zhuanlan.zhihu.com/p/28726244

(簡介:實現一個自動獲取可用代理 IP 的接口。)


爬蟲實例:

1.利用python爬取網易雲音樂,並把數據存入mysqlhttps://zhuanlan.zhihu.com/p/34354440

2.python爬取20w表情包之後,從此你就成為了微信斗圖屆的高手https://zhuanlan.zhihu.com/p/66243518

3.如何讓Python爬蟲一天抓取100萬張網頁

https://zhuanlan.zhihu.com/p/65508954

4.Python爬蟲告訴你上海房價有多高

https://zhuanlan.zhihu.com/p/40293278

5.Python爬蟲入門 | 2 爬取豆瓣電影信息

https://zhuanlan.zhihu.com/p/32037625

6.Python爬蟲一步步抓取房產信息

https://zhuanlan.zhihu.com/p/25713752

7.我用Python又爬蟲了拉鉤招聘,給你們看看2019市場行情https://zhuanlan.zhihu.com/p/65081383

8.爬蟲爬了下知乎上的神回復,已笑趴~

https://zhuanlan.zhihu.com/p/46132179

9.一鍵下載:將知乎專欄導出成電子書

https://zhuanlan.zhihu.com/p/44918640

10.如何用Python抓抖音上的小姐姐

https://zhuanlan.zhihu.com/p/46396868

11.【招聘數據分析】Python就業前景如何

https://zhuanlan.zhihu.com/p/35027220


專欄索引:

Python爬蟲索引:

1.如何入門爬蟲(路人甲)

https://zhuanlan.zhihu.com/p/21479334

(簡介:一個知乎大神整理的關於Python爬蟲的索引,內容詳細全面,結構完整。對於新手和正在學習的小夥伴是非常有幫助的。)

2.從零開始寫Python爬蟲(Ehco)

https://zhuanlan.zhihu.com/p/26673214

(簡介:提供了實用的方法和建議)

3.自學入門 Python 優質中文資源索引

https://zhuanlan.zhihu.com/p/49798116

(簡介:自學入門Python的整理,有關於Python爬蟲的索引)

Python爬蟲號推薦:

1.蚍蜉撼大樹

https://www.zhihu.com/people/handashu/posts/posts_by_votes

(簡介:Python爬蟲之旅系列)

2.州的先生

https://www.zhihu.com/people/zmister/posts/posts_by_votes?page=2

(簡介:python爬蟲實戰入門系列)

3.學習python的正確姿勢

https://www.zhihu.com/people/xue-xi-pythonde-zheng-que-zi-shi-92/posts/posts_by_votes

(簡介:Python爬蟲實戰系列)

4.不吃夾生飯

https://www.zhihu.com/people/bu-chi-jia-sheng-fan/posts

(簡介:反反爬蟲系列)

爬蟲項目索引: 1.資源整理|32個Python爬蟲項目讓你一次吃到撐

https://zhuanlan.zhihu.com/p/27938007

(簡介:32個爬蟲項目)

2.GitHub上有哪些優秀的Python爬蟲項目?

https://www.zhihu.com/question/58151047/answer/640461600

(簡介:GitHub上優秀的Python爬蟲項目)

3.23個Python爬蟲開源項目代碼,包含微信淘寶,豆瓣知乎,微博等

https://zhuanlan.zhihu.com/p/58851666