Win10+Python3.6配置Spark創建分佈式爬蟲
- 2019 年 12 月 13 日
- 筆記
介紹Spark在Win 10系統中的的安裝、配置以及在分佈式爬蟲中的使用,Python版本為3.6.8。
Spark安裝、配置和使用請參考《Python程序設計開發寶典》「第12章 多任務與並行處理:線程、進程、協程、分佈式、GPU加速」(董付國著,清華大學出版社,2017.10),京東:https://item.jd.com/12143483.html
網絡爬蟲入門請參考《Python可以這樣學》「第9章 網絡應用開發」(董付國著,清華大學出版社,2017.2),京東缺貨,請選擇亞馬遜、噹噹、天貓搜索「董付國」;《Python程序設計基礎與應用》「第13章 網絡爬蟲入門與應用」(董付國著,機械工業出版社,2018.9),京東:https://item.jd.com/12433472.html
================
1、下載安裝jdk,地址:https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

2、添加環境變量JAVA_HOME,配置為jdk的安裝路徑。

3、下載Spark,解壓縮到G:spark-2.2.3-bin-hadoop2.7。
地址:http://mirrors.shu.edu.cn/apache/spark/spark-2.2.3/spark-2.2.3-bin-hadoop2.7.tgz,注意版本,並不是越新越好,很容易因為版本不兼容影響運行。

4、配置環境變量HADOOP_HOME和SPARK_HOME為Spark的解壓縮目錄G:spark-2.2.3-bin-hadoop2.7。


5、修改環境變量PATH,把Python 3.6的安裝目錄放到前面,添加jdk安裝路徑。

6、下載winutils.exe並放到Spark解壓縮目錄的bin中,下載地址:http://public-repo-1.hortonworks.com/hdp-win-alpha/winutils.exe
7、編寫爬蟲程序sparkCrawlYuanshi.py並保存到Spark安裝目錄的bin目錄中,以爬取工程院院士信息為例,略去對網頁結構的分析,感興趣的朋友可自行完成這個步驟。

8、進入Power Shell,執行命令./spark-submit.cmd sparkCrawlYuanshi.py運行爬蟲程序。