python系列之爬虫简介
- 2019 年 10 月 8 日
- 筆記

爬虫全过程
什么是爬虫?
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
爬虫怎么爬?
简单来说就是程序去获取web页面上自己想要的数据,全自动的去获取网页上我们所需要的信息。
爬虫能爬什么?
运用爬虫你可以爬小说,你可以爬图片,你也可以爬视频等等
你给你的程序一个url,然后它会给你返回网页上的内容给你,然后帮你把你想要的内容挑选出来,保存起来。
简单来说就是这样。
import urllib.request #引入urllib库 response=urllib.request.urlopen("https://www.baidu.com")
#发出请求并且接收返回文本对象
html = response.read()
#调用read()进行读取
print(html) #打印
这是一个简单的爬虫例子,获取百度的页面的html代码,并打印出来