python系列之爬虫简介

爬虫全过程

什么是爬虫？

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

爬虫怎么爬？

简单来说就是程序去获取web页面上自己想要的数据，全自动的去获取网页上我们所需要的信息。

爬虫能爬什么？

运用爬虫你可以爬小说，你可以爬图片，你也可以爬视频等等

你给你的程序一个url，然后它会给你返回网页上的内容给你，然后帮你把你想要的内容挑选出来，保存起来。

简单来说就是这样。

import urllib.request #引入urllib库 response=urllib.request.urlopen("https://www.baidu.com")

#发出请求并且接收返回文本对象

html = response.read()

#调用read()进行读取

print(html) #打印

这是一个简单的爬虫例子，获取百度的页面的html代码，并打印出来