关于爬虫数据的解析器设计

2019 年 10 月 5 日
筆記

一、为什么要设计解析器

我的七月小说网肯定不止爬单个站点的，每新增一个站点或者网页dom发生变化就得修改代码，多累哦。所以我决定弄个数据解析器。

二、设计思路

下面是一个通用的解析规则对象

"parse": {      "select": ".book-info h1 em",//通过BeautifulSoap 的select选择器，通过传入不同的解析规则（标签、className、id）等取出数据容器。      "index": 0,//容器的索引位置      "isList": false, //容器类型      "func": "text", //预置的数据解析函数      "state": 1, //解析规则状态      "siteId": 1 //源站点对应id  }

1.首先确定解析器待获取的数据的类型和字段； 2.通过目标html dom节点确定select值； 3.根据数据类型判断容器类型是否是单个还是多个； 4.选择合适的预置数据处理function；

三、实例

以一个book对象举个例子：现在要获取bookId, bookName, cover, author, summary, chapters, tags等这些数据。 1.把数据理出来：

book{      bookId: String!      bookName: String!      cover: String!      author: String      summary: String      chapters: List      tags: List      ...  }

2.为每个字段设计解析规则下面是两个典型字段的解析

bookNameParse{      select: ".book-info h1 em",      index: 0,      func: 'text',      isList: false //容器类型  }  chaptersParse{      select: ".catalog-content-wrap .volume-wrap .cf li a",      func: 'list', //预置的数据解析函数      isList: true //容器类型  }

四、缺点

所有节点都在整个html dom中选择，可能会导致程序冗余；程序设计更加复杂化了；需要更多优化才能保持高可用性；需要后台管理系统添加解析规则；

五、继续优化

1.添加解析规则的时候，强制校验解析规则的有效性； 2.为解析规则添加状态标记：

正常：解析规则正常运转待修改：源网页html dom结构发生变化，需要修改；废弃：不再使用此解析规则

关于爬虫数据的解析器设计

一、为什么要设计解析器

二、设计思路

三、实例

四、缺点

五、继续优化

VirMach 便宜 VPS

QNews

关于爬虫数据的解析器设计

一、为什么要设计解析器

二、设计思路

三、实例

四、缺点

五、继续优化

分享此文：

Related Posts

Guava Cache源码浅析

Java 加载、操作和保存WPS文字文档

apply/call/bind 自我实现

Redis 七月小说网的爬虫缓存设计

VirMach 便宜 VPS

QNews

熱門搜尋