关于爬虫数据的解析器设计
- 2019 年 10 月 5 日
- 筆記
一、为什么要设计解析器
我的七月小说网肯定不止爬单个站点的,每新增一个站点或者网页dom发生变化就得修改代码,多累哦。 所以我决定弄个数据解析器。
二、设计思路
下面是一个通用的解析规则对象
"parse": { "select": ".book-info h1 em",//通过BeautifulSoap 的select选择器,通过传入不同的解析规则(标签、className、id)等取出数据容器。 "index": 0,//容器的索引位置 "isList": false, //容器类型 "func": "text", //预置的数据解析函数 "state": 1, //解析规则状态 "siteId": 1 //源站点对应id }
1.首先确定解析器待获取的数据的类型和字段; 2.通过目标html dom节点确定select值; 3.根据数据类型判断容器类型是否是单个还是多个; 4.选择合适的预置数据处理function;
三、实例
以一个book对象举个例子: 现在要获取bookId, bookName, cover, author, summary, chapters, tags等这些数据。 1.把数据理出来:
book{ bookId: String! bookName: String! cover: String! author: String summary: String chapters: List tags: List ... }
2.为每个字段设计解析规则 下面是两个典型字段的解析
bookNameParse{ select: ".book-info h1 em", index: 0, func: 'text', isList: false //容器类型 } chaptersParse{ select: ".catalog-content-wrap .volume-wrap .cf li a", func: 'list', //预置的数据解析函数 isList: true //容器类型 }
四、缺点
所有节点都在整个html dom中选择,可能会导致程序冗余; 程序设计更加复杂化了; 需要更多优化才能保持高可用性; 需要后台管理系统添加解析规则;
五、继续优化
1.添加解析规则的时候,强制校验解析规则的有效性; 2.为解析规则添加状态标记:
正常:解析规则正常运转 待修改:源网页html dom结构发生变化,需要修改; 废弃:不再使用此解析规则