如何用爬虫抓取招聘网站的职位并分析

2020 年 4 月 1 日
筆記

最近有不少程序员又开始找工作了，为了了解目前技术类各职位的数量、薪资、招聘公司、岗位职责及要求，我爬取了拉勾网北上广深4个城市的招聘数据，共3w条。职位包括：人工智能（AI）、大数据、数据分析、后端（Java、C|C++、PHP、Python）、前端、Android、iOS、嵌入式和测试。下面我将分两部分进行介绍，第一部分是数据抓取；第二部分是数据分析。如需源代码在公众号（见文末）回复关键字职位即可。如遇到图片打不开的问题，可访问：https://juejin.im/post/5e83edfbf265da47d537ba74

数据抓取

这里我并不是通过传统的抓网页，解析HTML代码的方式爬取数据，而是用 Charles 软件抓取拉钩APP请求数据的接口实现。

大概的流程是启动Charles -> 手机连接Charles代理（二者需处于同一个局域网）-> 打开APP请求数据->观察Charles截的包，从中找到我们想要的接口

首先，找到搜索职位的接口

/v1/entry/positionsearch/searchPosition

这是一个 POST 请求，我们还要找到请求的 header 和 body，最关键的 header 和 body 如下

header：

'X-L-REQ-HEADER': '{"deviceType":150,"userType":0,"lgId":"11835BCC-8815-456A-A094-64FB2B9323EF_1585362240","reqVersion":73600,"appVersion":"7.36.0","userToken":"xxx"}'  'content-type': "application/json"

其中，userToken字段每个不一样，需要自己抓包确定

body

{"tagType": "", "isAd": "1", "showId": "", "district": "", "keywordSource": 0, "keyword": "数据开发",                  "salaryUpper": 0, "hiTag": "", "longitudeAndLatitude": "-1.000000,-1.000000", "pageNo": 1, "sort": 0,                  "pageSize": 15, "refreshHiTagList": True, "lastShowCompanyId": 0, "nearByKilometers": "", "city": "北京",                  "businessZone": "", "shieldDeliveyCompany": False, "salaryLower": 0, "subwayLineName": "",                  "subwayStation": ""}

其中，我们只需要关注 keyword，pageNo，pageSize字段，分别代表搜索什么职位，搜索第几页，每页搜多少条。

有了这个信息我们就可以通过程序来请求不同的职位数据，同时为了获取职位更详细的信息我们还可以查找获取职位详情页的接口，方式与此类似，这里就不再赘述了。请求职位的代码如下

def get_data(self):          for city in self.cities_conf:              for position in self.positions_conf:                    self.position_search_body['keyword'] = position                  self.position_search_body['city'] = city                    pageNo = 1                  has_more = 1                  while has_more:                      try:                          self.position_search_body['pageNo'] = pageNo                          url = 'https://gate.lagou.com/v1/entry/positionsearch/searchPosition'                          res = requests.post(url, data=json.dumps(self.position_search_body), headers=self.headers)                          print('成功爬取%s市-%s职位的第%d页数据！' % (city, position, pageNo))                          item = {'city': city, 'pType': position}                          print(res.json())                          positionCardVos = res.json()['content']['positionCardVos']                          self._parse_record(positionCardVos, item)                            pageNo += 1                          if positionCardVos is None or len(positionCardVos) < 15:                              has_more = 0                            time.sleep(random.random() * 5)                      except Exception as e:                          msg = '链接访问不成功，正在重试！Exception: %s' % e                          print(msg)                          time.sleep((1 + random.random()) * 10)

变量 position 代表不同的职位，这里请求的时候会加随机停留时间，目的为了防止请求过于平凡。我们抓去别人的数据应该注意这一点，不能恶意爬别人的数据。应该模拟得更像普通人一样去请求数据，如果请求过于频繁导致别人服务出现问题那真实罪大恶极。

_parse_record 方法是解析请求的数据，并存入mongo。首先解析数据没什么好说的，就是解析json而已。简单说下为什么存入mongo，第一，解析的json数据，mongo存储就是用json格式，读取和写入非常方便；第二，mongo不用提前设计表Schema，对我们这种临时性和不确定性的分析带来方便；第三，mongo可以存储海量的数据；第四，mongo会缓存热点数据，我们在后续分析时候读取会非常快。

_parse_record 方法代码如下，为了避免啰嗦，我只保留部分字段的解析，其他的代码可以下载详细代码来看

def _parse_record(self, data, item):          if data:              for position in data:                  item['pId'] = position.get('positionId')                  item['_id'] = '%s_%s_%d' % (item['city'], item['pType'], item['pId'])  　　　　　　　　　　# ... 省略                    try:                      position_detail_res = requests.get(self.position_detail_url % item['pId']                                                         , timeout=20, headers=self.headers)  # 请求详情页的数据                      position_content = position_detail_res.json()['content']                      item['pAdvantage'] = position_content.get('positionAdvantage')  　　　　　　　　　　　　# ...省略  　　　　　　　　　　　　  　　　　　　　　　　　　time.sleep(random.random() * 2)  　　　　　　　　　　except Exception as e:  　　　　　　　　　　　　msg = '抓去职位%d详情页失败, Exception: %s' % (item['pId'], e)  　　　　　　　　　　　　print(msg)  　　　　　　　　　　　　self.db['positions'].update_one({'_id': item['_id']}, {'$set': item}, upsert=True)  　　　　　　　　　　　　msg = '成功保存数据:{}!'.format(item)  　　　　　　　　　　　　print(msg)

可以看到方法中还请求了职位详情数据来丰富每一条数据的维度。