Python爬虫进阶必备 | XX文书网加密分析-20190902版

  • 2019 年 10 月 4 日
  • 筆記

XX文书网20190902版

这次分享的是XX文书网于2019年09月02日的加密算法。

目前该网站已经更换了加密算法,主要原因是原算法太简单,9月2日更新的算法9月3日访问网站已经感觉到明显卡顿,防护并不是很到位。

分析后发现0902版加密较上一个版本还要弱上一个等级,连站长的sojson.v5都没上。

现在来看是这个版本是为上新的瑞数混淆算法做铺垫。

最后的狂欢???

目前该网站采用的瑞数动态混淆的加密算法,反混淆难度高,解密难度高

接下来说说0902版的加密,以下仅为参考:

__RequestVerificationToken

搜索关键词__RequestVerificationToken 【图1-1】

图1-1

找到base.random(24)这个方法,这个复制出来就解决了。

function get_random(size){      var str = "",          arr = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z'];      for(var i=0; i<size; i++){          str += arr[Math.round(Math.random() * (arr.length-1))];      }      return str;  }  

Ciphertext

通过XHR断点,查看堆栈信息【图2-1】

图2-1

加密位置为【图2-2】

图2-2

直接扣取ciphertext这个方法的代码即可,这里展示部分代码:

cipher=function(){      var date = new  Date();      var timestamp = date.getTime().toString();      var salt =get_random(24);      var year=date.getFullYear().toString();      var month = (date.getMonth()+1<10 ? "0"+(date.getMonth()+1) : date.getMonth()).toString();      var day = (date.getDate()<10 ? "0"+date.getDate() : date.getDate()).toString();      var iv =year+month+day;      var enc = DES3.encrypt(timestamp,salt,iv).toString();      var str = salt+iv+enc;      var ciphertext = strTobinary(str);      return ciphertext;  }  

pageld

这个参数在首页点击时自动带入,经过测试并不是必须项,可以通过分析首页的源码查看到调用的方法。

function get_uuid(){      var guid = "";      for (var i = 1; i <= 32; i++) {          var n = Math.floor(Math.random() * 16.0).toString(16);          guid += n;          // if ((i == 8) || (i == 12) || (i == 16) || (i == 20)) guid +=          // "-";      }      return guid;  }  

且爬且珍惜,大家都是要吃饭的啊