Python爬虫进阶必备 | XX文书网加密分析-20190902版
- 2019 年 10 月 4 日
- 筆記
XX文书网20190902版
这次分享的是XX文书网于2019年09月02日的加密算法。
目前该网站已经更换了加密算法,主要原因是原算法太简单,9月2日更新的算法9月3日访问网站已经感觉到明显卡顿,防护并不是很到位。
分析后发现0902版加密较上一个版本还要弱上一个等级,连站长的sojson.v5都没上。
现在来看是这个版本是为上新的瑞数混淆算法做铺垫。
最后的狂欢???
目前该网站采用的瑞数动态混淆的加密算法,反混淆难度高,解密难度高
接下来说说0902版的加密,以下仅为参考:
__RequestVerificationToken
搜索关键词__RequestVerificationToken
【图1-1】

图1-1
找到base.random(24)
这个方法,这个复制出来就解决了。
function get_random(size){ var str = "", arr = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z']; for(var i=0; i<size; i++){ str += arr[Math.round(Math.random() * (arr.length-1))]; } return str; }
Ciphertext
通过XHR断点,查看堆栈信息【图2-1】

图2-1
加密位置为【图2-2】

图2-2
直接扣取ciphertext
这个方法的代码即可,这里展示部分代码:
cipher=function(){ var date = new Date(); var timestamp = date.getTime().toString(); var salt =get_random(24); var year=date.getFullYear().toString(); var month = (date.getMonth()+1<10 ? "0"+(date.getMonth()+1) : date.getMonth()).toString(); var day = (date.getDate()<10 ? "0"+date.getDate() : date.getDate()).toString(); var iv =year+month+day; var enc = DES3.encrypt(timestamp,salt,iv).toString(); var str = salt+iv+enc; var ciphertext = strTobinary(str); return ciphertext; }
pageld
这个参数在首页点击时自动带入,经过测试并不是必须项,可以通过分析首页的源码查看到调用的方法。
function get_uuid(){ var guid = ""; for (var i = 1; i <= 32; i++) { var n = Math.floor(Math.random() * 16.0).toString(16); guid += n; // if ((i == 8) || (i == 12) || (i == 16) || (i == 20)) guid += // "-"; } return guid; }
且爬且珍惜,大家都是要吃饭的啊