CSDN用户行为分析和用户行为数据爬取
- 2019 年 10 月 30 日
- 筆記
爬虫随机从CSDN博客取得800条用户行为数据,包含用户名、原创博客数、评论数、浏览量,试着从博客数,评论数,浏览量三个方面分析csdn的博主们的形象。
原创博客数
博主们的原创博客数并不是很多,50篇以下的占了70%,0篇的就有35%。我没有想到的是超过100篇原创博客的博主居然有21%,看来养成写博客习惯的人还是很多啊,原创博客超过100,也不是什么特别稀奇的情况。

评论数
有63%的博主评论数少于10,27%的博主评论数大于50。我博客数在21%内,而评论也大于50在27%这个区间内,看来博客数和评论数确实存在正比关系,及博文越多,评论越多。

浏览量
浏览量超过2w的有37%,超过10w的有27%,这数字开起来很大,但联想到有30%的用户博客数过50,所以平均下来,一篇博客应该有2000浏览量,这个可以再之后进行爬取数据做分析。

总结,对于养成写博客习惯的博主来说,他们日积月累下来的博客数量真的很多,浏览量也很多,是评论数并没有很多。看来大家都是多看少评论,可能是太忙了吧。
拉取数据实现
存储格式
用户信息包括用户名,点击量,评论数,原创博客数,使用json文件存储。
[{ "user_name":"", "page_view":"", "comment_count":"", "blog_count":"" }]
通过me.csdn.new/用户名
页面可以获得关注和被关注用户,同时还可以拿到点击量,评论数,原创博客数等数据。关注和被关注用户列表用于做递归访问。

-------------- -------------- ------------------ http请求个人主页 --- 转String去空格 --- 正则匹配拿数据,保存 -------------- -------------- ------------------ | | | | | ---------------------- | ----<-- 访问关注用户主页,重复执行 <----- ----------------------
源码:https://github.com/programluo/csdn-tool ,PullCsdnUsers
类。
注意,并不是所有的用户都有me.csdn.net页面,比如这个https://me.csdn.net/qq_41173121
将保存的json文件通过在线json转excel工具转成excel,进行统计画图分析,excel需要用到的函数有
COUNTIF(A2:A867,"=0")
统计A2 – A867这一列中,=0的数量
SUMPRODUCT((A2:A867>0)*(A2:A867<20))
统计A2 – A867这一列中,>0且<20的数量