CSDN用户行为分析和用户行为数据爬取

  • 2019 年 10 月 30 日
  • 筆記

爬虫随机从CSDN博客取得800条用户行为数据,包含用户名、原创博客数、评论数、浏览量,试着从博客数,评论数,浏览量三个方面分析csdn的博主们的形象。

原创博客数

博主们的原创博客数并不是很多,50篇以下的占了70%,0篇的就有35%。我没有想到的是超过100篇原创博客的博主居然有21%,看来养成写博客习惯的人还是很多啊,原创博客超过100,也不是什么特别稀奇的情况。

评论数

有63%的博主评论数少于10,27%的博主评论数大于50。我博客数在21%内,而评论也大于50在27%这个区间内,看来博客数和评论数确实存在正比关系,及博文越多,评论越多。

浏览量

浏览量超过2w的有37%,超过10w的有27%,这数字开起来很大,但联想到有30%的用户博客数过50,所以平均下来,一篇博客应该有2000浏览量,这个可以再之后进行爬取数据做分析。

总结,对于养成写博客习惯的博主来说,他们日积月累下来的博客数量真的很多,浏览量也很多,是评论数并没有很多。看来大家都是多看少评论,可能是太忙了吧。

拉取数据实现

存储格式

用户信息包括用户名,点击量,评论数,原创博客数,使用json文件存储。

[{    "user_name":"",    "page_view":"",    "comment_count":"",    "blog_count":""  }]

通过me.csdn.new/用户名页面可以获得关注和被关注用户,同时还可以拿到点击量,评论数,原创博客数等数据。关注和被关注用户列表用于做递归访问。

--------------    --------------    ------------------  http请求个人主页 --- 转String去空格 --- 正则匹配拿数据,保存  --------------    --------------    ------------------        |                                   |        |                                   |        |       ----------------------      |        ----<-- 访问关注用户主页,重复执行 <-----                ----------------------

源码:https://github.com/programluo/csdn-toolPullCsdnUsers类。

注意,并不是所有的用户都有me.csdn.net页面,比如这个https://me.csdn.net/qq_41173121

将保存的json文件通过在线json转excel工具转成excel,进行统计画图分析,excel需要用到的函数有

COUNTIF(A2:A867,"=0")

统计A2 – A867这一列中,=0的数量

SUMPRODUCT((A2:A867>0)*(A2:A867<20))

统计A2 – A867这一列中,>0且<20的数量