基于网络搜索数据分析不同阶段泉州购房者信心变化

  • 2019 年 12 月 26 日
  • 筆記

一、分析思路

购房者的网络搜索行为,可以反映购房者信心和关注程度的变化,网络搜索行为是购房者的自发的行为,网络搜索行为数据可以真实反映购房者的心理意愿。因此,从购房者网络搜索数据入手,可以很好的用来研究购房者的信心情况。

在综合经济环境、政府政策、收入水平、购房心理预期和房产属性5个指标下进行搜索关键词的选取和扩充,通过百度指数平台收集每个关键词的搜索量数据,然后利用时差相关分析法计算每个关键词与基准指标的相关性,选择相关系数大于设定临界值关键词为指标关键词,最后利用因子分析法确定各个指标关键词的权重,合成购房者信心指数。

二、数据指标与数据来源

1、初始关键词选择

在5个分指标框架下利用直接选词法,在每个分指标下选取初始关键词。经济环境指标初选的初始关键词为“GDP”、“通货膨胀”,政府政策指标初选的初始关键词为“房贷利率”、“土地出让金”、“房地产调控”、“住房公积金”,收入水平指标初选的初始关键词为“工资”、“刚需”,购房心理预期指标初选的初始关键词为“房价走势”,房产属性指标初选的初始关键词为“学区房”、“户型”。

2、初始关键词的扩选

利用初始关键词,从搜索引擎推荐和网络文本挖掘两个方面扩选。

(1)百度搜索引擎推荐关键词,如图下图所示,在百度搜索中输入初始关键词,获取搜索引擎推荐的关键词,扩充关键词库。

(2)利用百度指数扩选关键词,百度指数查询初始关键词的相关检索词,作为关键词的一部分。

3、网络文本挖掘关键词

选择百度新闻作为网络文本的数据源,爬取每个初始关键词下的前500个百度新闻的标题,利用文本挖掘工具进行文本分析和挖掘,得到文本中关键词的词频,并绘制每个初始关键词的词云,如下图所示。然后从中筛选整理出与房地产市场、购房者有一定关联度的关键词。

将百度搜索引擎推荐的关键词和网络文本挖掘的关键词进行合并,通过百度指数平台选取平台有收录的关键词,整理得到初始关键词库,总计134个初始关键词,如表下表所示:

4、根据区域扩展选词

获得初始关键词后,利用开源软件抓取每个初始关键词从2013年1月1日到2018年12月31日之间福建泉州地区在百度指数平台上的每日搜索指数,计算出的搜索频次的加权。

5、确定指标关键词

根据时差相关分析法筛选初始关键词,选取泉州市商品住宅销售面积作为基准指标,选择延迟数τ为 0~-12,即选取具有一致性或超前性的关键词,并给时差相关系数rτ设定临界值,以剔除相关程度较弱的关键词。

基准指标为泉州商品住宅小时面积,考虑到消除季节因素导致的季节变动,对泉州市商品住宅销售面积月度数据进行12个月中心化移动平均,损失序列两端各6个月的数据,得到2014年1月至2017年11月的商品住宅销售面积月度数据。

获得基准指标数据后,采用时差相关分析法对初始关键词进行筛选。首先计算每一个初始关键词在0-12个先行期的搜索指数与基准指标之间的相关系数,选择绝对值最大的相关系数,对应的领先期数即每个关键词对基准值表的先行期数。

相关系数在 0.8-1.0 之间表示与基准指标存在极强相关,相关系数在0.6-08之间表示与基准指标存在强相关,相关系数在0.4-06之间表示与基准指标存在中等程度相关。因此选取相关系数大于 0.6 的关键词作为基础关键词,剔除相关系数在 0.6 以下的关键词,最终选取的基础关键词共计19个,按经济环境、政府政策、收入水平、购房心理预期、房产属性指标归类,如下表所示:

三、构建信心指数模型

根据上文得到的19个指标关键词,设立19个变量:X1-X19分别为美联储、加息、贷款、公积金、公积金提取、住房公积金查询、公务员工资、个人所得税、买房、房价网、安居客、小户型、洋房、小学、公摊、期房、现房、房产中介、购房合同的百度搜索指数,对数据做因子分析。

1、适应性检验。对数据做KMO和Bartlett检验,得到的检验结果如下图:

由检验结果可得,KMO值为0.820,在0.8~0.9之间,很适合进行因子分析,Bartlett的球形度检验Sig.值即为Bartlett的P值,P值为0.000,适合进行因子分析,数据满足因子分析的要求。

2、因子分析。采用主成份提取法、最大方差法旋转,得到各因子对原有变量总方差情况的解释结果,包括特征根、方差贡献率、累积方差贡献率,如下表所示:

从上表可以看出,前6个因子的累积方差贡献率达到了82.940%,可以解释数据包含的大部分信息。故提取前6个因子,分别设为F1~F6,以这6个因子各自的方差贡献率占6个因子总方差贡献率的比例作为相应因子的权重进行加权,得出综合指标F ,即为购房者信心指数的合成值,得出购房者信心指数的计算公式如下:

因子分析结果还能的各变量在提取的因子上的得分系数,即成份得分系数矩阵,如下表所示:

得到成份得分系数矩阵后,各个因子可以由变量来表示,计算公式如下:

其中,Fj为第j个因子,βij为第i个指标变量在第j个因子上的得分系数。按照上个公式,根据成分系数矩阵写出提取的6个因子的表达式:

综合上述公式可得:

各指标变量的权重系数如下表所示:

可以计算得到2014 年1月至 2018年12月的购房者信心指数,以 2014 年1 月为基期,定基 100,得到泉州市购房者信心指数的趋势图,下图所示:

得到泉州市购房者信心指数后,观察与泉州市商品住宅销售面积的相关性,计算两者之间的皮尔逊相关系数:

公式中 X、Y 分别代表泉州市购房者指数、泉州市商品住宅销售面积,经计算,两者之间的皮尔逊相关系数为0.914,两者存在显著相关。

因此综合可以看出,2014年至2018年期间,泉州购房者信心指数的变化大体上可以分为三个阶段:

(1)2014年至2015年3月,泉州市购房者信心指数处于平稳状态,受大环境影响,泉州市房地产市场处于持续低迷状态,购房者受到房地产市场整体影响,信心也处于较为低迷状态。

(2)从2015年3月开始,泉州市购房者信心指数有了较大提升,在 2016 年底至2017年底泉州市购房者信心达到高点并处于持续状态,这其中,主要原因有:政府持续发布房地产市场去库存政策,以及2015年至 2016 年全国房地产市场逐步复苏,一线城市房地产市场情绪蔓延至二、三、四线城市。

(3)2017年11月后泉州市购房者信心指数有所下降,并在2018年处于相对稳定的状态。主要原因是在2017年间中央和政府持续释放“房子是用来住的,不是用来炒的”这一房地产市场调控思想,各地市相继出台一系列调控政策,抑制房价过快上涨。泉州市出台限价、限售、限购等一系列严厉的调控政策,盲目入市的心理受到一定的抑制,但受前期市场火热的影响,购房者信心并未暴跌,而是处于相对理性的状态,购房者信心有所下降,然后趋于稳定。