基於網路搜索數據分析不同階段泉州購房者信心變化

  • 2019 年 12 月 26 日
  • 筆記

一、分析思路

購房者的網路搜索行為,可以反映購房者信心和關注程度的變化,網路搜索行為是購房者的自發的行為,網路搜索行為數據可以真實反映購房者的心理意願。因此,從購房者網路搜索數據入手,可以很好的用來研究購房者的信心情況。

在綜合經濟環境、政府政策、收入水平、購房心理預期和房產屬性5個指標下進行搜索關鍵詞的選取和擴充,通過百度指數平台收集每個關鍵詞的搜索量數據,然後利用時差相關分析法計算每個關鍵詞與基準指標的相關性,選擇相關係數大於設定臨界值關鍵詞為指標關鍵詞,最後利用因子分析法確定各個指標關鍵詞的權重,合成購房者信心指數。

二、數據指標與數據來源

1、初始關鍵詞選擇

在5個分指標框架下利用直接選詞法,在每個分指標下選取初始關鍵詞。經濟環境指標初選的初始關鍵詞為「GDP」、「通貨膨脹」,政府政策指標初選的初始關鍵詞為「房貸利率」、「土地出讓金」、「房地產調控」、「住房公積金」,收入水平指標初選的初始關鍵詞為「工資」、「剛需」,購房心理預期指標初選的初始關鍵詞為「房價走勢」,房產屬性指標初選的初始關鍵詞為「學區房」、「戶型」。

2、初始關鍵詞的擴選

利用初始關鍵詞,從搜索引擎推薦和網路文本挖掘兩個方面擴選。

(1)百度搜索引擎推薦關鍵詞,如圖下圖所示,在百度搜索中輸入初始關鍵詞,獲取搜索引擎推薦的關鍵詞,擴充關鍵詞庫。

(2)利用百度指數擴選關鍵詞,百度指數查詢初始關鍵詞的相關檢索詞,作為關鍵詞的一部分。

3、網路文本挖掘關鍵詞

選擇百度新聞作為網路文本的數據源,爬取每個初始關鍵詞下的前500個百度新聞的標題,利用文本挖掘工具進行文本分析和挖掘,得到文本中關鍵詞的詞頻,並繪製每個初始關鍵詞的詞雲,如下圖所示。然後從中篩選整理出與房地產市場、購房者有一定關聯度的關鍵詞。

將百度搜索引擎推薦的關鍵詞和網路文本挖掘的關鍵詞進行合併,通過百度指數平台選取平台有收錄的關鍵詞,整理得到初始關鍵詞庫,總計134個初始關鍵詞,如表下表所示:

4、根據區域擴展選詞

獲得初始關鍵詞後,利用開源軟體抓取每個初始關鍵詞從2013年1月1日到2018年12月31日之間福建泉州地區在百度指數平台上的每日搜索指數,計算出的搜索頻次的加權。

5、確定指標關鍵詞

根據時差相關分析法篩選初始關鍵詞,選取泉州市商品住宅銷售面積作為基準指標,選擇延遲數τ為 0~-12,即選取具有一致性或超前性的關鍵詞,並給時差相關係數rτ設定臨界值,以剔除相關程度較弱的關鍵詞。

基準指標為泉州商品住宅小時面積,考慮到消除季節因素導致的季節變動,對泉州市商品住宅銷售面積月度數據進行12個月中心化移動平均,損失序列兩端各6個月的數據,得到2014年1月至2017年11月的商品住宅銷售面積月度數據。

獲得基準指標數據後,採用時差相關分析法對初始關鍵詞進行篩選。首先計算每一個初始關鍵詞在0-12個先行期的搜索指數與基準指標之間的相關係數,選擇絕對值最大的相關係數,對應的領先期數即每個關鍵詞對基準值表的先行期數。

相關係數在 0.8-1.0 之間表示與基準指標存在極強相關,相關係數在0.6-08之間表示與基準指標存在強相關,相關係數在0.4-06之間表示與基準指標存在中等程度相關。因此選取相關係數大於 0.6 的關鍵詞作為基礎關鍵詞,剔除相關係數在 0.6 以下的關鍵詞,最終選取的基礎關鍵詞共計19個,按經濟環境、政府政策、收入水平、購房心理預期、房產屬性指標歸類,如下表所示:

三、構建信心指數模型

根據上文得到的19個指標關鍵詞,設立19個變數:X1-X19分別為美聯儲、加息、貸款、公積金、公積金提取、住房公積金查詢、公務員工資、個人所得稅、買房、房價網、安居客、小戶型、洋房、小學、公攤、期房、現房、房產中介、購房合約的百度搜索指數,對數據做因子分析。

1、適應性檢驗。對數據做KMO和Bartlett檢驗,得到的檢驗結果如下圖:

由檢驗結果可得,KMO值為0.820,在0.8~0.9之間,很適合進行因子分析,Bartlett的球形度檢驗Sig.值即為Bartlett的P值,P值為0.000,適合進行因子分析,數據滿足因子分析的要求。

2、因子分析。採用主成份提取法、最大方差法旋轉,得到各因子對原有變數總方差情況的解釋結果,包括特徵根、方差貢獻率、累積方差貢獻率,如下表所示:

從上表可以看出,前6個因子的累積方差貢獻率達到了82.940%,可以解釋數據包含的大部分資訊。故提取前6個因子,分別設為F1~F6,以這6個因子各自的方差貢獻率佔6個因子總方差貢獻率的比例作為相應因子的權重進行加權,得出綜合指標F ,即為購房者信心指數的合成值,得出購房者信心指數的計算公式如下:

因子分析結果還能的各變數在提取的因子上的得分係數,即成份得分係數矩陣,如下表所示:

得到成份得分係數矩陣後,各個因子可以由變數來表示,計算公式如下:

其中,Fj為第j個因子,βij為第i個指標變數在第j個因子上的得分係數。按照上個公式,根據成分係數矩陣寫出提取的6個因子的表達式:

綜合上述公式可得:

各指標變數的權重係數如下表所示:

可以計算得到2014 年1月至 2018年12月的購房者信心指數,以 2014 年1 月為基期,定基 100,得到泉州市購房者信心指數的趨勢圖,下圖所示:

得到泉州市購房者信心指數後,觀察與泉州市商品住宅銷售面積的相關性,計算兩者之間的皮爾遜相關係數:

公式中 X、Y 分別代表泉州市購房者指數、泉州市商品住宅銷售面積,經計算,兩者之間的皮爾遜相關係數為0.914,兩者存在顯著相關。

因此綜合可以看出,2014年至2018年期間,泉州購房者信心指數的變化大體上可以分為三個階段:

(1)2014年至2015年3月,泉州市購房者信心指數處於平穩狀態,受大環境影響,泉州市房地產市場處於持續低迷狀態,購房者受到房地產市場整體影響,信心也處於較為低迷狀態。

(2)從2015年3月開始,泉州市購房者信心指數有了較大提升,在 2016 年底至2017年底泉州市購房者信心達到高點並處於持續狀態,這其中,主要原因有:政府持續發布房地產市場去庫存政策,以及2015年至 2016 年全國房地產市場逐步復甦,一線城市房地產市場情緒蔓延至二、三、四線城市。

(3)2017年11月後泉州市購房者信心指數有所下降,並在2018年處於相對穩定的狀態。主要原因是在2017年間中央和政府持續釋放「房子是用來住的,不是用來炒的」這一房地產市場調控思想,各地市相繼出台一系列調控政策,抑制房價過快上漲。泉州市出台限價、限售、限購等一系列嚴厲的調控政策,盲目入市的心理受到一定的抑制,但受前期市場火熱的影響,購房者信心並未暴跌,而是處於相對理性的狀態,購房者信心有所下降,然後趨於穩定。