基於演算法模型的計程車軌跡數據分析
- 2019 年 10 月 10 日
- 筆記
本案所用的數據是獲取自滴滴公司開放的2016年11月成都市二環局部區域的軌跡資訊,主要目的是通過分析成都市的計程車軌跡數據以及訂單數據,獲取有關成都市社區結構劃分、交通道路情況的資訊,結合實際情況對分析結果做出解釋,並在已有的分析結果的基礎上對出行、計程車運營、城市規劃等領域的問題提出針對性建議。
獲取數據後,為了保證數據品質,做了缺失值、異常值、重複值以及不符合常理的錯誤記錄的處理後得到了較高品質的分析數據樣本
根據訂單數據中上下客位置的經緯度資訊做關於上下客位置點的分析。這裡使用的熱力圖的形式來呈現,主要調整的參數是point和points,point表示的是地圖初始化顯示時的中心點,points是展示在熱點圖中的數據點的集合,數據點包括數據點的經緯度以及數據點的權重,在熱力圖中顏色由深到淺表示數據點的集中到稀疏,通過高亮的形式展示乘客集中的上客區域和下客區域。
工作日與休息日時城市中的人流量與流動規律會因為上班族是否上班而有所不同,以11月第一周的數據為例,繪製熱力圖,如下圖所示:

(a)第一周工作日上客點熱力圖

(b)第一周周末上客點熱力圖

(c)第一周工作日下客點熱力圖

(d)第一周周末下客點熱力圖
為了更詳盡地展示每周7天的出行數據反映的計程車運營情況,統計一周內各天完成的行程數,如下圖所示,其中每天的行程數是通過計算11月的數據的均值,從中可以看到,每天的行程數大致為194300-195100,整體浮動不大,其中周五與周六的行程數最多。

為了對數據做進一步解讀,繪製其中星期三、星期五及星期六的各時間段的行程數圖表,其中每個時間跨度為兩小時。

11月2日星期四各時間段行程數

11月4日星期五各時間段行程數
通過比較星期三、星期五和星期六各個時間段的行程數,可以發現這幾天的不同時間段的行程數的變化規律是基本相似的。星期六的數據與其餘兩天的不同之處在於星期六的峰值是在18-20時這段時間內達到峰值,而其餘兩天則是在14-16時達到峰值。
為了找到上客熱門區域,採用聚類演算法與熱力圖可視化結合的方式。使用聚類演算法是因為在位置數據中可以由經緯度表示,通過聚類可以將地理位置相近的位置點聚類到同一個簇中,得到的多個簇代表多個地理區域,其中包含位置點最多的幾個簇就是需要找到的上客熱門區域。
由於地圖的數據點是圓形,並且呈現不規則分布,屬於非凸數據集,所以採用的是DBSCAN演算法,該演算法可以對任意形狀的稠密數據做具類,還可以在聚類的同時發現異常點。
通過聚類可以得到附近的數據點最多的位置是錦江區的春熙路、鹽市口、督院街、天府廣場區域,其次是東門大橋、合江亭區域,再少一些是青羊區的人民公園、汪家拐、少成區域。通過熱力圖的擴放找到上客點熱力圖中較為密集的區域,也就是上客熱門區域。
