­

數據可視化的基本流程總結

  • 2020 年 2 月 19 日
  • 筆記

溫馨提示

小夥伴們盡量減少外出,為了個人健康出門請佩戴口罩,日常勤洗手,遠離生禽

我們要的不是數據,而是數據告訴我們的事實。大多數人面臨這樣一個挑戰:我們認識到數據可視化的必要性,但缺乏數據可視化方面的專業技能。部分原因可以歸結於,數據可視化只是數據分析過程中的一個環節,數據分析師可能將精力花在獲取數據、清洗整理數據、分析數據、建立模型,但在最終的展示溝通上力不從心。

這也是「寫代碼的干不過做PPT」的部分原因。實際上,只要掌握了可視化的技能,我們的工作就更容易受到leader的認可。

可視化工具包括但不限於,Tableau,Excel,PowerBI,Python,R

可視化之前:探索性分析與解釋性分析

二者之間有很重要的區別:探索性分析指理解數據並找出值得分析或分享給他人的精華。這就好比,在牡蠣中尋找珍珠,可能打開一百個牡蠣(嘗試很多種方法)才最終找到兩顆珍珠。而解釋性分析,我們迫切希望能夠言之有物,講好某個故事–專註於兩顆珍珠。

大多數時候我們彙報工作就是要做好解釋性分析的工作。

可視化過程

一個完整的數據可視化過程,主要包括以下4個步驟:

確定數據可視化的主題 提煉可視化主題的數據 根據數據關係確定圖表 進行可視化布局及設計

圖片來自:木東居士

可視化元素由3部分組成:可視化空間+標記+視覺通道

可視化空間

數據可視化的顯示空間,通常是二維。三維物體的可視化,通過圖形繪製技術,解決了在二維平面顯示的問題,如3D環形圖、3D地圖等。

標記

標記,是數據屬性到可視化幾何圖形元素的映射,用來代表數據屬性的歸類。

根據空間自由度的差別,標記可以分為點、線、面、體,分別具有零自由度、一維、二維、三維自由度。如我們常見的散點圖、折線圖、矩形樹圖、三維柱狀圖,分別採用了點、線、面、體這四種不同類型的標記。

視覺通道

數據屬性的值到標記的視覺呈現參數的映射,叫做視覺通道,通常用於展示數據屬性的定量信息。

常用的視覺通道包括:標記的位置、大小(長度、面積、體積…)、形狀(三角形、圓、立方體…)、方向、顏色(色調、飽和度、亮度、透明度…)等。

確定圖表

數據之間的相互關係,決定了可採用的圖表類型。常見的數據關係和圖表類型的對應關係如下圖所示:

圖片來自:木東居士

在以後的專欄中,我們將逐步分享上述圖片中出現的各圖形應用案例及注意事項。接下來,我們結合具體案例來講述數據可視化的魅力

表格

使用表格時,需要記住的一點是:讓設計融入背景,讓數據佔據核心地位。不要讓厚重的邊框和陰影與數據爭奪受眾的注意力。相反,要使用空格來區分表格中的元素。

左表,框線過多容易擾亂閱讀者的注意力,反之,三線表簡潔幹練,通常是論文及出版物表格樣式的首選。

熱力圖

熱力圖是用表格的形式可視化數據的一種方法,在顯示數據的地方(數據之外)利用着色的單元格傳遞數據相對大小的信息。

熱力圖繪製(excel2010版):選中數據–開始–樣式–條件格式(你可以根據需要選擇合適的條件格式)。

折線圖

我們通常可以藉助折現圖理解趨勢,比如,時間序列的每年降雨量(每日將與量之和);在某些情況下,折線圖中的線可能代表一個綜合的統計數據,比如平均值或預測的點估計。如果你還想展示範圍(或者置信區間),可以直接在圖上進行可視化。

源數據:

左圖是多指標折線圖,右圖在折線圖中展示範圍內的平均值。

繪製右圖時:先繪製avg–max折線圖,然後右鍵「更改圖表類型」,選擇「面積圖」;

右鍵「選擇數據」,添加min折線圖;最後選中「min折現圖」,右鍵「設置數據系列格式」,選擇「純色填充–白色」。