Python數據可視化的四種簡易方法

  • 2019 年 10 月 6 日
  • 筆記

數據可視化是任何數據科學或機器學習項目的一個重要組成部分。

熱圖(Heat Map)

熱圖是數據的矩陣表示方式,其中每個矩陣的值用一種顏色來表示。不同的顏色代表不同的級別,矩陣指數將兩個對比的列或特徵連接在一起。

熱圖可以很好地顯示出多個特徵變量之間的關係,因為可以直接把一個級別看作一種顏色。還可以通過觀察熱圖中的一些點來查看每個關係是如何與數據集中的其它關係進行比較的。

二維密度圖(2D Density Plot)

二維密度圖是一維版本的簡單擴展,能夠看到關於2個變量的概率分佈。

讓我們看看下面的二維密度圖,右邊的刻度用顏色表示每一點的概率。最高的概率,看下數據集,似乎大約是0.5的大小和1.4-ish的速度。正如你所看到的,二維密度圖對於快速確定數據對於兩個變量最集中的區域非常地顯著,而不是像一維密度圖那樣只集中一個變量。

當你有兩個對輸出結果非常重要的變量,並且希望了解它們如何一起對輸出結果分佈起作用的時候,二維密度圖尤其適合。

蜘蛛圖(Spider Plot)

蜘蛛圖是顯示一對多關係最好的方法之一。也就是說,可以繪製並查看區別於單個變量或類別的多個變量的值。

在蜘蛛圖中,一個變量相對於另一個變量的特性是顯而易見的,因為面積和長度在一些方向上變化了。如果你希望了解幾個類別關於這些變量是如何疊加起來的,可以並排繪製一下。

樹形圖(Tree Diagram)

我們從小學就開始使用樹形圖了,樹形圖既自然又直觀,還易於解釋。直接連接的節點關係密切,而與有多個連接的節點差別很大。

對於樹形圖,實際上要使用Scipy的。在查看了數據集之後,我們將去掉字符串類型的列。在實踐中,最好是把這些字符串轉換成分類變量,為了得到更好的結果和進行比較,我們還設置了數據幀索引,以便能夠適當地用它作為引用每個節點的列。最後,在Scipy中計算和繪製樹形圖是非常簡單的事了。