手把手教你用Python畫直方圖:其實跟柱狀圖完全不同
- 2020 年 3 月 5 日
- 筆記
作者:屈希峰,資深Python工程師,知乎多個專欄作者
來源:大數據DT(ID:hzdashuju)

01 概述
直方圖(Histogram),形狀類似柱狀圖卻有着與柱狀圖完全不同的含義。直方圖牽涉統計學概念,首先要對數據進行分組,然後統計每個分組內數據元的數量。在平面直角坐標系中,橫軸標出每個組的端點,縱軸表示頻數,每個矩形的高代表對應的頻數,這樣的統計圖稱為頻數分佈直方圖。
頻數分佈直方圖需要經過頻數乘以組距的計算過程才能得出每個分組的數量,同一個直方圖的組距是一個固定不變的值,所以如果直接用縱軸表示數量,每個矩形的高代表對應的數據元數量,既能保持分佈狀態不變,又能直觀地看出每個分組的數量,如圖2-58所示。

▲圖2-58 直方圖
通過直方圖還可以觀察和估計哪些數據比較集中,異常或者孤立的數據分佈在何處。
首先,了解如下幾個基本概念。
- 組數:在統計數據時,我們把數據按照不同的範圍分成幾個組,分成的組的個數稱為組數。
- 組距:每一組兩個端點的差。
- 頻數:分組內數據元的數量除以組距。
02 實例
直方圖代碼示例如下所示。
- 代碼示例 2-45
plot = figure(plot_width=300, plot_height=300) plot.quad(top=[2, 3, 4], bottom=[1, 2, 3], left=[1, 2, 3], right=[1.2, 2.5, 3.7], color="#B3DE69") show(plot)
運行結果如圖2-59所示。

▲圖2-59 代碼示例2-45運行結果
代碼示例2-45第2行使用quad ()方法通過定義矩形的四邊邊界繪製直方圖,具體參數說明如下。
p .quad(left, right, top, bottom, **kwargs)參數說明。
- left (:class:`~bokeh.core.properties.NumberSpec` ) : 直方x軸左側邊界
- right (:class:`~bokeh.core.properties.NumberSpec` ) : 直方x軸右側邊界
- top (:class:`~bokeh.core.properties.NumberSpec` ) : 直方y軸頂部邊界
- bottom (:class:`~bokeh.core.properties.NumberSpec` ) : 直方y軸底部邊界
其他參數(**kwargs)說明。
- alpha (float) : 一次性設置所有線條的透明度
- color (Color) : 一次性設置所有線條的顏色
- source (ColumnDataSource) : Bokeh特有數據格式(類似於Pandas Dataframe)
- legend (str) : 圖元的圖例
- x_range_name (str) : x軸範圍名稱
- y_range_name (str) : y軸範圍名稱
- level (Enum) : 圖元渲染級別
- 代碼示例 2-46
import numpy as np import scipy.special from bokeh.layouts import gridplot # 繪圖函數 def make_plot(title, hist, edges, x, pdf, cdf): p = figure(title=title, tools='', background_fill_color="#fafafa") p.quad(top=hist, bottom=0, left=edges[:-1], right=edges[1:], fill_color="navy", line_color="white", alpha=0.5) p.line(x, pdf, line_color="#ff8888", line_width=4, alpha=0.7, legend="PDF") p.line(x, cdf, line_color="orange", line_width=2, alpha=0.7, legend="CDF") p.y_range.start = 0 p.legend.location = "center_right" p.legend.background_fill_color = "#fefefe" p.xaxis.axis_label = 'x' p.yaxis.axis_label = 'Pr(x)' p.grid.grid_line_color="white" return p # 正態分佈 mu, sigma = 0, 0.5 measured = np.random.normal(mu, sigma, 1000) hist, edges = np.histogram(measured, density=True, bins=50) x = np.linspace(-2, 2, 1000) # 擬合曲線 pdf = 1/(sigma * np.sqrt(2*np.pi)) * np.exp(-(x-mu)**2 / (2*sigma**2)) cdf = (1+scipy.special.erf((x-mu)/np.sqrt(2*sigma**2)))/2 p1 = make_plot("Normal Distribution (μ=0, σ=0.5)", hist, edges, x, pdf, cdf) # 對數正態分佈 mu, sigma = 0, 0.5 measured = np.random.lognormal(mu, sigma, 1000) hist, edges = np.histogram(measured, density=True, bins=50) x = np.linspace(0.0001, 8.0, 1000) pdf = 1/(x* sigma * np.sqrt(2*np.pi)) * np.exp(-(np.log(x)-mu)**2 / (2*sigma**2)) cdf = (1+scipy.special.erf((np.log(x)-mu)/(np.sqrt(2)*sigma)))/2 p2 = make_plot("Log Normal Distribution (μ=0, σ=0.5)", hist, edges, x, pdf, cdf) # 伽瑪分佈 k, theta = 7.5, 1.0 measured = np.random.gamma(k, theta, 1000) hist, edges = np.histogram(measured, density=True, bins=50) x = np.linspace(0.0001, 20.0, 1000) pdf = x**(k-1) * np.exp(-x/theta) / (theta**k * scipy.special.gamma(k)) cdf = scipy.special.gammainc(k, x/theta) p3 = make_plot("Gamma Distribution (k=7.5, θ=1)", hist, edges, x, pdf, cdf) # 韋伯分佈 lam, k = 1, 1.25 measured = lam*(-np.log(np.random.uniform(0, 1, 1000)))**(1/k) hist, edges = np.histogram(measured, density=True, bins=50) x = np.linspace(0.0001, 8, 1000) pdf = (k/lam)*(x/lam)**(k-1) * np.exp(-(x/lam)**k) cdf = 1 - np.exp(-(x/lam)**k) p4 = make_plot("Weibull Distribution (λ=1, k=1.25)", hist, edges, x, pdf, cdf) # 顯示 show(gridplot([p1,p2,p3,p4], ncols=2, plot_width=400, plot_height=400, toolbar_location=None))
運行結果如圖2-60所示。

▲圖2-60 代碼示例2-46運行結果
代碼示例2-46第5行自定義繪圖函數make_plot (title, hist, edges, x, pdf, cdf),其中參數分別為圖的標題、直方頂部邊界、左右邊界、擬合曲線的x坐標、方法通過定義矩形的四邊邊界,PDF為概率密度函數,CDF為累積分佈函數。第53行通過gridplot()方法一次展示4張圖(正態分佈、對數正態分佈、伽瑪分佈、韋伯分佈)。
關於作者:屈希峰,資深Python工程師,Bokeh領域的實踐者和佈道者,對Bokeh有深入的研究。擅長Flask、MongoDB、Sklearn等技術,實踐經驗豐富。知乎多個專欄(Python中文社區、Python程序員、大數據分析挖掘)作者,專欄累計關注用戶十餘萬人。
本文摘編自《Python數據可視化:基於Bokeh的可視化繪圖》,經出版方授權發佈。
延伸閱讀《Python數據可視化》
點擊上圖了解及購買
轉載請聯繫微信:DoctorData
推薦語:從圖形繪製、數據動態展示、Web交互等維度全面講解Bokeh功能和使用,不含複雜數據處理和算法,深入淺出,適合零基礎入門,包含大量案例。