統計分析_集中趨勢and離散程度
1.數組的集中趨勢-如何定義數組的中心
1.1 常用幾下幾個指標來描述一個數組的集中趨勢
均值-算術平均數
。
中位數-將數組升序或降序排列後,位於中間的數。
眾數-數組中出現最多的數。
1.2 指標特點
優點 | 缺點 | |
均值 | 充分利用所有數據,包含最多信息量,適用性強,應用最為廣泛 | 極易受到異常值的影響,產生數據傾斜 |
中位數 | 避免異常值的影響 | 不敏感 |
眾數 | 能夠很好反應數組的集中趨勢 | 當數組沒有明顯的集中趨勢時,基本沒有信息量 |
1.3 均值使用場景
場景:雙11過後,淘寶店需要選擇一個指標代表十一月的銷售情況,應該如何選擇呢?日均銷售額是否適合?
回答:如果需要對外公布業績或是向供應商結算的時候,日均銷售額可用,因為這是十一月的真實數據。但如果需要依賴十一月銷售額推斷十二月銷售額時或是判斷十一月銷售能力對比十月是否有提升時 ,十一月日均銷售額不可用,因為雙十一銷售額的猛漲強依賴於外部環境變換,這種情況下雙十一銷售額為異常值,不可能在十二月復現,這種情況下十一月日銷售額中位數優於日均銷售額。
總結:在判斷3個代表集中趨勢的判斷指標使用場景時,應該優先判斷均值是否可用。當統計樣本中存在極大值或極小值,且極值在我們需要處理的場景中不會復現,這種情況下均值不可用。
1.4 EXCEL和Python語言中的實現
EXCEL
均值:average(數組); 中位數:median(數組),quantile(數組,[quart]),0-最小值,1-下四分位數,2-中位數,3-上四分位數,4-最大值; 眾數:mode(數組)
Python
import numpy as np from scipy import stats 均值:np.mean(數組) 中位數:np.median(數組) 眾數:stats.mode(數組)[0][0]
2.數組的離散程度-數據的穩定程度
僅適用集中趨勢無法提供充足的信息,結合集中趨勢和離散程度才能更好的理解數據。
2.1 常用以下四個指標描述數組的離散程度
極差:最大值-最小值(上界-下界),代表數據的寬度,是度量數組離散程度最簡單的指標。
局限性:僅是度量數組寬度,難以得出數據的真實分佈形態,容易受異常值的影響。
四分位距:上四分位數-下四分位數,僅適用數據中央50%的數據,剔除異常值的影響。
方差:數值與均值的距離的平方數的平均值,一般情況下會用樣本方差來估計總體方差。
總體方差為:
樣本方差為:
標準差:方差的平方根,度量數據與均值的距離。
拓展:標準分=距離均值的標準差個數,可以對不同數據集的數據進行比較,而這些不同數據集的均值和標準差各不相同,標準分將幾個數據集轉換成z分佈,這個分佈均值為0,標準差為1。
2.2 EXCEL和Python語言中的實現
EXCEL
極差:Max(數組)-Min(數組) 四分位距:quantile(數組,3) - quantile(數組,1) 方差:Var(數組) 標準差:Stdev(數組)
Python
import numpy as np from scipy import stats import pandas as pd #離散趨勢相關指標 print("極差:",np.max(df)-np.min(df)) print("四分位差:",np.percentile(df,75)-np.percentile(df,25)) print("標準差:",np.std(df)) print("方差:",np.var(df))
2.3 小結
離散程度標誌着數組的穩定性高低,兩個數組對比時,綜合比較均值和標準差/方差,可以更好的理解數據。
2020-04-15 17:07