數據分析師必須掌握的統計學知識!

  • 2019 年 11 月 15 日
  • 筆記

眾所周知,統計學是數據分析的基石。學了統計學,你會發現很多時候的分析並不那麼準確,比如很多人都喜歡用平均數去分析一個事物的結果,但是這往往是粗糙的。而統計學可以幫助我們以更科學的角度看待數據,逐步接近這個數據背後的「真相」。大部分的數據分析,都會用到以下統計方面的知識,可以重點學習:

  • 概率介紹
  • 離散型概率分佈和連續型概率分佈
  • 抽樣和抽樣分佈
  • 區間估計
  • 假設檢驗

一、概率介紹

概率是指的對於某一個特定事件的可能性的數值度量,且在0-1之間。我們拋一枚硬幣,它有正面朝上和反面朝上兩種結果,通常用樣本空間S表示,S={正面,反面},而正面朝上這一特定的試驗結果叫樣本點。對於樣本空間少的試驗,我們極易觀察出他們樣本空間的大小,而對於較複雜的試驗,我們就需要學習些計數法則了。

1、計數法則

(1)多步驟試驗的計數法則

如果一個試驗可以分為循序的k個步驟,在第1步中有N1種試驗結果,在第2步中有N2種試驗結果…以此類推。那麼所有的試驗結果的總數為N1*N2*N3…*Nk

舉例:拋兩枚硬幣,第一枚有正反兩種結果,第二枚有正反兩種結果。所以試驗結果的總數是 2X2=4

(2)組合計數法則

從N項中任取n項的組合數

N和n的上下位置與我們平常見的是相反的。因為我們這裡是以歐美規範為主。

舉例子:從5個彩色球中,選出2個綵球,有多少種選法?

(3)排列計數法則

從N項中任取n項的排列數

舉例子:從5個彩色球中,選出2個綵球,有多少種排列方法? 代入得出答案是20種。

2、事件及其概率

(1)事件

其實事件為樣本空間的一個子集,通常,如果能確定一個試驗的所有樣本點並且能夠知曉每個樣本點的概率,那麼我們就能求出事件的概率。

(2)概率的基本性質

事件A的補:指的是所有不包含在事件A中的樣本點所以事件A發生的概率 P(A)=1-P(A-)

事件的組合:並和交

兩個圓形區域所在的部分就是事件A和B的並,其中重疊的部分說明有一些樣本點即屬於A又屬於B,它可以稱之為交。

得出加法公式為:

P(A∪B) = P(A)+P(B) – P(A∩B)

P(A∪B) 是兩個圓形面積,P(A)是藍色圓面積,P(B)是橙色圓面積,當兩者相加時,會多出一塊重疊區域,於是減去P(A∩B)進行修正,得出正確的結果。

如果某個事件A發生的可能性受到另外一個事件B的影響,此時A發生的可能性叫做條件概率,記作P(A|B)。表明我們是在B條件已經發生的條件下考慮A發生的可能性,統計學中稱為給定條件B下事件A的概率

進而又得出了乘法公式:

(3)貝葉斯定理

簡單的來講,貝葉斯定理其實就是,我們先假設一個事件發生的概率,然後又找到一個信息,最後得出在這個信息下這一事件發生的概率。

舉一個我們生活中的例子,當我們和一個被懷疑做壞事的人聊天時,我們首先假設他做壞事的概率為a,然後我們根據和他交談的信息,得出對他新的認識,重新判斷他做壞事的概率b.

貝葉斯就是闡述了這麼一個事實:新信息出現後B的概率=B的概率 X 新信息帶來的調整。

如果當直接計算P(A)較為困難時,而P(Bj),P(A|Bj) (j=1,2,…)的計算較為簡單時,可以利用全概率公式計算P(A)。

思想就是,將事件A分解成幾個小事件,通過求小事件的概率,然後相加從而求得事件A的概率,而將事件A進行分割的時候,不是直接對A進行分割,而是先找到樣本空間Ω的一個個劃分B1,B2,…Bn,這樣事件A就被事件AB1,AB2,…ABn分解成了n部分,即A=AB1+AB2+…+ABn, 每一Bj發生都可能導致A發生相應的概率是P(A|Bj),由加法公式得:

P(A)=P(AB1)+P(AB2)+….+P(ABn) =P(A|B1)P(B1)+P(A|B2)P(B2)+…+P(A|Bn)P(PBn)

所以調整後的貝葉斯公式為:

二、離散型概率分佈和連續型概率分佈

概率中通常將試驗的結果稱為隨機變量。隨機變量將每一個可能出現的試驗結果賦予了一個數值,包含離散型隨機變量和連續型隨機變量。

既然隨機變量可以取不同的值,統計學家就用概率分佈描述隨機變量取不同值的概率。相對應的,有離散型概率分佈和連續型概率分佈。

1、數學期望和方差

數學期望是對隨機變量中心位置的一種度量。是試驗中每次可能結果乘以其結果的概率的總和。簡單說,它是概率中的平均值。

方差是隨機變量的變異性或者是分散程度的度量。

其中的u就是E(x)。

2、離散型概率分佈

(1)二項概率分佈

二項分佈是一種離散型的概率分佈。故明思義,二項代表它有兩種可能的結果,把一種稱為成功,另外一種稱為失敗。

除了結果的規定,它還需要滿足其他性質:每次試驗成功的概率均是相同的,記錄為p;失敗的概率也相同,為1-p。每次試驗必須相互獨立,該試驗也叫做伯努利試驗,重複n次即二項概率。擲硬幣就是一個典型的二項分佈。當我們要計算拋硬幣n次,恰巧有x次正面朝上的概率,可以使用二項分佈的公式:

且二項概率的數學期望為E(x) = np,方差Var(x) = np(1-p)。

(2)泊松概率分佈

泊松概率是另外一個常用的離散型隨機變量,它主要用於估計某事件在特定時間或空間中發生的次數。比如一天內中獎的個數,一個月內某機器損壞的次數等。

泊松概率的成立條件是在任意兩個長度相等的區間中,時間發生的概率是相同的,並且事件是否發生都是相互獨立的。

泊松概率既然表示事件在一個區間發生的次數,這裡的次數就不會有上限,x取值可以無限大,只是可能性無限接近0,f(x)的最終值很小。

x代表發生x次,u代表發生次數的數學期望,概率函數為:

其中泊松概率分佈的數學期望和方差是相等的。

3、連續型概率分佈

上述分佈都是離散概率分佈,當隨機變量是連續型時,情況就完全不一樣了。因為離散概率的本質是求x取某個特定值的概率,而連續隨機變量不行,它的取值是可以無限分割的,它取某個值時概率近似於0。連續變量是隨機變量在某個區間內取值的概率,此時的概率函數叫做概率密度函數。

(1)均勻概率分佈

隨機變量x在任意兩個子區間的概率是相同的。

均勻概率密度函數:

數學期望:

方差:

(2)正態概率分佈

正態概率分佈是連續型隨機變量中最重要的分佈。世界上絕大部分的分佈都屬於正態分佈,人的身高體重、考試成績、降雨量等都近似服從。

正態分佈如同一條鐘形曲線。中間高,兩邊低,左右對稱。想像身高體重、考試成績,是否都呈現這一類分佈態勢:大部分數據集中在某處,小部分往兩端傾斜。

正態概率密度函數為:

u代表均值,σ代表標準差,兩者不同的取值將會造成不同形狀的正態分佈。均值表示正態分佈的左右偏移,標準差決定曲線的寬度和平坦,標準差越大麴線越平坦。

一個正態分佈的經驗法則:正態隨機變量有69.3%的值在均值加減一個標準差的範圍內,95.4%的值在兩個標準差內,99.7%的值在三個標準差內。

均值u=0,標準差σ=1的正態分佈叫做標準正態分佈。它的隨機變量用z表示,將均值和標準差代入正態概率密度函數,得到一個簡化的公式:

為了計算概率需要學習一個新的函數叫累計分佈函數它是概率密度函數的積分。用P(X<=x)表示隨機變量小於或者等於某個數值的概率,F(x) = P(X<=x)。

曲線f(x)就是概率密度函數,曲線與X軸相交的陰影面積就是累計分佈函數。

標準正態分佈的分佈函數:

圖像如下:

計算三種類型的概率(這裡需要說明一點,只有標準正態分佈時,隨機變量才用z表示):

z小於或者等於某個給定值的概率,直接帶入分佈函數得出 如:p(z<=1)=φ(1)=0.8413 (1值左邊標準正態曲線下的面積)

z在給定的兩個值之間的概率 如:P(-1<=z<=1.25) = P(z<=1.25) – P(z<=-1) =φ(1.25)-φ(1) =0.735

z大於或者等於某個給定值的概率 如:P(z>1) = 1-P(z<=1) =1-φ(1)= 0.1586

標準正態分佈與一般的正態分佈的關係:任何一個一般的正態分佈都可以通過線性變換轉化為標準正態分佈。它依據的定理如下:

下面做一道題目練習吧!

現在有一個u=10和σ=2的正態隨機變量,求x在10與14之間的概率是多少?

當x=10時,z=(10-10)/2=2。當x=14時,z=(14-10)/2=2。於是x在10和14之間的概率等價於標準正態分佈中0和2之間的概率。計算P(0<=z<=2) =P(z<=2) – P(z<=0) =0.4772。

(3)指數概率分佈

指數概率密度函數:

其中,x>=0,u為均值,e=2.71828

計算概率: 指數隨機變量取小於或者等於某一特定值X0的概率。

且指數概率分佈的期望=標準差

4、指數分佈vs泊松分佈

泊松分佈:是離散型概率分佈,描述每一區間中事件發生的次數。

指數分佈:是連續型概率分佈,描述事件發生的時間間隔的長度。

為了說明問題,簡單舉兩個小例子:

(1)20分鐘內購買肯德基早餐的人數的均值是10人,那麼如果求每20分鐘有x人購買的概率,就應該用泊松概率函數:

(2)20分鐘內購買肯德基早餐的人數的均值是10人,那麼如果求每20分鐘這一區間內,兩位顧客購買的時間間隔為小於x0的概率,就應該用指數概率函數。

購買的間隔均值為u=10/20=0.5 把u帶入下面的公式:

三、抽樣和抽樣分佈

首先不管是從有限總體中抽樣還是從無限總體中抽樣都應該滿足抽樣的隨機性。

1、抽樣

我們抽樣得出樣本統計量就是為了估計總體的參數

樣本均值(x拔)是總體均值的u的點估計

樣本標準差s是總體的標準差σ的點估計

樣本比率(p拔)是總體比率的p的點估計

2、抽樣分佈

其實當我們抽樣的時候,我們抽取的每個樣本的均值、方差、比率,可能都是不同的,如果我們把抽取一個簡單的隨機樣本看作一次試驗,那麼(x拔)就有期望、方差、標準差和概率分佈了((x拔)的概率分佈也就是(x拔)的抽樣分佈)

(1)樣本均值的抽樣分佈

(x拔)的抽樣:樣本均值(x拔)的所有可能值的概率分佈

(x拔)的數學期望:

其中u是總體的期望,(x拔)的標準差。

當樣本容量佔總體5%以上時,有求樣本標準差公式如下:

當樣本容量佔總體5%以下時,公式可以簡化成:

其中n是樣本容量,N是總體容量,σ是總體標準差,σ(x拔)是樣本標準差

重點來了:

如果總體服從正態分佈時:任何樣本容量下的(x拔)的抽樣分佈都是正態分佈。

總體不服從正態分佈時:

a.中心極限定理:從總體中抽取容量為n的簡單隨機樣本,當樣本的容量額很大時,樣本均值(x拔)的抽樣分佈近似服從正態概率分佈。

b.其實在大多數的應用中,樣本容量大於30時,(x拔)的抽樣分佈近似服 從正態概率分佈

(2)樣本比率的抽樣分佈

(p拔)的抽樣:樣本比率(p拔)的所有可能值的概率分佈

其中:x=具有感興趣特徵的個體的個數,n=樣本容量 (p拔)的數學期望:

其中,p=總體比率

(p拔)的標準差:

當樣本容量佔總體5%以上時,有求樣本標準差公式如下:

當樣本容量佔總體5%以下時,公式可以簡化成:

其中n是樣本容量,N是總體容量,p是總體比率,σ(p拔)是樣本標準差

(p拔)的抽樣分佈形態:

在上面的公式之中,x是一個服從二項分佈的隨機變量,n為常數,所以(p拔)也是離散型的概率分佈。其實,如果樣本容量足夠大,並且np>=5和n(1-p)>=5,二項分佈可用正態分佈近似,(p拔)的抽樣分佈可用正態分佈來近似。

四、區間估計

點估計是用於估計總體參數的樣本統計量,但是我們不可能通過點估計就給出總體參數的一個精確值,更穩妥的方法是加減一個邊際誤差,通過一個區間值來估計(區間估計)

1、總體均值的區間的估計

(1)總體均值的區間的估計:σ已知情形

對總體均值進行估計時:

要利用總體標準差σ計算邊際誤差

● 抽樣前可通過大量歷史數據估計總體標準差。

下面做一道例題感受下吧!

這是一道有關顧客購物消費額的問題,根據歷史數據,σ=20美元,並且總體服正態分佈。現在抽取n=100名顧客的簡單隨機樣本,其樣本均值(x拔)=82美元。求總體均值的區間估計。

開始解答了:

● 總體服從正態分佈,所以樣本均值的抽樣分佈也是正態分佈。

● 根據σ=20美元,得出

● 所以x拔的抽樣分佈服從標準差為σ(x拔)=2的正態分佈

● 任何正態分佈的隨機變量都有95%的值在均值附近加減1.96個標準差以內(通過查表可得)

● σ(x拔)=2,(x拔)所有值的95%都落在【u加減1.96σ(x拔)也即是u加減3.92】 即:

(x拔)=82美元

所以u的區間估計是(78.08,85.92)

其中這個區間是在95%置信水平下建立的,置信係數為0.05。區間(78.08,85.92)為95%的置信區間。

根據公式來計算區間,邊際誤差、區間估計如下圖所示:

所以:

在90%,95%,99%的置信水平情況下:

所以90%,99%的置信水平下的置信區間為:

其實我們也能得出這樣的結論:想要達到的置信水平越高,邊際誤差就要越大,置信區間也是越寬。

(2)總體均值的區間估計:σ未知情形

當σ未知時,我們需要利用同一個樣本估計u和σ兩個參數

用s估計σ時,邊際誤差和總體均值的區間估計依據t分佈,並且總體是不是正態分佈用t分佈來估計效果都是挺好的。

t分佈:

有一類相似的概率分佈組成的分佈族;某個特定的t分佈依賴於自由度的參數;自由度越大,t分佈與標準正態分佈的差別越小;t分佈的均值為0;

其中與z分佈有類似的情況的是:

例如:

利用的計算公式如下: 邊際誤差:

區間估計

樣本標準差

自由度:n-1

註:

(3)樣本容量的確定

我們可以選擇足夠的樣本容量以達到所希望的邊際誤差:

由於邊際誤差公式為:

所以總體均值區間估計中的樣本容量為:

註:

如果σ未知,可通過以下方法確定σ的初始值: ● 根據以前研究中的數據計算總體標準差的估計值 ● 利用實驗性研究,選取一個初始樣本,以初始樣本的標準差做估計值 ● 對σ進行判斷或最優猜測:計算極差/4為標準差的粗略估計

2、總體比率p的區間估計

由於和總體均值的區間估計類似,這裡就不詳細說明了,直接上公式:

邊際誤差:

區間估計:

(1)樣本容量的確定

我們可以選擇足夠的樣本容量以達到所希望的邊際誤差

邊際誤差:

所以樣本容量為:

由於抽樣前(p拔)是未知的,不能用於計算達到預期的邊際誤差所要的樣本容量,因此令(p星)表示(p拔)的計劃值

(2)p星的確定

● 用以前研究中類似的樣本的樣本比率作為計劃值

● 利用實驗性的研究,選取一個初始樣本,以初始樣本的樣本比例作為計劃值。

● 使用判斷或最優猜測作為計劃值

● 如果上述均不可,計劃值取為0.5,這是因為p(星)=0.5時,p星*(1-p星)取得最大值,同時樣本容量也能取的最大值。

五、假設檢驗

何為假設檢驗?假設檢驗是對總體參數做一個嘗試性的假設,該嘗試性的假設稱為原假設,然後定義一個和原假設完全對立的假設叫做備選假設。其中備選假設是我們希望成立的論斷,原假設是我們不希望成立的論斷。

假設檢驗涉及討論的內容有:

總體均值的檢驗:σ已知和σ未知情形

● 總體比率的假設檢驗:σ已知和σ未知道

但是下面主要討論在σ已知情形下,總體均值的檢驗,其他的根據區間估計中的證明和下面的例題都能很方便的理解出來。

總體均值的檢驗:σ已知情形

準備一道例題,通過例子說明思路:

質檢機構檢查某品牌咖啡的標籤上顯示裝有3磅咖啡,現在質檢機構需要確定每罐咖啡的質量至少有三磅,以保證消費者權益。已知道σ=0.18,現在取得n=36罐咖啡組成一個隨機樣本,計算出(x拔)=2.92

開始解答了:

● 首先我們明白想要的結果是證明u<3,所以就提出了原假設和備選假設如下:H0:u>=3;Ha:u<3

● 其中我們在檢驗的過程允許以1%的可能性犯錯誤也即是 α=0.01

● 由於樣本n=36,σ=0.18,所本均值的抽樣分佈是服從正態概率分佈

● 所以當(x拔)=2.92時,z=-2.67

● 因為原假設u是大於等於3的,所以我們就觀察z小於或等於-2.69的值,讓p值等於檢驗統計值z小於或等於-2.69的概率;利用標準正態概率表,z=-2.69時,p值=0.0038

其中我們可以這樣理解z小於或者等於-2.69的概率p=0.0038這一事件的發生概率是非常的小,又加上允許犯錯的概率是0.01(也即是發生的概率是0.01結果是非常小的,我直接忽略了)。

所以我們直接認為z小於或者等於-2.69這一事件太小以至於我們認為他是不發生的。所以我們拒絕了H0:u>=3這一假設。所以,在0.01的顯著水平下有足夠的統計證據拒絕H0。