數理統計6：泊松分布，泊松分布與指數分布的聯繫，離散分布參數估計

2021 年 2 月 4 日
筆記

前兩天對兩大連續型分布：均勻分布和指數分布的點估計進行了討論，導出了我們以後會用到的兩大分布：\(\beta\)分布和\(\Gamma\)分布。今天，我們將討論離散分布中的泊松分布。其實，最簡單的離散分布應該是兩點分布，但由於在上一篇文章的最後，提到了\(\Gamma\)分布和泊松分布的聯繫，因此本文從泊松分布出發。由於本系列為我獨自完成的，缺少審閱，如果有任何錯誤，歡迎在評論區中指出，謝謝！

Part 1：泊松分布簡介
Part 2：泊松分布的點估計
Part 3：其他離散分布的點估計

Part 1：泊松分布簡介

泊松分布是一種離散分布，先給出其概率分布列。若\(X\sim P(\lambda)\)，則

\[\mathbb{P}(X=k)=\frac{\lambda^k}{k!}e^{-\lambda},\quad k=0,1,\cdots
\]

它的取值是無限可列的。

為什麼泊松分布會與指數分布、\(\Gamma\)分布有聯繫呢？這是因為，它們三個都是隨機事件發生的一種描述。

實際上，指數分布的參數\(\lambda\)是一種速率的體現，它刻畫了隨機事件發生的速率。而指數分布隨機變數的取值，就代表某一事件在一定的速率下發生的時刻距離計時原點的長度。\(Y\sim E(\lambda)\)，就代表\(Y\)對應的事件事件的發生速率是\(\lambda\)，所以平均發生時間就在在\(1/\lambda\)處。這也可以作為\(\mathbb{E}(Y)=1/\lambda\)的一種解釋。

指數分布具有無記憶性，這與隨機事件的發生相似，即已經發生歷史事件對未來不產生影響，用數學語言說就是\(\mathbb{P}(Y>s+t|Y>s)=\mathbb{P}(Y>t)\)。這指的是，如果一個事件平均會在\(s\)時間後發生，但是目前經過了\(t\)時間還沒有發生，則事件的平均發生時間就移動到\(t+s\)時間後。它不會因為你已經等了\(t\)時間，就會更快地發生。

而如果把\(n\)個獨立同分布於\(E(\lambda)\)指數分布隨機變數相加，得到的自然就是恰好發生\(k\)個事件的平均時間，這個時間\(Z\sim \Gamma(n,\lambda)\)，本質還是一種時間的度量。但\(Z\)就不具有無記憶性了，這是因為，經過\(t\)時間後可能已經發生了\(n-1\)個事件就差最後一個沒有發生，也可能一個事件都沒發生還需要\(n\)個才能湊齊。

泊松分布則剛好相反，指數分布和\(\Gamma\)分布都是限定了發生次數，對發生時間作度量；泊松分布則是限定了時間\(1\)，求隨機事件在這一段時間內發生的次數服從的概率分布。因此，泊松分布和指數分布、\(\Gamma\)分布才會存在著這樣的聯繫。

以上結論，在隨機過程中會有廣泛的應用。

接下來要介紹泊松分布的一種實用性質：可加性。若\(X_1\sim P(\lambda_1)\)，\(X_2\sim P(\lambda_2)\)且相互獨立，則

\[X_1+X_2\sim P(\lambda_1+\lambda_2).
\]

如果兩個獨立泊松變數的可加性成立，則自然可以推廣到有限多個獨立泊松變數，下面利用離散卷積公式給出證明。

\[\begin{aligned}
\mathbb{P}(X_1+X_2=k)&=\sum_{j=0}^{k}\mathbb{P}(X_1=j)\mathbb{P}(X_2=k-j)\\
&=\sum_{j=0}^k\frac{\lambda_1^j}{j!}e^{-\lambda_1}\cdot\frac{\lambda_2^{k-j}}{(k-j)!}e^{-\lambda_2}\\
&=\frac{e^{-(\lambda_1+\lambda_2)}}{k!}\sum_{j=0}^{k}\frac{k!}{j!(k-j)!}\lambda_1^j\lambda_2^{k-j}\\
&=\frac{(\lambda_1+\lambda_2)^{k}}{k!}e^{-(\lambda_1+\lambda_2)}.
\end{aligned}
\]

這是泊松分布的概率分布列。

還可以利用泊松分布的特徵函數來證明。設\(X\sim P(\lambda)\)，則

\[\begin{aligned}
\phi_X(t)&=\mathbb{E}(e^{\mathrm{i}tX})\\
&=\sum_{j=0}^{\infty}\frac{\lambda^j}{j!}e^{\mathrm{i}tj-\lambda}\\
&=e^{-\lambda}\sum_{j=0}^{\infty}\frac{(\lambda e^{\mathrm{i}t})^j}{j!}\\
&=e^{-\lambda(e^{{\rm i}t}-1)}.
\end{aligned}
\]

所以當\(X_1\sim P(\lambda_1)\)，\(X_2\sim P(\lambda_2)\)且相互獨立時，

\[\phi_{X_1+X_2}(t)=e^{-(\lambda_1+\lambda_2)(e^{{\rm i}t}-1)},
\]

即\(X_1+X_2\sim P(\lambda_1+\lambda_2)\)。

知道了泊松分布具有可加性後，我們接下來討論泊松分布的點估計就會很方便。

Part 2：泊松分布的點估計

對泊松分布的估計其實沒有什麼難點，無非是將因子分解定理用到了離散情況罷了。對於離散情況，要寫出其聯合概率分布：

\[\begin{aligned}
&\quad \mathbb{P}(X_1=x_1,\cdots,X_n=x_n)\\
&=\prod_{j=1}^n \frac{\lambda^{x_j}}{x_j!}e^{-\lambda}\\
&=e^{-n\lambda}\lambda^{\sum_{j=1}^n x_j}\cdot\frac{1}{\prod_{j=1}^n (x_j!)}\\
&\xlongequal{def}g\left(\sum_{j=1}^n x_j,\lambda \right)\cdot h(\boldsymbol{x}),
\end{aligned}
\]

故\(T=\sum_{j=1}^n X_j\sim P(n\lambda)\)是\(\lambda\)的充分統計量，這說明\(\bar X\)也是充分統計量。又因為\(\mathbb{E}(X)=\lambda\)，所以\(\mathbb{E}(\bar X)=\lambda\)，證明了\(\bar X\)是無偏的，由強大數定律，\(\bar X\)還是強相合的。

從這裡得到的啟示是，在寫離散分布的概率密度函數時，要寫

\[\mathbb{P}(X_1=x_1,\cdots,X_n=x_n).
\]

這個表達式以後也會起到很大的作用。

對於離散分布，有時會需要你用定義驗證參數估計量的充分性（別說你已經把定義忘了），就是

\[\mathbb{P}(X_1=x_1,\cdots,X_n=x_n|T=t)
\]

與參數的無關性。我們現在對泊松分布的充分估計量\(T=\sum_{j=1}^n X_j\)驗證這一點，對於離散分布，步驟可能和連續分布略有不同，因為不使用Jacobi變換似乎更簡單一些，特別是\(T\sim P(n\lambda)\)的分布已知時。

\[\begin{aligned}
&\quad \mathbb{P}(X_1=x_1,\cdots,X_{n}=x_n|T=t)\\
&=\frac{\mathbb{P}(X_1=x_1,\cdots,X_{n-1}=x_{n-1},X_n=T-\sum_{j=1}^{n-1}x_j)}{\mathbb{P}(T=t)}\\
&=\prod_{j=1}^{n-1}\left(\frac{\lambda^{x_j}}{x_j!}e^{-\lambda}\right)\cdot\frac{\lambda^{t-\sum_{j=1}^{n-1}x_j}}{(t-\sum_{j=1}^{n-1}x_j)!}e^{-\lambda}\bigg/\left(\frac{\lambda^t}{t!}e^{-n\lambda} \right)\\
&=\frac{t!}{(\prod_{j=1}^{n-1}x_j!)(t-\sum_{j=1}^{n-1}x_j)!}.
\end{aligned}
\]

顯然這個概率與\(\lambda\)無關，所以\(T\)是充分統計量。

Part 3：其他離散分布的點估計

本來以為泊松分布能寫的東西不少，結果大多筆墨花在了背景介紹上，關於泊松分布點估計卻只寫了短短几行。既然如此，本文就將常用離散分布的點估計全部給出。

對於兩點分布\(B(1,p)\)，注意到\(P(X=x)=p^x(1-p)^{1-x}\)，所以其聯合概率函數是

\[\mathbb{P}(X_1=x_1,\cdots,X_n=x_n)=p^{\sum_{j=1}^nx_j}(1-p)^{n-\sum_{j=1}^n x_j},
\]

得到其充分統計量為\(T=\sum_{j=1}^n X_j\)，又\(T\sim B(n,p)\)，所以\(\mathbb{E}(T)=np\)，無偏充分估計量為

\[\bar X=\frac{T}{n},\quad \mathbb{E}(\bar X)=p.
\]

可以用定義驗證它是充分統計量。

對於幾何分布\(G(p)\)，注意到\(P(X=x)=(1-p)^{x-1}p\)，所以其聯合概率函數是

\[\mathbb{P}(X_1=x_1,\cdots,X_n=x_n)=p^{n}(1-p)^{\sum_{j=1}^n x_j-n},
\]

所以其充分統計量依然是\(T=\sum_{j=1}^n X_j\)（這太常見了），而幾何分布的均值是參數的倒數（就像指數分布一般），因此我們也要研究\(T\)的分布。

從實際意義來探究可能會更好一些。如果把\(X\)看作一個連續多次二項分布的實驗中，第一次成功所需實驗的總次數，則\(X=k\)指的是前\(k-1\)次實驗全部失敗，第\(k\)次恰好成功。推廣到\(T=\sum_{j=1}^n X_j\)，則\(T=k\)指的是前\(k-1\)次試驗恰好有\(n-1\)次成功，第\(n\)次恰好又成功。基於此，我們可以給出\(T\)的概率分布列為

\[\mathbb{P}(T=k)=C_{k-1}^{n-1}p^{n}(1-p)^{k-n},\quad k\ge n.\\
\sum_{k=n}^{\infty}C_{k-1}^{n-1}p^n(1-p)^{k-n}=1.
\]

稱具有如此分布列的隨機變數\(T\)服從負二項分布\(T\sim NB(n,p)\)，又叫做帕斯卡分布。

計算\(T\)的均值用到的trick與\(\Gamma\)分布時的一致，無非是\(\Gamma\)分布需要將\(\Gamma\)函數展開，這裡將二項式係數展開罷了。但是\(1/T\)的均值卻不好計算，所以難以得到其無偏估計。

本文對離散型隨機變數的參數估計作了小小的總結，可以看到離散型隨機變數的參數估計與連續型隨機變數的步驟大致相同，只是將聯合密度函數寫成了聯合概率分布。我們也可以看到，對有些參數估計進行無偏調整比較容易，對有些參數估計則難以得到無偏估計。

雖然我們已經討論了常用的分布，但是分布是無窮無盡的，不可能對每種分布都詳盡討論；另外，即使是我們已經討論過的分布，也可能衍生出奇奇怪怪的參數，比如均勻分布可能是\(U(\frac{1}{a},a)\)，對\(a\)作估計……等等。有什麼方法可以對參數估計進行綜合的討論呢？下一篇文章將討論常用的點估計方法。