Linear Mixde Model:線性混合模型簡介

  • 2019 年 12 月 19 日
  • 筆記

Linear Mixde Model, 簡稱LMM, 稱之為線性混合模型。從名字也可以看出,這個模型和一般線性模型有着很深的淵源。

線性混合模型是在一般線性模型的基礎上擴展而來,在回歸公式中同時包含了以下兩種效應

  1. fixed-effects, 固定效應
  2. random efffects,隨機效應

其名稱中的混合一詞正是來源於此。一元簡單線性模型的公式如下

其中X代表固定效應,ε表示隨機誤差,而線性混合模型的公式如下

相比簡單線性模型,多出了Z這一項,這一項稱之為隨機效應。當然兩種模型的本質並不是體現在回歸公式中自變量的多少,而在於自變量的類別,在一般線性模型中,其自變量全部為固定效應自變量,而線性混合模型中,除了固定效應自變量外,還包含了隨機效應自變量。

所以關鍵之處在於判定自變量的類別,如果一個自變量的所有類別在抽樣的數據集中全部包含,則將該變量作為固定效應,比如性別,只要抽樣的數據中同時包含了兩種性別,就可以將性別作為固定效應自變量;如果一個自變量在抽樣的數據集中的結果只是從總體中隨機抽樣的結果,那麼需要作為隨機效應自變量。簡而言之,如果抽樣數據集中的自變量可以包含該自變量的所有情況,則作為固定效應,如果只能代表總體的一部分,則作為隨機效應。

在分析的時候,可以將自變量都作為固定效應自變量,然後用一般線性模型來進行處理,那麼為何要引入隨機效應自變量呢?

使用一般線性模型時,是需要滿足以下3點假設的

  1. 正態性,因變量y符合正態分佈
  2. 獨立性,不同類別y的觀察值之間相互獨立,相關係數為零
  3. 方差齊性,不同類別y的方差相等

以性別這個分類變量為例,如果不同性別對應的因變量值有明顯差異,也就說我們常說數據分層,那麼就不滿足上述條件了。此時如果堅持使用一般線性模型來擬合所有樣本,其參數估計值不在具有最小方差線性無偏性,回歸係數的標準誤差會被低估,利用回歸方程得到的估計值也會過高。

對於分層明顯的數據,一種解決方案就是將不同的層分開處理,比如性別分層,那麼就將不同性別的數據分開,每一類單獨處理,但是這要求每一類包含的樣本數據量要夠多,而且分層因素的類別也不能太多,太多了處理起來也很麻煩。另外一個解決方案就是更換模型,使用線性混合模型。

一般線性模型有3個前提條件,而線性混合模型只保留了其中的第一點,即因變量要符合正態分佈,對於獨立性和方差齊性不做要求,所以適用範圍更加廣泛。

在線性混合模型中,隨機效應變量Z的參數向量Γ服從均值為0,方差為G的正態分佈,即Γ ~ N(0, G), 隨機誤差ε服從均值為,方差為R的正態分佈,即ε ~ N(0, R), 同時假定G和R沒有相關性,即Cov(G, R) = 0, 此時因變量Y的方差可以表示為

Var(Y) = ZGZ + R

在GCTA軟件中,其核心就是線性混合模型,將所有SNP作為自變量,然後通過上述公式來估算SNP遺傳力。

對於一般線性模型,可以通過最小二乘法或者最大似然法來估算其參數,對於線性混合模型,常用的參數估方法為約束性最大似然法

restricted maximum likelihood

簡稱REML, 對於如下的混合模型

其中y是已知的,表示因變量的觀測值,β是未知的,表示固定效應的參數向量,u是未知的,表示隨機效應的參數向量,對於該方程的參數估計,其實就是求解βu的值,公式如下

對於固定效應β, 其估計值為最佳線性無偏估計

best linear unbiased estimates(BLUE)

對於隨機效應u, 其估計值為最佳線性無偏預測

best linear unbiased predictors(BLUP)

線性混合模型只要求因變量服從正態分佈,適用範圍廣,在遺傳統計學中廣泛使用。