當我們在說方差分析時,我們在說些什麼?
- 2019 年 10 月 7 日
- 筆記
當我們在說方差分析時,我們在說些什麼?
方差分析系列1的主要內容:
- 方差分析的定義
- 方差分析的幾個概念
- 方差分析和T檢驗的關係
- 一類錯誤和二類錯誤
- 方差分析的思想與數量遺傳學
1. 方差分析定義
方差分析或變方分析(Analysis of variance,簡稱ANOVA)為數據分析中常見的統計模型,主要為探討連續型(Continuous)資料型態之因變量(Dependent variable)與類別型資料型態之自變量(Independent variable)的關係,當自變項的因子中包含等於或超過三個類別情況下,檢定其各類別間平均數是否相等的統計模式,廣義上可將T檢定中方差相等(Equality of variance)的合併T檢定(Pooled T-test)視為是方差分析的一種,基於T檢定為分析兩組平均數是否相等,並且採用相同的計算概念,而實際上當方差分析套用在合併T檢定的分析上時,產生的F值則會等於T檢定的平方項。
方差分析依靠F-分佈為概率分佈的依據,利用平方和(Sum of square)與自由度(Degree of freedom)所計算的組間與組內均方(Mean of square)估計出F值,若有顯著差異則考量進行事後比較或稱多重比較(Multiple comparison),較常見的為薛費法(事後比較法)、杜其範圍檢定與邦費羅尼校正,用於探討其各組之間的差異為何。
在方差分析的基本運算概念下,依照所感興趣的因子數量而可分為單因子方差分析、雙因子方差分析、多因子方差分析三大類,依照因子的特性不同而有三種型態,固定效應方差分析(fixed-effect analysis of variance)、隨機效應方差分析(random-effect analysis of variance)與混合效應方差分析(Mixed-effect analaysis of variance),然而第三種型態在後期發展上被認為是Mixed model的分支,關於更進一步的探討可參考Mixed model的部分。
方差分析優於兩組比較的T檢驗之處,在於後者會導致多重比較(multiple comparisons)的問題而致使第一型錯誤(Type one error)的機會增高,因此比較多組平均數是否有差異則是方差分析的主要命題。
在統計學中,方差分析(ANOVA)是一系列統計模型及其相關的過程總稱,其中某一變量的方差可以分解為歸屬於不同變量來源的部分。其中最簡單的方式中,方差分析的統計測試能夠說明幾組數據的平均值是否相等,因此得到兩組的T檢驗。在做多組雙變量T檢驗的時候,錯誤的概率會越來越大,特別是第一型錯誤,因此方差分析只在二到四組平均值的時候比較有效。
—wiki百科–
育種數據中,想要看幾個品種在不同地點的表現,有些品種產量高,有些品種產量低,問題是這些產量高的品種是由於誤差造成的,還是它本身的基因型導致的產量高,這就需要用科學的方法進行檢驗,進行品種的篩選。檢測不同品種顯著性的方法,最常用的就是方差分析。
2. 方差分析幾個概念
1.因素
因素是一個獨立的變量,也就是方差分析研究的對象,也稱為因子。如:我們要分析飲料的顏色對飲料的銷售量是否有影響,在這裡,「飲料的顏色」是所要檢驗的對象,它就是一個因素。在有的書中把因素稱為「因子」。
2.水平
因素中的內容稱為水平,它是因素的具體表現。如:「飲料的顏色」這一因素中的水平有四個,即飲料的四種不同顏色:無色、粉色、桔黃色、綠色;它們是「飲料的顏色」這一因素的四種具體表現。因素的每一個水平可以看作是一個總體,比如:無色、粉色、桔黃色、綠色飲料可以看作是四個總體。
3.控制變量
在方差分析中,能夠人為控制的影響因素稱為控制因素,或控制變量;如:例1中,「飲料的顏色」對於飲料的銷售量而言,是能夠人為控制的影響因素,稱為控制變量。
4.隨機變量
在方差分析中,人為很難控制的影響因素稱為隨機因素,或隨機變量;如:例1中,「人們對不同顏色的偏愛」對於飲料的銷售量而言,是人為很難控制的影響因素,稱為隨機變量。
5.觀察變量與觀察值
在方差分析中,受控制因素和隨機因素影響的事物,稱為觀察變量。在每個水平下得到的樣本數據稱為觀察值。如:例1中,銷售量是觀察變量,在每個飲料顏色下得到的樣本數據(即表10-1中的數據)就是觀察值。
品種試驗中,術語對應關係:
- 因素:品種就是因素或者因子(factor)
- 水平:10個品種,每個品種就是因素的一個水平(level)
- 控制變量:我們可以控制的因素,比如品種
- 隨機變量:我們不能控制的因素,比如殘差
- 觀測值:我們想要考慮的性狀,比如產量
3. 方差分析和T檢驗
T檢驗是兩兩之間的檢驗,判斷一個因素的兩個水平是否一樣,如果品種比較多,比如鄭單958,先玉335,偉科702,就需要比較3個T檢驗,如果它犯錯的可能是0.05(一類錯誤),那麼三組試驗至少有一個錯誤的概率為3*0.05 = 0.15,很大的概率有沒有,而方差分析只需要一次試驗,降低一類錯誤。
所以,在多個水平時,方差分析要優於T檢驗
4. 一類錯誤和二類錯誤
- 一類錯誤:假陽性 本來是不顯著的,然後統計推斷達到了顯著性,是錯誤的
- 二類錯誤:假陰性 本來是顯著的,然後統計推斷不顯著性,是錯誤的

在這裡插入圖片描述
5. 方差分析和數量遺傳學
方差分析的方法,重要的是變異分解這個思路,與線性模型關聯在了一起,然後數量遺傳學也將表型值分為基因型值與環境效應,育種是針對錶型數據間接選擇基因型值,這個思路如此簡潔,又意義重大。
在沒有科學的思路之前,育種就像無頭的蒼蠅一樣,雜亂無章法。遺傳力高的時候,表型選擇有效,遺傳力低時表型選擇就很吃力。
5.1 方差分析原理1:表型值剖分
比如10個品種的產量,用完全隨機區組設計,重複3次,得到產量的值,如何判斷這10個品種好壞?
我們用線性模型,將產量進行分解:

用數學公式表示:

- y: 產量
- mu: 平均值
- beta: 品種效應值
- epsilon: 誤差

在這裡插入圖片描述
5.2 方差分析原理2:組間變異和組內變異
- 組間變異:品種間的變異
- 組內變異:品種內誤差變異

5.3 方差分析原理3:組間變異/組內變異
如果品種間的變異遠遠大於組內的變異,及品種的差異遠遠大於誤差,說明品種間的差異是真實的,即品種間達到顯著水平,這裡的SA和SE要除以自由度,得到F值,然後根據分子和分母的自由度,計算F值對應的P值。

5.4 方差分析和數量遺傳學

在育種中,我們感興趣的不是beta是否達到極顯著,而是要得到beta的值(效應值,育種值),然後根據它進行品種篩選,因為它代表着品種的真實表現,它排除了誤差和環境造成的影響。
由方差分析的變異分解,到育種值,到配合力,到BLUP值,到GBLUP,HBLUP,都是這種思路的延伸,不同的是使用一般線性模型,混合線性模型,貝葉斯模型等等
6. 參考資料
https://gisersqdai.top/2017/06/11/%E5%BA%94%E7%94%A8%E7%BB%9F%E8%AE%A1%E5%AD%A6%E4%B8%8ER%E8%AF%AD%E8%A8%80%E5%AE%9E%E7%8E%B0%E5%AD%A6%E4%B9%A0%E7%AC%94%E8%AE%B0%EF%BC%88%E5%85%AB%EF%BC%89%E2%80%94%E2%80%94%E6%96%B9%E5%B7%AE%E5%88%86%E6%9E%90/ http://www.cmtsa.org/uploads/soft/140806/%E7%AC%AC7%E7%AB%A0%E6%96%B9%E5%B7%AE%E5%88%86%E6%9E%90.pdf http://math.sjtu.edu.cn/faculty/chengwang/files/2015spring/%E6%96%B9%E5%B7%AE%E5%88%86%E6%9E%90.pdf https://www.jianshu.com/p/f5f54a39cb19