當我們在說方差分析時，我們在說些什麼？

2019 年 10 月 7 日
筆記

當我們在說方差分析時，我們在說些什麼？

方差分析系列1的主要內容：

方差分析的定義
方差分析的幾個概念
方差分析和T檢驗的關係
一類錯誤和二類錯誤
方差分析的思想與數量遺傳學

1. 方差分析定義

方差分析或變方分析（Analysis of variance，簡稱ANOVA）為數據分析中常見的統計模型，主要為探討連續型（Continuous）資料型態之因變量（Dependent variable）與類別型資料型態之自變量（Independent variable）的關係，當自變項的因子中包含等於或超過三個類別情況下，檢定其各類別間平均數是否相等的統計模式，廣義上可將T檢定中方差相等（Equality of variance）的合併T檢定（Pooled T-test）視為是方差分析的一種，基於T檢定為分析兩組平均數是否相等，並且採用相同的計算概念，而實際上當方差分析套用在合併T檢定的分析上時，產生的F值則會等於T檢定的平方項。

方差分析依靠F-分佈為概率分佈的依據，利用平方和（Sum of square）與自由度（Degree of freedom）所計算的組間與組內均方（Mean of square）估計出F值，若有顯著差異則考量進行事後比較或稱多重比較（Multiple comparison），較常見的為薛費法(事後比較法)、杜其範圍檢定與邦費羅尼校正，用於探討其各組之間的差異為何。

在方差分析的基本運算概念下，依照所感興趣的因子數量而可分為單因子方差分析、雙因子方差分析、多因子方差分析三大類，依照因子的特性不同而有三種型態，固定效應方差分析（fixed-effect analysis of variance）、隨機效應方差分析（random-effect analysis of variance）與混合效應方差分析（Mixed-effect analaysis of variance），然而第三種型態在後期發展上被認為是Mixed model的分支，關於更進一步的探討可參考Mixed model的部分。

方差分析優於兩組比較的T檢驗之處，在於後者會導致多重比較（multiple comparisons）的問題而致使第一型錯誤（Type one error）的機會增高，因此比較多組平均數是否有差異則是方差分析的主要命題。

在統計學中，方差分析（ANOVA）是一系列統計模型及其相關的過程總稱，其中某一變量的方差可以分解為歸屬於不同變量來源的部分。其中最簡單的方式中，方差分析的統計測試能夠說明幾組數據的平均值是否相等，因此得到兩組的T檢驗。在做多組雙變量T檢驗的時候，錯誤的概率會越來越大，特別是第一型錯誤，因此方差分析只在二到四組平均值的時候比較有效。

—wiki百科–

育種數據中，想要看幾個品種在不同地點的表現，有些品種產量高，有些品種產量低，問題是這些產量高的品種是由於誤差造成的，還是它本身的基因型導致的產量高，這就需要用科學的方法進行檢驗，進行品種的篩選。檢測不同品種顯著性的方法，最常用的就是方差分析。

2. 方差分析幾個概念

1．因素

因素是一個獨立的變量，也就是方差分析研究的對象，也稱為因子。如：我們要分析飲料的顏色對飲料的銷售量是否有影響，在這裡，「飲料的顏色」是所要檢驗的對象，它就是一個因素。在有的書中把因素稱為「因子」。

2．水平

因素中的內容稱為水平，它是因素的具體表現。如：「飲料的顏色」這一因素中的水平有四個，即飲料的四種不同顏色：無色、粉色、桔黃色、綠色；它們是「飲料的顏色」這一因素的四種具體表現。因素的每一個水平可以看作是一個總體，比如：無色、粉色、桔黃色、綠色飲料可以看作是四個總體。

3．控制變量

在方差分析中，能夠人為控制的影響因素稱為控制因素，或控制變量；如：例1中，「飲料的顏色」對於飲料的銷售量而言，是能夠人為控制的影響因素，稱為控制變量。

4．隨機變量

在方差分析中，人為很難控制的影響因素稱為隨機因素，或隨機變量；如：例1中，「人們對不同顏色的偏愛」對於飲料的銷售量而言，是人為很難控制的影響因素，稱為隨機變量。

5．觀察變量與觀察值

在方差分析中，受控制因素和隨機因素影響的事物，稱為觀察變量。在每個水平下得到的樣本數據稱為觀察值。如：例1中，銷售量是觀察變量，在每個飲料顏色下得到的樣本數據（即表10－1中的數據）就是觀察值。

品種試驗中，術語對應關係：

因素：品種就是因素或者因子（factor）
水平：10個品種，每個品種就是因素的一個水平（level）
控制變量：我們可以控制的因素，比如品種
隨機變量：我們不能控制的因素，比如殘差
觀測值：我們想要考慮的性狀，比如產量

3. 方差分析和T檢驗

T檢驗是兩兩之間的檢驗，判斷一個因素的兩個水平是否一樣，如果品種比較多，比如鄭單958，先玉335，偉科702，就需要比較3個T檢驗，如果它犯錯的可能是0.05（一類錯誤），那麼三組試驗至少有一個錯誤的概率為3*0.05 = 0.15，很大的概率有沒有，而方差分析只需要一次試驗，降低一類錯誤。

所以，在多個水平時，方差分析要優於T檢驗

4. 一類錯誤和二類錯誤

一類錯誤：假陽性本來是不顯著的，然後統計推斷達到了顯著性，是錯誤的
二類錯誤：假陰性本來是顯著的，然後統計推斷不顯著性，是錯誤的

在這裡插入圖片描述

5. 方差分析和數量遺傳學

方差分析的方法，重要的是變異分解這個思路，與線性模型關聯在了一起，然後數量遺傳學也將表型值分為基因型值與環境效應，育種是針對錶型數據間接選擇基因型值，這個思路如此簡潔，又意義重大。

在沒有科學的思路之前，育種就像無頭的蒼蠅一樣，雜亂無章法。遺傳力高的時候，表型選擇有效，遺傳力低時表型選擇就很吃力。

5.1 方差分析原理1：表型值剖分

比如10個品種的產量，用完全隨機區組設計，重複3次，得到產量的值，如何判斷這10個品種好壞？

我們用線性模型，將產量進行分解：

用數學公式表示：

y: 產量
mu: 平均值
beta: 品種效應值
epsilon: 誤差

在這裡插入圖片描述

5.2 方差分析原理2：組間變異和組內變異

組間變異：品種間的變異
組內變異：品種內誤差變異

5.3 方差分析原理3：組間變異/組內變異

如果品種間的變異遠遠大於組內的變異，及品種的差異遠遠大於誤差，說明品種間的差異是真實的，即品種間達到顯著水平，這裡的SA和SE要除以自由度，得到F值，然後根據分子和分母的自由度，計算F值對應的P值。

5.4 方差分析和數量遺傳學

在育種中，我們感興趣的不是beta是否達到極顯著，而是要得到beta的值（效應值，育種值），然後根據它進行品種篩選，因為它代表着品種的真實表現，它排除了誤差和環境造成的影響。

由方差分析的變異分解，到育種值，到配合力，到BLUP值，到GBLUP，HBLUP，都是這種思路的延伸，不同的是使用一般線性模型，混合線性模型，貝葉斯模型等等

6. 參考資料

https://gisersqdai.top/2017/06/11/%E5%BA%94%E7%94%A8%E7%BB%9F%E8%AE%A1%E5%AD%A6%E4%B8%8ER%E8%AF%AD%E8%A8%80%E5%AE%9E%E7%8E%B0%E5%AD%A6%E4%B9%A0%E7%AC%94%E8%AE%B0%EF%BC%88%E5%85%AB%EF%BC%89%E2%80%94%E2%80%94%E6%96%B9%E5%B7%AE%E5%88%86%E6%9E%90/ http://www.cmtsa.org/uploads/soft/140806/%E7%AC%AC7%E7%AB%A0%E6%96%B9%E5%B7%AE%E5%88%86%E6%9E%90.pdf http://math.sjtu.edu.cn/faculty/chengwang/files/2015spring/%E6%96%B9%E5%B7%AE%E5%88%86%E6%9E%90.pdf https://www.jianshu.com/p/f5f54a39cb19