當我們在說方差分析時,我們在說些什麼?

  • 2019 年 10 月 7 日
  • 筆記

當我們在說方差分析時,我們在說些什麼?

方差分析系列1的主要內容:

  • 方差分析的定義
  • 方差分析的幾個概念
  • 方差分析和T檢驗的關係
  • 一類錯誤和二類錯誤
  • 方差分析的思想與數量遺傳學

1. 方差分析定義

方差分析或變方分析(Analysis of variance,簡稱ANOVA)為數據分析中常見的統計模型,主要為探討連續型(Continuous)資料型態之因變量(Dependent variable)與類別型資料型態之自變量(Independent variable)的關係,當自變項的因子中包含等於或超過三個類別情況下,檢定其各類別間平均數是否相等的統計模式,廣義上可將T檢定中方差相等(Equality of variance)的合併T檢定(Pooled T-test)視為是方差分析的一種,基於T檢定為分析兩組平均數是否相等,並且採用相同的計算概念,而實際上當方差分析套用在合併T檢定的分析上時,產生的F值則會等於T檢定的平方項。

方差分析依靠F-分佈為概率分佈的依據,利用平方和(Sum of square)與自由度(Degree of freedom)所計算的組間與組內均方(Mean of square)估計出F值,若有顯著差異則考量進行事後比較或稱多重比較(Multiple comparison),較常見的為薛費法(事後比較法)、杜其範圍檢定與邦費羅尼校正,用於探討其各組之間的差異為何。

在方差分析的基本運算概念下,依照所感興趣的因子數量而可分為單因子方差分析、雙因子方差分析、多因子方差分析三大類,依照因子的特性不同而有三種型態,固定效應方差分析(fixed-effect analysis of variance)、隨機效應方差分析(random-effect analysis of variance)與混合效應方差分析(Mixed-effect analaysis of variance),然而第三種型態在後期發展上被認為是Mixed model的分支,關於更進一步的探討可參考Mixed model的部分。

方差分析優於兩組比較的T檢驗之處,在於後者會導致多重比較(multiple comparisons)的問題而致使第一型錯誤(Type one error)的機會增高,因此比較多組平均數是否有差異則是方差分析的主要命題。

在統計學中,方差分析(ANOVA)是一系列統計模型及其相關的過程總稱,其中某一變量的方差可以分解為歸屬於不同變量來源的部分。其中最簡單的方式中,方差分析的統計測試能夠說明幾組數據的平均值是否相等,因此得到兩組的T檢驗。在做多組雙變量T檢驗的時候,錯誤的概率會越來越大,特別是第一型錯誤,因此方差分析只在二到四組平均值的時候比較有效。

—wiki百科–

育種數據中,想要看幾個品種在不同地點的表現,有些品種產量高,有些品種產量低,問題是這些產量高的品種是由於誤差造成的,還是它本身的基因型導致的產量高,這就需要用科學的方法進行檢驗,進行品種的篩選。檢測不同品種顯著性的方法,最常用的就是方差分析。

2. 方差分析幾個概念

1.因素

因素是一個獨立的變量,也就是方差分析研究的對象,也稱為因子。如:我們要分析飲料的顏色對飲料的銷售量是否有影響,在這裡,「飲料的顏色」是所要檢驗的對象,它就是一個因素。在有的書中把因素稱為「因子」。

2.水平

因素中的內容稱為水平,它是因素的具體表現。如:「飲料的顏色」這一因素中的水平有四個,即飲料的四種不同顏色:無色、粉色、桔黃色、綠色;它們是「飲料的顏色」這一因素的四種具體表現。因素的每一個水平可以看作是一個總體,比如:無色、粉色、桔黃色、綠色飲料可以看作是四個總體。

3.控制變量

在方差分析中,能夠人為控制的影響因素稱為控制因素,或控制變量;如:例1中,「飲料的顏色」對於飲料的銷售量而言,是能夠人為控制的影響因素,稱為控制變量。

4.隨機變量

在方差分析中,人為很難控制的影響因素稱為隨機因素,或隨機變量;如:例1中,「人們對不同顏色的偏愛」對於飲料的銷售量而言,是人為很難控制的影響因素,稱為隨機變量。

5.觀察變量與觀察值

在方差分析中,受控制因素和隨機因素影響的事物,稱為觀察變量。在每個水平下得到的樣本數據稱為觀察值。如:例1中,銷售量是觀察變量,在每個飲料顏色下得到的樣本數據(即表10-1中的數據)就是觀察值。

品種試驗中,術語對應關係:

  • 因素:品種就是因素或者因子(factor)
  • 水平:10個品種,每個品種就是因素的一個水平(level)
  • 控制變量:我們可以控制的因素,比如品種
  • 隨機變量:我們不能控制的因素,比如殘差
  • 觀測值:我們想要考慮的性狀,比如產量

3. 方差分析和T檢驗

T檢驗是兩兩之間的檢驗,判斷一個因素的兩個水平是否一樣,如果品種比較多,比如鄭單958,先玉335,偉科702,就需要比較3個T檢驗,如果它犯錯的可能是0.05(一類錯誤),那麼三組試驗至少有一個錯誤的概率為3*0.05 = 0.15,很大的概率有沒有,而方差分析只需要一次試驗,降低一類錯誤。

所以,在多個水平時,方差分析要優於T檢驗

4. 一類錯誤和二類錯誤

  • 一類錯誤:假陽性 本來是不顯著的,然後統計推斷達到了顯著性,是錯誤的
  • 二類錯誤:假陰性 本來是顯著的,然後統計推斷不顯著性,是錯誤的

在這裡插入圖片描述

5. 方差分析和數量遺傳學

方差分析的方法,重要的是變異分解這個思路,與線性模型關聯在了一起,然後數量遺傳學也將表型值分為基因型值與環境效應,育種是針對錶型數據間接選擇基因型值,這個思路如此簡潔,又意義重大。

在沒有科學的思路之前,育種就像無頭的蒼蠅一樣,雜亂無章法。遺傳力高的時候,表型選擇有效,遺傳力低時表型選擇就很吃力。

5.1 方差分析原理1:表型值剖分

比如10個品種的產量,用完全隨機區組設計,重複3次,得到產量的值,如何判斷這10個品種好壞?

我們用線性模型,將產量進行分解:

用數學公式表示:

  • y: 產量
  • mu: 平均值
  • beta: 品種效應值
  • epsilon: 誤差

在這裡插入圖片描述

5.2 方差分析原理2:組間變異和組內變異

  • 組間變異:品種間的變異
  • 組內變異:品種內誤差變異

5.3 方差分析原理3:組間變異/組內變異

如果品種間的變異遠遠大於組內的變異,及品種的差異遠遠大於誤差,說明品種間的差異是真實的,即品種間達到顯著水平,這裡的SA和SE要除以自由度,得到F值,然後根據分子和分母的自由度,計算F值對應的P值。

5.4 方差分析和數量遺傳學

在育種中,我們感興趣的不是beta是否達到極顯著,而是要得到beta的值(效應值,育種值),然後根據它進行品種篩選,因為它代表着品種的真實表現,它排除了誤差和環境造成的影響。

由方差分析的變異分解,到育種值,到配合力,到BLUP值,到GBLUP,HBLUP,都是這種思路的延伸,不同的是使用一般線性模型,混合線性模型,貝葉斯模型等等

6. 參考資料

https://gisersqdai.top/2017/06/11/%E5%BA%94%E7%94%A8%E7%BB%9F%E8%AE%A1%E5%AD%A6%E4%B8%8ER%E8%AF%AD%E8%A8%80%E5%AE%9E%E7%8E%B0%E5%AD%A6%E4%B9%A0%E7%AC%94%E8%AE%B0%EF%BC%88%E5%85%AB%EF%BC%89%E2%80%94%E2%80%94%E6%96%B9%E5%B7%AE%E5%88%86%E6%9E%90/ http://www.cmtsa.org/uploads/soft/140806/%E7%AC%AC7%E7%AB%A0%E6%96%B9%E5%B7%AE%E5%88%86%E6%9E%90.pdf http://math.sjtu.edu.cn/faculty/chengwang/files/2015spring/%E6%96%B9%E5%B7%AE%E5%88%86%E6%9E%90.pdf https://www.jianshu.com/p/f5f54a39cb19