跳至主要内容

ANOVA-變異數分析

這裡講 one-way ANOVA

卡方檢定只能檢查兩個類別的樣本有沒有相同,但到了三組或更多的類別就要用 ANOVA-Analysis of variance。

NOVA 資訊廣場

ANOVA 要算的數字蠻多的,每組計算其實和卡方檢定差不多,大致上都是抓兩組數字相減平方的總和拿去和表格比大小,只不過要算 ANOVA 會算三個名字很像的統計量,一開始只看到這幾個字我也看不是很明白,不過看了過程在幹嘛就會知道了。

  • SSG(SSB)-Sum of Square Group/Between
  • SSE(SSW)-Sum of Square Error/Within
  • SST-Sum of Square Total

例題計算

現在有三組資料(k=3k=3),共九個數值(n=9n=9),並已經分別算出組平均

G1G2G3
355
236
147

Xˉ1=2\bar{X}_{1}=2 Xˉ2=4\bar{X}_{2}=4 Xˉ3=6\bar{X}_{3}=6

H0μ1=μ2=μ3H_{0}:\mu_{1}=\mu_{2}=\mu_{3} HAH_{A}:至少存在一組平均與其它組不同

SSG(SSB)

要先算出「全部的」平均 Xˉ\bar{X},可以全部資料相加再除資料數,或是把 i3Xi/k\sum_{i}^{3}X_{i}/k

SSG=ini(xixˉi)2SSG=\sum_{i}n_{i}(x_{i}-\bar{x}_{i})^2
  • 把每組的平均和整體平均做方差,權重是每個組別的資料個數
  • 自由度是 k1k-1

因為只要xˉ1\bar{x}_{1}~xˉ3\bar{x}_{3} 中少一個也可以透過Xˉ\bar{X}回推

SSE(SSW)

SSG=ij(xijxˉi)2SSG=\sum_{i}\sum_{j}(x_{ij}-\bar{x}_{i})^2
  • 把每一筆資料和對應組平均做方差。
  • 自由度是 n-k1

有些好心的題目會直接把組內的變異數(s2s^2)當成已知,這時候直接把各組變異數分別乘上 ni1 n_{i}-1 相加就是 SSE 2

提示
  1. SSW 自由度有人會寫成:組數 X (每組比數-1) ,但這只適用於每組個數都一樣的情況可以列成表格的情況,資料有時候不會這麼完美,用 n-k 比較好。
  2. 因為樣本變異數 = Sxxn1\frac{S_{xx}}{n-1} ,這邊我們只要 SxxS_{xx} 也就是方差。

SST

SSG=ij(xijxˉ)2SSG=\sum_{i}\sum_{j}(x_{ij}-\bar{x})^2
  • 每個資料都和總體平均算方差
  • 自由度 n1n-1

通常我不會去算這個,因為算完 SSG 、SSW 直接相加就是 SST,自由度也是。

我是跟著這部影片按照步驟算就會了,不同組資料還有顏色區分,挺容易理解的。

查表

計算:

F=SSBk1SSEnkF=\frac{\frac{SSB}{k-1}}{\frac{SSE}{n-k}}

ANOVA 用 F 表,參數是 SSG 和 SSE 的自由度。查出來的值和F做比較,如果F 比較大就 reject H0H_{0}

ANOVA 表格

記好這張表格,你就會算了。

哪裡不一樣?

F 查完如果拒絕的 H0H_{0} ,只會知道至少存在一組和其他組不同,要找出是哪幾個,要用雙樣本檢定σ₁², σ₂² 已知 且σ₁²≠ σ₂²算 SE

SEMSEn1+MSEn2SE\sqrt{\frac{MSE}{n_{1}}+\frac{MSE}{n_{2}}}

剩下流程和雙樣本比較的時候差不多

  • df=dfSSEdf=df_{SSE}
  • 去查 T 表得到 p-value
  • 重新調整 α\alpha,變小一點(K 是組數)
α=αk(k1)2\alpha*=\frac{\alpha}{\frac{k(k-1)}{2}}