跳至主要内容

雙樣本檢定

  • 檢定兩個樣本間是否為相同母體
  • 獨立資料和成對資料處理方式不同(變異數算法)

不變的道理

  • 算合併標準差(pooled standard deviation)
  • 寫出拒絕域
  • 寫出 p 值提出拒絕 H0H_{0} 證據

兩獨立樣本

兩組樣本,無法一一對應。例如:

  • 採用方法 A 和方法 B 工法的流水線產品瑕疵率
  • 國產與進口車平均維修價格差異

X₁ and X₂ represent the annual maintenance costs of domestically produced cars and imported cars, respectively. Random samples of 10 domestically produced cars and 10 imported cars are taken, and their annual maintenance costs are recorded:

X₁68005900630078008900750061001050054006900
X₂8900980012350106709500870013400970086008800

Assume that X₁ and X₂ are normally distributed with unknown but equal variances. At a significance level of α = 0.025, test whether the annual maintenance cost of domestically produced cars is lower than that of imported cars.

σ₁², σ₂² 已知 且σ₁²≠ σ₂²

  • 兩母體變異數不同
  • 兩參數已知

如果有給兩樣本變異數 SE 就會變成:

σ12n1+σ22n2\sqrt{\frac{\sigma_{1}^2}{n_{1}}+\frac{\sigma_{2}^2}{n_{2}}}

σ₁², σ₂² 未知 且σ₁²= σ₂²

  • 兩母體變異數相同
  • 兩參數未知

步驟:

  1. 寫出假設:

    • H0H_0: μ1μ2\mu_1 \geq \mu_2H0H_0: μ1μ20\mu_1 - \mu_2\geq 0
    • HAH_A: μ1<μ2\mu_1 < \mu_2
  2. 計算兩組樣本的平均值與變異數:

    • xˉ1=平均維修費用 (國產)\bar{x}_1 = \text{平均維修費用 (國產)}
    • xˉ2=平均維修費用 (進口)\bar{x}_2 = \text{平均維修費用 (進口)}
    • s12,s22s^2_1, s^2_2: 兩組樣本的變異數
  3. 合併變異數(Pooled variance):

    spool2=(n11)s12+(n21)s22n1+n22s^2_{pool} = \frac{(n_1 - 1) s^2_1 + (n_2 - 1) s^2_2}{n_1 + n_2 - 2}
  4. 統計量:

    • n 夠大用 Z 表,太小用 t 表。這裡用 t 示範
    • 分母就是 SE
    t=xˉ1xˉ2(μ1μ2)spool2(1n1+1n2)t = \frac{\bar{x}_1 - \bar{x}_2-(\mu_1-\mu_2)}{\sqrt{s^2_{pool} \left(\frac{1}{n_1} + \frac{1}{n_2}\right)}}
  5. 拒絕域(左尾檢定):

    R:{t<t0.025,df=n1+n22}R: \{ t < t_{0.025,\, df = n_1 + n_2 - 2} \}
  6. 使用 t 分布查表得臨界值,與 t 統計量比較,或計算 p 值看是否小於 α\alpha

p-value=P(Tdf<t)p\text{-value} = P\left(T_{df} < t\right)
  1. 做結論:若 tt 落在拒絕域內或 pp 值小於 0.025,則拒絕 H0H_0,表示有顯著證據認為國產車維修費用較低。

σ₁², σ₂² 未知 且σ₁²≠ σ₂²(Welch's t)

  • 母體變異數不同
  • 兩參數未知

無法假設變異數相同(例如兩樣本變異程度差很多),使用 Welch's t 檢定:

  1. 假設同上:

    • H0H_0: μ1=μ2\mu_1 = \mu_2
    • HAH_A: μ1μ2\mu_1 \ne \mu_2 或單尾檢定
  2. 使用以下統計量:

    t=xˉ1xˉ2s12n1+s22n2t = \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{\frac{s^2_1}{n_1} + \frac{s^2_2}{n_2}}}
  3. 自由度用 Welch–Satterthwaite 公式近似計算:

    df=(s12n1+s22n2)2(s12/n1)2n11+(s22/n2)2n21df = \frac{\left(\frac{s^2_1}{n_1} + \frac{s^2_2}{n_2}\right)^2}{\frac{(s^2_1 / n_1)^2}{n_1 - 1} + \frac{(s^2_2 / n_2)^2}{n_2 - 1}}
  4. 查表找對應的 t 臨界值或計算 p 值做檢定

成對樣本(配對樣本)

兩組樣本可以一一對應,例如:

  • 同一人服用藥物前後的血壓
  • 同一地點兩種測量儀器量測的結果
  1. 求每對資料的差值 did_i
  2. 計算差值平均 dˉ\bar{d} 和標準差 sds_d
  3. 檢定統計量: t=dˉsd/nt = \frac{\bar{d}}{s_d / \sqrt{n}}
  4. 拒絕域與自由度為 n1n-1,照樣查表或算 p 值

機率的情況

兩樣本原始比例相等 p₁² = p₂²

p^=n1p^1+n2p^2n1+n2\hat{p} = \frac{n_{1}\hat{p}_1+n_{2}\hat{p}_2}{n_{1}+n_{2}}

兩樣本原始比例不相等 p₁²≠ p₂²

步驟參考未知相同變異數,SE是

p1(1p1)n1+p2(1p2)n2\sqrt{\frac{p_{1}(1-p_{1})}{n_{1}}+\frac{p_{2}(1-p_{2})}{n_{2}}}

只是因為機率的變異數是 p(1-p) 所以代換調原本直接用離差算出來的變異數而已