统计应用软体StatisticalComputationsandAnalysis000001.ppt

资源描述

《统计应用软体StatisticalComputationsandAnalysis000001.ppt》由会员分享，可在线阅读，更多相关《统计应用软体StatisticalComputationsandAnalysis000001.ppt（80页珍藏版）》请在三一文库上搜索。

1、統計應用軟體 Statistical Computations and Analysis,Lecture 7: Hypothesis Testing (II),常見的假說檢定,Case 1: Test on proportions Single population Two populations Case 2: Test on means with variance known or sample size 30 Single population Two populations Case 3: Test on means of Normal distributions with varia

2、nce unknown Single population Two populations More than two populations Case 4: Test on variances of Normal distributions Single population Two populations More than two populations,常見的假說檢定,Case 1: Test on proportions: z-test Z-test (prop.test) Case 2: Test on means with variance known or sample siz

3、e 30 Z-test (no available function) Case 3: Test on means of Normal distributions with variance unknown Single population: t-test (t.test) Two populations: t-test (t.test) More than two populations: ANOVA (lm or aov) Case 4: Test on variances of Normal distributions Single population: Chi-squared te

4、st (no available function) Two populations: F-test (var.test) More than one populations: Bartlett Test (bartlett.test),Case 3,Single population: t-test (t.test) Two populations: Dependent samples: paired t-test (t.test) Independent samples: : pooled t-test (t.test) : Welchs t-test (t.test) More than

5、 two populations: ANOVA,單一樣本均值的顯著性檢定 t-test,正常成人血中平均膽固醇為180mg/dL (假設符合常態分布)。今調查某地區 16 位成人平均膽固醇為200mg/dL, 變方為 2500; 問此地區平均膽固醇是否與180mg/dL有差異？ H0: = 180 Ha: 180 However,未知! 需用樣本變方估計之。,See Corollary in Lecture 5.,單一樣本均值的顯著性檢定 t-test,H0: = 180 Ha: 180 = 200, S2 = 2500, n = 16 T = p-value = P( 200 | H0) x

6、 2 = 2*(1-pt(1.6,15) = 0.1304,單一樣本均值的顯著性檢定 t-test,Test by t.test(x, y = NULL, alternative = c(“two.sided“, “less“, “greater“), mu = 0, paired = FALSE, var.equal = FALSE, conf.level = 0.95, .),單一樣本均值的顯著性檢定 t-test,EX. 膽固醇檢測範例:,兩樣本均值顯著性檢定,例1: 今欲比較洗腎病人透析前後之體重是否不同，6位病人腎臟透析前後體重如下表。,兩樣本均值顯著性檢定,A, B兩種嬰兒奶粉，A

7、奶粉試用於 9 個初生男嬰，B 奶粉試用於 10 個初生男嬰。一個月後嬰兒體重增加如下:,兩樣本均值顯著性檢定,成對樣本: 洗腎病人透析先後體重變化:同一位病人透析先後之體重均測量自同一病人, 因此, 同一病人二次體重是配對的 (Paired) 觀測值。同一試驗單位在不同環境所得之觀測值為成對樣本! 非成對樣本: A.B 兩種嬰兒奶粉: 吃 A 奶粉的 9 位男嬰與吃 B 奶粉的10 位男嬰是不同; 吃 A 奶粉 9 位男嬰體重增加之觀測值與吃 B 奶粉 10 位男嬰體重增加之觀測值無關獨立樣本由不同試驗單位所得之觀測值為非成對樣本!,成對樣本均值顯著性檢定,針對每一試驗單位, 計算其成

8、對觀測值差: Di = Xi1 Xi2 將 Di 視為一組新的樣本。欲檢驗兩成對樣本均值是否相同, 等於檢驗 Di 的平均值是否為0! 回到單一樣本均值顯著性檢定! Di N(D , D2),單一樣本均值的顯著性檢定,H0: =0 當 (i) 觀測值來自常態分布且變方已知, 或 (ii) 樣本大小 n30, 則採用 z-test (no R function) 當樣本大小 n 30, 則採用 t-test (t.test)。,成對樣本均值顯著性檢定,洗腎病人透析前後體重範例: H0: D = 0 Ha: D 0 統計值: ( Di 的平均值) 當 n 30, 且D 未知, Under H0 ,

9、成對樣本均值顯著性檢定,洗腎病人透析前後體重範例: = 3.22, SD2 = 2.4737, n = 6 T = p-value = P( 3.22|H0) x 2 = 2*(1-pt(5.015,6-1) = 0.004,成對樣本均值顯著性檢定,Test by t.test(x, y = NULL, alternative = c(“two.sided“, “less“, “greater“), mu = 0, paired = FALSE, var.equal = FALSE, conf.level = 0.95, .),paired = FALSE,paired = TRUE,成對樣本

10、均值顯著性檢定,EX.洗腎病人透析前後體重範例:,非成對樣本均值顯著性檢定,由不同試驗單位所得觀測值為非成對樣本! X1 N(1 , 12) X2 N(2 , 22) By Theorem 1(i): N(1-2 , 12/n1 +22/n2),非成對樣本均值顯著性檢定,若 12, 22 已知, 可利用z-test來檢驗兩族群均值是否相同。若 12, 22 未知: (1) if 12 = 22 = 2, V( ) = 12/n1 +22/n2 = 2(1/n1+1/n2) 則其中,非成對樣本均值顯著性檢定,(2) 若12 22 , 則無法直接套用 t 分布! 修正方法有以下兩種 (任選其一

11、即可) Welchs t-test: (1) 加權 T 值 (2) 加權 t 分布之自由度,非成對樣本均值顯著性檢定,How to know if 12 = 22 ? 假說檢定: H0: 12 = 22 Ha: 12 22 整理: 非成對樣本均值顯著性檢定 Step1: Test H0: 12 = 22 Step2: Test H0: 1 = 2,非成對樣本均值顯著性檢定,嬰兒奶粉範例: Step1: Test H0: 12 = 22,非成對樣本均值顯著性檢定,嬰兒奶粉範例: Step2: Test H0: 1 = 2 t.test(x, y = NULL, alternative = c(“

12、two.sided“, “less“, “greater“), mu = 0, paired = FALSE, var.equal = FALSE, conf.level = 0.95, .),var.equal = FALSE,var.equal = TRUE,非成對樣本均值顯著性檢定,非成對樣本均值顯著性檢定,例：痛風病人與正常人血中尿酸量之變異,非成對樣本均值顯著性檢定,痛風病人與正常人血中尿酸量範例: Step1: Test H0: 12 = 22,非成對樣本均值顯著性檢定,痛風病人與正常人血中尿酸量範例: Step2: Test H0: 1 = 2,Two Populations 均

13、值比較,例: 欲比較兩種飼料對天竺鼠體重之影響, 將8隻天竺鼠隨機指派食用兩種飼料(4隻飼料A; 4隻飼料B)，兩星期後體重增加之觀測值(g),Three Populations 均值比較,例: 欲比較三種飼料對天竺鼠體重之影響, 將12隻天竺鼠隨機指派食用兩種飼料(4隻飼料A; 4隻飼料B; 4隻飼料C)，兩星期後體重增加之觀測值(g),均值比較,H0: A = B vs Ha: A B 1 = 0.05: probability of type I error for 1st test 1 1: probability of no type I error for 1st test H0:

14、 B = C vs Ha: B C 2 = 0.05: probability of type I error for 2nd test 1 2: probability of no type I error for 2nd test H0: A = C vs Ha: A C 3 = 0.05: probability of type I error for 3rd test 1 3: probability of no type I error for 3rd test,均值比較,Overall type I error = 至少有一次 test 犯 type I error = 1 P(3

15、次tests全不犯type I error) = 1 (1 0.05)3 = 0.142625 執行 n 次 t-test, 每次均採用 = 0.05, 則 overall type I error = 1 (0.95)n。若有四組處理, 需執行 C(4,2) = 6 次 t-test, overall type I error 0.25!,兩兩均值比較的缺點,需重複進行多次 t-test Type I error 迅速膨脹,Need alternative: ANOVA,變方分析(ANOVA),變方分析 (Analysis of Variance, 簡稱 ANOVA) 為 R.A. Fish

16、er 首創, 可應用在三個以上均值比較。變方分析原理是將觀測值的變異區分為 (1) 來自處理效應之變異 (2) 來自隨機誤差之變異若來自處理效應變異明顯多過於隨機誤差變異, 則認定處理效應存在!,處理效應之變異,此例中, 飼料稱為處理(Treatment), 不同處理造成觀測值差異之效應稱為處理效應。不同處理導致三種飼料所得均值不同! 由於處理效應之變異在探討不同組之間的變異, 因此處理效應之變異又稱為組間變異。,隨機誤差之變異,此例中,天竺鼠稱為試驗單位(Experimental Unit)同組間不同試驗單位的觀測值差異效應稱為來自未知變因或試驗誤差, 全部歸類為隨機誤差。由於隨機誤差

17、之變異在探討同組間不同試驗單位的變異, 因此隨機誤差之變異又稱為組內變異。,變方分析之基本假設,1. 各樣本來自常態分配 (normality) 2. 各樣本之族群互相獨立 (independence) 3. 各組樣本之族群變方相同(homogeneity-of-variance) Note: 若基本假設不成立, 則變方分析結果不足採信!,變方分析原理,以數學符號表示:,觀測值變異,隨機誤差變異 (組內變異),處理效應變異 (組間變異),變方分析原理,以平方和表示:,觀測值變異,隨機誤差變異 (組內變異),處理效應變異 (組間變異),總平方和,組內(誤差) 平方和,組間(處理) 平方和,變方分

18、析表,Under H0: 1 = 2 = = a, F值符合 F(a-1, N-a) 分布!,變方分析統計值之抽樣分布, help(FDist),變方分析整理,Test H0: 1 = 2 = = a Ha: 至少有一組平均值不相等統計值: F = MSt/MSE 在 H0 成立時, 統計值之抽樣分布為F(dft,dfE); p-value = 1 pf(F, dft , dfE) Reject H0 if p-value ; 若拒絕虛無假說表示至少有一組平均值不相等, 並非所有平均值均不相等! (which one? post hoc tests),變方分析實例,例1：飼料與天竺鼠兩週增重

19、(g),變方分析實例,例1：飼料與天竺鼠兩週增重(g) p-value = 1 pf(3.9735,2,9) = 0.058 0.05 Do not reject H0: A = B = C,ANOVA in R,利用 lm function: y = c(7,3,10,4,4,10,6,8,10,14,9,11) trt = gl(3,4,label=c(“trtA“,“trtB“,“trtC“) out = lm(ytrt) 觀看變方分析結果: summary(out) 直接觀看結果 anova(out) 產生漂亮的變方分析表,ANOVA in R,ANOVA in R,產生變方分析表:

20、anova function,變方分析實例,例1：飼料與天竺鼠兩週增重(g) 實際執行變方分析前需確認基本假設! (1) normality (2) independence (3) homogeneity-of-variance,變方分析實例,(1) & (3): par(mfrow=c(1,2) plot(out,which=1:2),變方分析實例,(3):,變方分析實例,What to do if assumptions are not held? 嘗試變數轉換 (variable transformation) 使轉換後的隨機變數符合基本假設直接採用無母數分析 (nonparamet

21、ric analysis),變方分析實例,練習: 設今有A, B, C三種甘藷品種, 每品種隨機取四塊, 每塊分別測定粗蛋白質含量如下, 試比較三種甘藷之蛋白質含量有無差異。,變方分析實例,p-value = 1 pf(9.6923,2,9) = 0.0057 0.05 Reject H0 至少有一組均值不相等(which one?),變方分析實例,We want to know which (i, j) such that i j 回到成對均值比較, 利用來推論!,Sorted Sample Mean,第i 行第j列(i j):,Sorted Sample Mean,例: 設今有五個處理,

22、每個處理重複做9次: p-value = 1 pf(8.712,4,40) = 0.00003 0.05,Sorted Sample Mean,成對比較,兩兩均值比較的程序在統計學上稱之為成對比較 (pairwise comparison) 。如前所述, 兩兩比較可能會照成Type I error迅速膨脹, 因此需特別的統計方法控制之。,常見成對比較法,兩兩成對樣本均值比較: 最小顯著差異法 (Fishers LSD Test) 特奇公正顯著差異法 (Tukeys HSD Test) 紐曼-柯爾測驗法 (Student-Newman-Keul Test) 不同實驗組與對照組比較: 丹內特測

23、驗法 (Dunnetts Test),兩兩成對樣本均值比較: LSD,Fishers LSD 由“非成對樣本均值比較 t test” 演變而來 - 若(第i 與第j處理均值差異) LSD, 則表示有顯著差異: Note2: t/2, dfE = qt(1 /2 , dfE),兩兩成對樣本均值比較: LSD,例: 五個處理, 每個處理重複做9次:,qt(0.975,40),兩兩成對樣本均值比較: HSD,Tukey 認為 LSD 太過於“保守”, 因此提出另一套成對比較法, 稱之為 “Honest” Significant Difference test (HSD) Note1: (from S

24、tudentized Range Statistic) = qtukey(1-, a, dfE) Note2: HSD 只適用於重複數相等(=n)的情況! 若重複數不同但差異不大, 可用n* 代替:,兩兩成對樣本均值比較: HSD,例: 五個處理, 每個處理重複做9次:,qtukey(0.95,5,40),兩兩成對樣本均值比較: SNK,SNK 測驗法特性: 距離較遠的兩均值應有較大的差異顯著值。,兩兩成對樣本均值比較: SNK,r = 兩樣本均值的位階 If r = 2, SNK = LSD; if r = k, SNK = HSD,r = 2,r = 5,兩兩成對樣本均值比較: SNK,例

25、:五個處理, 每個處理重複做9次:,qtukey(0.95,5,40),兩兩成對樣本均值比較: SNK,例: k = 5, n = 9: SNK0.05(2) = 4.764; SNK0.01(2) = 6.374 SNK0.05(3) = 5.737; SNK0.01(3) = 7.279 SNK0.05(4) = 6.318; SNK0.01(4) = 7.825 SNK0.05(5) = 6.732; SNK0.01(5) = 8.218,兩兩成對樣本均值比較整理,LSD: 找到最多組顯著差異 HSD: 找到最少組顯著差異 SNK: 顯著差異組數介於 LSD 與 HSD 間由於三種方法

26、的保守度不同: LSD: 應用於探索階段 HSD: 應用於最終確認階段 SNK: 應用於一般程序間,R:兩兩成對樣本均值比較,R提供的成對比較函式不多, 得視需要自行編寫程式: 最小顯著差異法: No direct function available! 特奇公正顯著差異法: TukeyHSD 紐曼-柯爾測驗法: No function available!,R: TukeyHSD,TukeyHSD(x, which, ordered = FALSE, conf.level = 0.95) y = c(28.40,33.50,40.23,45.90) trt = gl(5,9,label=c(

27、“trt1“,“trt2“,“trt3“,“trt4“,“trt5“) out = aov(ytrt) TukeyHSD(out, ordered=T),R: TukeyHSD,TukeyHSD(out,ordered=T),R: TukeyHSD, TukeyHSD(out),R: TukeyHSD, plot(TukeyHSD(out),常見成對比較法,兩兩成對樣本均值比較: 最小顯著差異法 (Fishers LSD Test) 特奇公正顯著差異法 (Tukeys HSD Test) 紐曼-柯爾測驗法 (Student-Newman-Keul Test) 不同實驗組與對照組比較: 丹內特測

28、驗法 (Dunnetts Test),實驗組 vs 對照組,例: 不同種糖份之組織培養液對番茄組織生長速度 (mm x 10) 的影響欲知各實驗組是否與對照組結果有顯著差異; 此時兩兩成對均值比較意義不大!,Dunnetts Test,假設共有 a 組試驗, 其一為對照組, 另有 k = a-1 組實驗組。每組試驗各有 n 重複。令若表示第 i 組實驗組與對照組均值有顯著差異。 Note: 值需查表, 如: “試驗設計學” 附表8,R: Dunnetts Test,R 的外掛 package - multcomp 包含 Dunnetts Test 程式: Step1: 網路安裝mult

29、comp (once for all),R: Dunnetts Test,Step2: 將multcomp匯入目前工作平台 library(multcomp) Step3: 進行 Dunnetts Test y = c(45,39,40,45,42,25,28,34) trt = gl(4,5,label=c(“Ctrl”,”Glu”,”Fru”,”Suc”) out = simtest(ytrt, p.adj=“dunnett”) summary(out),R: Dunnetts Test,R: Dunnetts Test, summary(out)$p.value.adj,ANOVA Summary,變方分析(ANOVA)用來檢定: H0: 1 = 2 = = a Ha: 至少有一組平均值不相等進行變方分析前需檢查基本假設是否成立變方分析結果: p-value 0.05, cannot reject H0; p-value 0.05, reject H0 pairwise comparison! Pairwise comparison: 兩兩成對樣本均值比較: LSD, SNK, HSD 實驗組 vs 對照組: Dunnetts Test,

展开阅读全文