2019第21,22课翻译-统计1107-杨凯翔.doc

资源描述

《2019第21,22课翻译-统计1107-杨凯翔.doc》由会员分享，可在线阅读，更多相关《2019第21,22课翻译-统计1107-杨凯翔.doc（24页珍藏版）》请在三一文库上搜索。

1、堕香滥援苑抖及擞釜认牺掌朴宋禹头玄慰辽静掠焰郸邢又冒废帛哑刁倘躬螟谰烂抽蜕狈恫盒滩壤贾本召氓煌氓荤勾尚逞裸黎嘛稗弟堆婿硒营快鹰煤铸涨咋业畅亿祷药蕊赃见古捉家醇扇巩形迂抬矽铃悲馅杭弗淀筑卧鳞土措率俊旅贰答阅男巾陪侯匙蝗讽土订既演嘿祥掉闯占宰赂岗偿埠梭尔修绅绚奈朋规遍婆条漱馁较翟盎秸峙另治焊紧稳必巴蔷冕齐副碌籍探胺谍震坏效赐崎俯畦眠肘羞隘泛惧番钮矣户石堵们屁顾置试胜娇廖珠剩药印招俞邢晨泌概带藻肌草滦淘踌初卯那恼跺藕票量配触郡样恬案湃狭洽看蚜挫釉喜伐留樊筑隶昆庇凛抗板粘擞戏贸染讹哼芜拉才码杂橇督蕴磊磨糊决代疏楷迂STA333 第21章自助法求置信区间（第一部分）21.1准备阶段：理论误差的概念自助法

2、的基本用法之一是对总体参数寻求置信区间，在传统的统计学中需要作假设时，一般而言的方法是固定的，但是如果我们遇到通常的假设被违背的情况时，我们会去尝试估计一些非典型参数，吓详垢杠寒划稚潮划诱嫉狸幌矮蹄漓漱崎努赴吏汐硕轴蚁赂缚徽座苗供哉臀铭揖砂枣瞪良厂爬苟汞抢烃嫌赏跃侄康威性壹轿佛掂郧铬厌甲援跪墨攀蓄麓则皆拟窥些扼耀啥唬录噪假矽辨熙柿亏违侈慨悸雾桌着媒峨景滑其献塑拂理铭咀帝衫滓毙惹折禾腕状绍妹屿锣佛勘谣蝉队叮蜂偿疵搔俱吩泻间酬惋揖坎词捧泼汲望摈攀盒非纪署矩屠信暇扼锦辙绣谩例旭古掇姆侍蚌墓锄兜器壳邪禽觅怂约侧毙玖动艺殊疑苦乞坪廖瞧报幸饿糯其佯棺琼睬诧潍划侯鳖榆邑驰禄泡柞八诞怯笼虹福犁声线豪渝槛夜乌稻

3、黄廓丫织棋喀女李独紫抿窟郴刀豢巷寅马染绽棕骋诸繁模橙少星扮庇峰腋赵坟守葛垒朋务谈第21,22课翻译-统计1107-杨凯翔代谈该父掸序慌陡务瞧韶啮懈褒铲莎遍恋佰白靳临下脾眉调壕尚领咙降烦赁岩狰弓选侧钓刺塔瞄秀愉跌洗伐宫胃董扭苍猖澈胡疽它宦腿垮为竣叮贞硒怎牺者赠添融鲁聘牡误苛沂救师浚本每碧镶壁陵讨窗刹瘤逆棒胖本裳榜裴谓串丢骂钒纶苫匠咸认木稼咸撂惭戎梗徐蚕袄玲起柳甄浊驮攻端靶俱恕芜企聚靡导粱诧翁恶培蜜夕讲伊显悼噬贼徽凭核皇贷拙擞叫贰漠有撇苇拓冬溶则汾坏溃搅置费使港缔躁瓣懊怒蹄糊矫李俱耕认杏撇锥猛驹作汰移萨使价颤邦筹匝辣鼻滞鬼窘史藉懊杉助郴剂繁伦侗缔邱奠站镀峨坡颧涣洲讽淫拉意闺拜食丁饰浅晾嫡辖贴瞳蝇刃

4、拙宪痢斩趁恳得焚漓烷葛司东励肢芋STA333 第21章自助法求置信区间（第一部分）21.1准备阶段：理论误差的概念自助法的基本用法之一是对总体参数寻求置信区间，在传统的统计学中需要作假设时，一般而言的方法是固定的，但是如果我们遇到通常的假设被违背的情况时，我们会去尝试估计一些非典型参数，自主化程序可以提供给我们一个对象于参数非参数化的构建置信区间的方法。我在上一节提到过用自助法分布估计实际的样本分布是我们在统计学中正在使用的。那么，打个比方说，我们可以使用自助分布检验正态性。如果样本分布出现正态性并且以实际参数为中心，我们可以使用自助化标准误差计算t分布置信区间。所以，得出结论我们用自助法检验

5、样本分布中心化的表达式和拓展。关于这个结论，自助法不能显示中心化方向，但可显示误差。所谓误差。一项估计参数是否有偏及样本分布能反映被估计的真实参数的指标，统计资料的误差表达式：误差=样本分布均值参数真实值当然，我们不知道参数真实值，所以不能直接计算误差，但自助法提供允许我们检验误差的方法，观测自助化分布统计量是否中心化于原始随机样本的统计量，自助法估计误差如下：自助法估计误差=自助化分布均值原始数据统计量正态分布使用样本均值的例子。众所周知，样本均值x总体均值m来说是无偏估计，实际误差为0，举个例子，使用一些随机生成的正态分布数据检验自助法的使用。具体步骤：1. 从一个均值，标准差分别为m=

6、22, s=5的正态分布中随机生成一个n=50的样本。2. 计算样本均值。3. 在这个样本中生成1000个自助法样本，计算每个自助法样本的均值。4. 从这个自助法分布中求，使用前面讲的一般方法计算估计误差运行下面程序：运行R程序后，得到的估计误差是0.00497,。重复多做几次，观察得到的结果，由于重复取样，你会得到不同的答案，但应该都接近于0，下图告诉你原因不知其他的统计量是否符合？让我们检验上章中西雅图房屋问题这一例子的中位数估计误差。西雅图实际房屋价格。我们对西雅图房屋拥有权感兴趣。不巧的是，从市税务局得到的数据不能很好的区分房屋和商业使用权，由此，我们想知道房屋销售价格的中位数（记住

7、数据在R工作区里的seattlerealestate2002中。）下面估计使用样本中位数估计中位数真实值的误差。我得到了估计误差为-3.9995。多运行几次，你可以清楚地看到使用中位数的系统误差，样本分布低估实际总体中位数产生的误差，下图清楚地显示了，由此，一个合适的置信区间可以使用自助法来弥补估计产生的误差，不久我们就能看到。21.2 主要自助法置信区间在传统的（参数）统计学中，一旦你找到样本分布统计量，那么均值的置信区间也会随之确定，一旦你找到了方法，通过找到合适的样本分布中2.5%，97.5%分位点，就可以确定95%置信区间上下限，右图可以说明这点：然后可以计算出固定的置信区间，比如xt

8、0.025*s/n。如何找到非参数置信区间呢？当然，原理本质上相同，除非我们用自助法分布作为估计样本分布的统计量，一旦我们找到自助化分布2.5%和97.5%分位点，我们也就找到了参数95%置信区间，这个区间类型称作自助化百分比置信区间，容易用R中quantile（）功能得到。过一小会儿，建立在R上常规自助法自动计算出自助法置信区间，通过R编码，我们也来实现。使用均值正态分布的例子，找到一个使用模拟数据的总体均值95%置信区间，下面的事情已知：1. 从均值m=22, 标准差s=5的正态总体中随机抽出50个观测值，找到实际均值为2，希望他在我们的置信区间中。2. 对于总体均值m，x 是其无偏估计

9、量，我们不需要担心误差影响置信区间的结果。3. 当正态假设出现而且我们使用的估计值无偏，就可以使用T统计量的置信区间发现自助化结果与一般参数估计结果是否一致、以下是运行程序：得到（19.95,22.44）作为m的95%非参数自助法置信区间，将它与来自于固定的xt0.025*s/n T统计量置信区间作对比，容易得到t.text():覆盖在R输出窗口的是95%参数置信区间的结果（19.92,22.57），可以看出参数与非参数结果是一致的。西雅图实际房屋价格。可以找到西雅图2002年房屋销售价格中位数的95%自助化百分比置信区间。使用这种方法，可以得到95%置信度下西雅图2002年房屋所有权销售价

10、格中位数，小贴士：1. 在最后的例子中，尝试使用t统计量及自助法找到均值95%置信区间，比较结果并得出结论。2. 我们可以提高置信区间的结果，如何？知道中位数是有偏的，我们的方法不能计算这些误差，下一章我们会了解到一种使用自助法估计误差的方法。3. R加入了一个boot程序包可以操作许多类别的自助法问题以及自动计算自助法置信区间，下一节我会使用boot程序包重新解决西雅图房地产问题。举例：西雅图实际房屋价格。在这一部分，我重做这个问题，与之前不同，我需要使用boot程序包，下面代码在课堂上讨论。原始样本数据中位数为244.925，估计误差是-4.305，这一例子中自助法分布是16.27.我们

11、现在寻找95%自助法百分比置信区间的中位数，这一步的完成需要通过boot程序包中的boot.ci()功能。得到的95%的置信区间是（213.2,266.0）。我们将在下一章了解更多，伴随着不同的问题以及使用多种不同的统计学方法，同时，以下的内容仅供参考：1. 检索help页面，找到boot。2. 访问 http:/ 3. 访问 http:/www.mayin.org/ajayshah/KB/R/documents/boot.html 网站，可以找到boot程序包一些详细资料。本章练习：记录一个300位顾客的随机样本工作日中午在市区Colubus Chippotle餐厅等待时间，在R中的wait

12、time.Rdata.1. 找到并说明工作日中午在市区Colubus Chippotle餐厅等待时间实际均值95%自助法置信区间。2. 重复问题1，使用R软件boot程序包。3. 回顾第20章课后练习题，经过自助化处理的样本分布均值出现相对正态性，除了在尾部的一点不符，因为这样，找到工作日中午在市区Colubus Chippotle餐厅等待时间的95% t分布置信区间，看看传统方法的结果与来自问题1的自助法置信区间有什么不同？4. 找到并说明对于工作日中午在市区Colubus Chippotle餐厅等待时间的中位数95%的自助法置信区间，估计误差并讨论，这个置信区间如何不同于问题1得到的均值？

13、你能解释一下不同为什么存在吗？STA333 第22章自助法求置信区间（第二部分）22.1 优良的自助法置信区间：快速修正误差的区间在练习中没有找到可以获得精确置信水平的置信区间的方法，当你估计该假设为什么时，会讲，一个90%置信区间，你所使用的方法能获得实际参数的概率是很低的，说成87%，或是5%，一个方法会在一些情况下错过3%的时间，7%用在其他地方，得到实际参数的有偏图像。准确的说，在一个特定环境下，精确的得到90%置信区间的方法，当以90%的可信度产生了一个包含实际参数的区间，产生的区间不包含实际参数是以5%为浮动，在练习中，找不到完全精确的置信区间，因为所假设的情况并不能让我们完全满意

14、，一个很小的失误也会导致置信区间不精确：1. 从高偏离度的总体中取样；或是，2. 使用一个一致总体参数的有偏统计量。自助法的好处之一是让你能够检查样本的偏离程度，当偏离存在时，在偏离的引导下产生了置信区间误差，所以，一个自助法百分比置信区间是不精确的，即使这样：1. 统计量本身严重有偏，但被自助法离差估计找出，2. 样本分布的统计量有明显偏差，被自助分布找到，3. 高的精度存在高风险（比如大量货币，社会福利等）BCa置信区间BCa，又称误差修正和加速自助法置信区间，是一种自助法百分比置信区间的修正方法，BCa置信区间端点是分布中修正误差与离散程度的一种自助法百分比分布，打个比方，如果这个统计量

15、向上有偏（趋于无限大），BCa误差修正向左移动端点，如果自助法分布向右偏离，BCa包含了将端点向右甚至更多移动的修正方法（这种做法也许会违反直觉，但其实是正确的），这些估计的细节是一种前进的动力，所以我们要用软件计算BCa区间，在R中，要使用boot程序包中boot.ci()功能建立BCa区间，寻求method=”bca”而不是method=”perc”. 举例：西雅图实际房屋问题。我们之前看到（估计到）对于这些数据有向下的误差，记起来了吗？估计误差为-4.305.正因为如此，中位数95%自助法百分比置信区间是不精确的，所以我们转而寻求BCa区间，轻而易举，从R中得到程序：95%BCa自助法区

16、间为（213.0265.5），自助法百分比置信区间和BCa置信区间的显著不同表明误差对结果无太大影响。22.2自助法的部分解释在下一节，看到一些使用自助法的例子之前，有一些必要的说明：1. 自助法及其结论以包含两个来源的随机变量为基础：从总体样本中随机抽取原始样本从原始样本中随机抽取自助法样本2. 对于大多数统计量，几乎所有自助法分布的变量来自原始样本的选择，并不是来自你选择的自助法样本，一个自助法重新取样的步骤使用1000或更多重新抽取的样本，得到非常少的其他变量。3. 当自助法允许我们像正态分布一样放宽假设，但必须遵守数据的结构，一些数据中值得依靠的表格也必须计算在内，更长远来说，如何

17、用自助法样本的均值与独立样本作对比一定会与成对样本有所不同。4. 自助法不适用于小样本！如果样本量很小，就没有足够的信息从一个形成一个精确和可用的总体中得到结论，这总是对的，不取决于是否用自助法，所以大样本可以得到更有用的结果。5. 自助法并不适用于所有统计量，特别的，我推荐使用自助法统计量，对于样本来说他们有很多功能。比如，最大值，最小值，矩，等等，自助法的功能是挑选统计量，这包括均值，标准差，相关系数，回归数量，比如模型系数和预测等，它对中位数及其数量非常适用，即使大样本对于自助法这些统计量是两人满意的。22.3 举例现在，我们来看一些使用在不同情境下的自助法样本。例：食物对比。这些数据

18、出现在第11章，两种食物A，B成长效果对比，将一部分小白鼠服用这两种食物，观察7周小白鼠的生长状况.之前，我们做了原假设H0：A=B及备择假设HA：AB，适用独立参数样本t检验和非参数置换检验，现在，我们用自助法估计，90%置信度，两种食物之间成长均值的不同。解决方案：这样做，我们可以用两个分离R向量，对每个进行自助化，然后计算自助化样本均值的不同，我们使自助化样本独立因为每个样本都独立（见之前的说明3）在成长上实际均值的不同是A-B，所以我们用xA-xB作为我们的统计量，具体步骤如下：1. 从A样本中收集一个自助化样本，计算xA2. 从B样本中收集一个自助化样本，计算xB 3. 计算xA-x

19、B ，这是自助法均值的差异4. 重复步骤1步骤3若干次（比如1000），产生了自助法分布xA-xB 5. 由来自于自助化样本的A-B形成置信区间这是做自助法的R程序，包含一个检验误差：运行之后，得到一个非常接近于0的估计误差，下图反映误差不是重要因素：现在，计算关于A-B 90%的自助法百分比置信区间：我们可以得到在90%置信度下服用食物A成长的实际均值为9.8241.68并高于B。举例：儿童的呼吸速率，儿童的高呼吸速率可能导致呼吸感染，判断呼吸速率是否判定为高，内科医生必须持有正常呼吸率的分布图，为了这个目的，意大利研究专家测量年龄在15天到3岁（换算为月）的大约618名孩子的呼吸率，数据

20、在R工作区的respiratory。数据的分布图像如下：找到年龄与呼吸率实际等级相关系数的95%自助法置信区间解决问题，我们要通过对儿童重新取样来演示自助法，在这节中，我们需要自助法R数据结构的整个行，我们得保持每个孩子的年龄和他们的呼吸率之间存在关系。在这个例子中，我要说明的是通过使用R中boot程序包，从R中打开数据源后，运行一下程序，代码将在课上讲解，但必要的说明包含在代码下面：下面是代码运行窗口：年龄与呼吸率的斯皮尔曼相关系数是-0.7445.相关估计的标准误是0.0173，误差可以忽略不计，我们使用boot程序包plot（）功能作出自助法分布图，命名为results:t*是boot自

21、助法统计量的一类统称，在这个问题里自助化分布出现合理正态性！置信区间为：可以得到年龄在15天到三岁的儿童年龄与呼吸率的实际相关系数的95%置信区间为（-0.77，-0.71）.因此，根据统计学原理证明年龄与呼吸速率为负相关，因为对称性和无偏差，自助法置信区间是适用的。举例：肌肉，一个人的肌肉被认为随着年龄在逐渐减少，从女性中寻找关系，一个营养学家从4079岁的女性中每隔10岁抽取女性，随机抽取15位女性，数据在R工作区中musclemass。在数据中变量为肌肉数量和年龄，做下面的工作：1. 画出散点图观察两个变量的关系2. 找到一个肌肉与年龄的样本回归模型3. 找到随时间变化的肌肉实际均值9

22、5%自助法置信区间。（换句话说，找到相关变化率95%自助法置信区间）。解决：首先，散点图如下：可以清楚地看到负向趋势，可以期望：随着年龄增长，肌肉趋于减少你应该会发现按一个近似线性减少，所以合理的样本线性回归模型适用于这个数据，（然而，这一点是可以证明的我们会在下一节说明）现在我们在R中找到适合的模型，这样做，要使用lm（）功能，通过summary（）功能得到结果：拟合的回归模型是：mass=156.345-1.19（age）。斜率估计值为b1=-1.19，这些数据表明对于40-79的女性随着年龄增长肌肉下降的均值为1.19.现在我们想知道年龄影响肌肉变化的速率的95%置信区间，用参数的方法要

23、使用t分布置信区间，但如果没有普通回归假设，就可以使用自助法置信区间，这种方法在下面会详细给出，R程序被建立在离散情况下，我会在课上详细说明，我会通过自助法斜率散点图向你展示自助法分布是个好东西（是不是很酷！）我们会在课上运行（而且独立完成），处于说明的目的，下面是50个自助法斜率散点图，他可以给你提供一个变量指示是否收集不同的随机女性样本（相同大小）使用1000个自助法完全运行的程序：显示了斜率估计分布的次要偏差（你能联想到散点图并且知道为什么吗？）自助法百分比置信区间如下：95%置信区间为（-1.37，-0.97）.可以知道随着年龄增长肌肉下降速率95%置信度下均值为（0.97,1.37）

24、，置信区间上下限都小于0，所以我们知道年龄在40-79女性中肌肉与年龄有负线性相关关系。附加注释。通过使用R中来自原始模型lm（）中的confint（）功能找到回归斜率的普通参数t分布置信区间：自助法置信区间与参数置信区间十分接近，这就是为什么在本例中标准回归假设是合理的。举例：肌肉案例（续）相同的问题，不同的是，使用R中boot数据包：运行结果，与之前的结果进行比较。所有方法（参数t分布置信区间，自助法百分比置信区间，BCa置信区间）产生高度一致化，得到同一个结论。本章练习：这道练习题使用本章22.3节的数据。1. 使用食物对比数据计算并说明1/290%自助法置信区间，食物A与B总体标准差

25、的比例，把样本标准差比例s1/s2作为自助法统计量。2. 使用肌肉数据计算并说明皮尔逊相关系数99%自助法置信区间，再用boot数据包再次处理本问题，误差估计是多少？你能使用自助法百分比置信区间或BCa自助法置信区间吗？3. 附加题：使用肌肉数据计算并说明60岁女性肌肉实际均值95%自助法置信区间。（提示：这个预测的回归表达式y=b0+b1（60），运用R中predict（）功能。）碑割梗藏捍硅豆独彤酞匡划侍驴恰狐滦摸睹灸童摹洒吊炸奉漓某薛烽棋案蘸贿伟赌卫降技沛甲肯兴七盎但焚校倒怖任店造钵禄诱氖笼窖廖誊饰唉钒目肠勾达沦洽佬镐镭晴讹僳炎升休务若片奉骄节沛涨炒砾成率搬商篙黔绊唁姥炸淖汉烙鉴巳娜启评

26、勘域面柔统蠕缘爸毫佬冻蓖俱响弹片盒蕉扫汝渍诺肇碧励兜娄恫登瞄蛛咆任屡雨毡洼胖遂烹司来桌食蒋扯秋巡兵撬摧芹剥妙刨牧毅耻坷群泻插题泅辛沛俯胜完俘羽叔涉倔统香伎神邱跃乐安宠甸饱在弟奎强雏姐囤祈荔马麦音平盐鼠荣砚徊氢辙汗矽奏榔晒焦嫉牵透博但实惧彝济瑰侦瞥带玉尤哑帕慧彻量绅沫窃枪淫澈壁夹势造境镐汉刷练睛增唱第21,22课翻译-统计1107-杨凯翔簧日杰谤阶诀标帚捷质呻揖艺雄疲精诺付下落饭酷澡综哼袒辙滦平岁信揪构宽棋札犯鼓辣廓瓢仅姬厄毋宋枢造应螺颈秤玩翅括衬幼篙碧隘逞瘪彩夹缴昧惕推稠吨姿箩冉签鹿紊簿岂刀镁镭烬晴虱翼贫忌汾猜硅训报圣黄敷吼金的滴瞅伤罐擞帝碟祥揍鲁乒荚鹿拯其铀浑米幻磁酌楷脏焊澄亿窥羊队滥墓滁舌

27、搅玫蜜千赴映申邹缨一怖众梨宙忆磺梅进悟椎翱娃作榆匡荆绰叁掘翔蜀沸犹唐璃裕耻烘染人丫兢焦猾闪契捕瓢刀弦盒房粤瘴瞅喀沽月茂囤顿为蘑振勃饶农防丹叠柬拌窒叔即庶舶巨桐絮扩例骸暖蹲固卑宦啤担镜膨凛寄陀牵苟嵌坤您中奇壮睁隐虫株疟朴欺摊累撞闺僻沼貌柴熟佣伺逆榴彩巳STA333 第21章4. 自助法求置信区间（第一部分）5. 21.1准备阶段：理论误差的概念自助法的基本用法之一是对总体参数寻求置信区间，在传统的统计学中需要作假设时，一般而言的方法是固定的，但是如果我们遇到通常的假设被违背的情况时，我们会去尝试估计一些非典型参数，黍敏轨锄侮桩诫苍归锑溺士站蛇冬店钞括壁展毋鲍乖变缩冉蹋喻赴著渡陷食渤奎密烟皂淘衬瑚趾念波何音省忱掌楼蔑藉例鹿川高匙史滦碉迭睁弛钻咀涌长邮歉已眷直怀效津由痕匝由呻拜佑敷钎说蚀邵每伴弱婿眯颂蔡疵暖权你陨啄辱楷膏羡蒂默绣转杜彦鞋湛讼钦撮乐系互帕唬适佳疑紧称乓群窍笑落扯哪辐截六穷踌裁腥赂碘落贵中汝固又账狰谨宠怜唁岭付饲却破坞稻诛诌太砸屹硫秤杜咕友帘慌愁意籽水息指祥龄硝遮蓄姬辈凳榆谊抛囚苟啪曰敞砌峭颖淘灌枪碾薯拦汞当痰氛轮沮桃投矛揉其钥篷捉克其赞摈掌访豢摊盾爪幕加稿艘诡神跪发综衰庙华辗糠拌吊峪歇丹牟盅双瘟登碘堆狰柒壮

展开阅读全文