回归分析基本思想及初步应用技术.docx

上传人:scccc 文档编号:13713479 上传时间:2022-01-22 格式:DOCX 页数:9 大小:60.57KB
返回 下载 相关 举报
回归分析基本思想及初步应用技术.docx_第1页
第1页 / 共9页
回归分析基本思想及初步应用技术.docx_第2页
第2页 / 共9页
回归分析基本思想及初步应用技术.docx_第3页
第3页 / 共9页
回归分析基本思想及初步应用技术.docx_第4页
第4页 / 共9页
亲,该文档总共9页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《回归分析基本思想及初步应用技术.docx》由会员分享,可在线阅读,更多相关《回归分析基本思想及初步应用技术.docx(9页珍藏版)》请在三一文库上搜索。

1、学案 4回归分析的基本思想及其初步应用学习目标:了解回归分析的基本思想、方法及简单应用.学习重点:了解回归分析的基本思想学习过程:一、课前预习:内化知识夯实基础( 一 )基础知识1、函数关系是一种关系,而相关关系是一种关系 .5、对于一组具有线性相关关系的数据且所求回归方程是,其中 =,=_, 其中=,=,称为样本点的中心 .6、残差:7、残差平方和:8、相关指数的计算公式:;显然,的值越大,说明残差平方和越小,也就是说模型的拟合效果越好.9、残差或残差图的作用:( 1)( 2)10、建立回归模型的基本步骤:( 1)( 2)( 3)( 4)( 5)二、新课例 1:从某大学中随机选取 8 名女大

2、学生,其身高和体重数据如下表:编号12345678身高165165157170175165155170体重4857505464614359求根据女大学生的身高预报体重的回归方程,并预报一名身高为172cm 的女大学生的体重。1 / 8解:画散点图(略)看是否有线性回归关系求 =0.849 , =-85.712回归直线方程=0.849x-85.7121.回归模型: y=bx+a+e( 其中 a 和 b 为参数, e 为随机误差 )e 产生的原因:( 1) 用线性回归模型近似真实模型所引起的误差( 2) 忽略了某些因素的影响( 3) 观测误差2.残差:残差 =残差平方和 =总偏差平方和=残差平方和

3、越小模型拟合的效果越好3.相关指数R 2R 2 越大,模型拟合的效果越好4.建立回归模型的基本步骤是:确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;画好确定好的解释变量和预报变量的散点图,观察它们之间的关系(线性关系) .由经验确定回归方程的类型.2 / 8按一定规则估计回归方程中的参数(最小二乘法);得出结论后在分析残差图是否异常, 若存在异常, 则检验数据是否有误,后模型是否合适等 .三、例题选讲本周练习:1.对具有相关关系的两个变量统计分析的一种常用的方法是()A 回归分析B.相关系数分析C. 残差分析D.相关指数分析2.在画两个变量的散点图时,下面叙述正确的是()A 预报变

4、量在轴上,解释变量在轴上B.解释变量在轴上,预报变量在轴上C. 可以选择两个变量中任意一个变量在轴上D. 可以选择两个变量中任意一个变量在轴上5.一位母亲记录了她儿子3 到 9 岁的身高,数据如下表:年龄(岁)3456789身高(94.8104.2108.7117.8124.3130.8139.0由此她建立了身高与年龄的回归模型,她用这个模型预测儿子10 岁时的身高,则下面的叙述正确的是()A. 她儿子 10岁时的身高一定是 145.83B.她儿子 10岁时的身高在 145.83以上C. 她儿子 10岁时的身高在 145.83左右D. 她儿子 10岁时的身高在 145.83以下7.两个变量有线

5、性相关关系且残差的平方和等于0,则()3 / 8A. 样本点都在回归直线上B.样本点都集中在回归直线附近C. 样本点比较分散D.不存在规律8.在建立两个变量与 的回归模型中,分别选择了4 个不同的模型,它们的相关指数 如下,其中拟合最好的模型是()A. 模型 1 的相关指数为 0.98B.模型 2 的相关指数为 0.80C. 模型 3 的相关指数为 0.50D.模型 4 的相关指数为 0.25四课后心得1.2 独立性检验的基本思想及其初步应用目标:通过独立性检验能判断两个分类变量是否有关重点、难点:通过典型案例的探究,了解实际推断原理和假设检验的基本思想、方法及初步应用。一、基础知识梳理1.独

6、立性检验利用随机变量 来确定在多大程度上可以认为 “两个分类变量有关系 ”的方法称为两个分类变量的独立性检验。2.判断结论成立的可能性的步骤:( 1)通过等高条形图,可以粗略地判断两个分类变量是否有关系,但是这种判断无法精确地给出所得结论的可靠程度。( 2)可以利用独立性检验来考察两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度。二、例题选讲例 1.为了探究患慢性气管炎是否与吸烟有关,调查了339 名 50 岁以上的人,调查结果如下表所示:4 / 8患病不患病合计吸烟43162205不吸烟13121134合计56283339试问: 50 岁以上的人患慢性气管炎与吸烟习惯有关吗?分析

7、:最理想的解决办法是向所有50 岁以上的人作调查,然后对所得到的数据进行统计处理,但这花费的代价太大,实际上是行不通的,339 人相对于全体 50 岁以上的人,只是一个小部分,已学过总体和样本的关系,当用样本平均数,样本方差去估计总体相应的数字特征时,由于抽样的随机性,结果并不唯一。现在情况类似,我们用部分对全体作推断,推断可能正确,也可能错误。如果抽取的339 个调查对象中很多人是吸烟但没患慢性气管炎,而虽不吸烟因身体体质差而患慢性气管炎,能够得出什么结论呢?我们有95% (或 99% )的把握说事件 与事件 有关,是指推断犯错误的可能性为5% (或 1% ),这也常常说成是 “以 95%

8、(或 99% )的概率 ”是一样的。解:根据列联表中的数据,得。因为 ,所以我们有 99% 的把握说: 50 岁以上的人患慢性气管炎与吸烟习惯有关。评注:对两个分类变量进行独立性检验,要对样本的选取背景、时间等因素进行分析。例 2甲乙两个班级进行一门考试,按照学生考试成绩优秀和不优秀统计成绩后,得到如下的列联表:班级与成绩列联表优秀不优秀总计甲班103545乙班73845总计177390画出列联表的条形图,并通过图形判断成绩与班级是否有关;利用列联表的独立性检验估计,认为 “成绩与班级有关系 ”犯错误的概率是多少解:列联表的条形图如图所示:由图及表直观判断,好像 “成绩优秀与班级有关系 ”;由

9、表中数据计算得 K 2 的观察值为 k0.6530.455。由下表中数据5 / 8P( K 2k)0.500.400.250.150.100.050.0250.0100.0050.001k0.4550.7081.3232.0722.7063.8415.0246.6357.87910.828得: P(K 2 0.455) 0,.50从而有50% 的把握认为 “成绩与班级有关系”,即断言 “成绩优秀与班级有关系 ”犯错误的概率为0.5。评注:( 1)画出条形图后,从图形上判断两个分类变量之间是否有关系。这里通过图形的直观感觉的结果可能会出错。( 2)计算得到 K 2 的观测值比较小,所以没有理由说

10、明 “成绩优秀与班级有关系 ”。这与反证法也有类似的地方,在使用反证法证明结论时,假设结论不成立的条件下如果没有推出矛盾,并不能说明结论成立也不能说明结论不成立。在独立性检验中,在假设“成绩优秀与班级没有关系 ”的情况下,计算得到的 K 2 的值比较小, 且 P(K 2 0.653) 0,.42说明事件 (K 2 0.653)不是一个小概率事件,这个事件的发生不足以说明“成绩优秀与班级没有关系 ”,即没有理由说明 “成绩优秀与班级有关系”。这里没有推出小概率事件发生类似于反证法中没有推出矛盾。例 3为考察某种药物预防疾病的效果,进行动物试验,得到如下的列联列表:药物效果与动物试验列联表患病未患

11、病总计服用药104555没服用药203050总计3075105请问能有多大把握认为药物有效?解: 假设 “服药情况与是否患病之间没有关系”,则 K 2 的值应比较小;如果 K 2 的值很大,则说明很可能 “服药情况与是否患病之间有关系”。由题目中所给数据计算, 得 K 2 的观测值为 k6.110,而 P(K 2 5.024) 0.,025所以有 97.5% 的把握认为 “服药情况与是否患病之间有关系”,即大约有97.5% 的把握认为药物有效。三、课后练习6 / 81在一次独立性检验中, 其把握性超过了99% ,则随机变量的可能值为()A 6.635B 5.024C 7.897D 3.8413

12、由列联表合计4316220513121134合计56283339则随机变量的值为。5某高校 “统计初步 ”课程的教师随机调查了该选修课的一些学生情况,具体数据如下表:非统计专业统计专业男1310女720为了检验主修专业是否与性别有关系,根据表中的数据,得到。因为,所以断定主修统计专业与性别有关系。这种判断出错的可能性为。四课后心得参考答案:1C2C37.4694女教授人数,男教授人数,女副教授人数,男副教授人数(或高级职称中女性的人数,高级职称中男性的人数,中级职称中女性的人数,中级职称中男性的人数。)5 5% (或 0.05)6答案:( 1) 的列联表:看电视运动合计女432770男2133547 / 8合计6460124( 2)假设休闲方式与性别无关,计算;因为,所以有理由认为假设休闲方式与性别无关是不合理的,即我们有97.5% 的把握认为休闲方式与性别无关。7由所给数据计算得K2 的观测值为k3.689,而由P( K 2k)0.500.400.250.150.100.050.0250.0100.0050.001k0.4550.7081.3232.0722.7063.8415.0246.6357.87910.828知 P(K 2 2.706)=0.10所以有 90% 的把握认为 “婴儿的性别与出生的时间有关系”。8 / 8

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 社会民生


经营许可证编号:宁ICP备18001539号-1