2019-2020学年高二数学人教A版选修2-3课件:3.1 回归分析的基本思想及其初步应用 .pptx

上传人:白大夫 文档编号:4811657 上传时间:2019-12-20 格式:PPTX 页数:43 大小:1.03MB
返回 下载 相关 举报
2019-2020学年高二数学人教A版选修2-3课件:3.1 回归分析的基本思想及其初步应用 .pptx_第1页
第1页 / 共43页
2019-2020学年高二数学人教A版选修2-3课件:3.1 回归分析的基本思想及其初步应用 .pptx_第2页
第2页 / 共43页
2019-2020学年高二数学人教A版选修2-3课件:3.1 回归分析的基本思想及其初步应用 .pptx_第3页
第3页 / 共43页
2019-2020学年高二数学人教A版选修2-3课件:3.1 回归分析的基本思想及其初步应用 .pptx_第4页
第4页 / 共43页
2019-2020学年高二数学人教A版选修2-3课件:3.1 回归分析的基本思想及其初步应用 .pptx_第5页
第5页 / 共43页
点击查看更多>>
资源描述

《2019-2020学年高二数学人教A版选修2-3课件:3.1 回归分析的基本思想及其初步应用 .pptx》由会员分享,可在线阅读,更多相关《2019-2020学年高二数学人教A版选修2-3课件:3.1 回归分析的基本思想及其初步应用 .pptx(43页珍藏版)》请在三一文库上搜索。

1、第三章 统计案例,3.1 回归分析的基本思想及其初步应用,1.了解回归分析的基本思想,会对两个变量进行回归分析,会求两个具有线性相关关系的变量的回归直线方程,并用回归直线方程进行预报. 2.了解最小二乘法的思想方法,理解回归方程与一般函数的区别与联系. 3.通过典型案例的分析,了解回归分析的初步应用相关检验.,1,2,3,4,1,2,3,4,知识拓展1.当r0时,表明两个变量正相关; 当r0时,表明两个变量负相关. 2.|r|越接近于1,表明两个变量的线性相关性越强; |r|越接近于0,表明两个变量之间几乎不存在线性相关关系. 通常,当|r|不小于0.75时,我们认为两个变量存在着很强的线性相

2、关关系.,1,2,3,4,【做一做1-1】 下表是x与y之间的一组数据,则y关于x的线性回归直线必过点( ) A.(2,2) B.(1.5,2) C.(1,2) D.(1.5,4) 解析: 样本点的中心为(1.5,4),而回归直线过样本点的中心,故选D. 答案:D,1,2,3,4,【做一做1-2】 若分别计算具有线性相关关系的甲组数据和乙组数据,得相关系数r甲=0.8,r乙=-0.9,则相关关系较强的是( ) A.甲组数据 B.乙组数据 C.甲、乙两组数据一样强 D.不确定 解析:|r乙|=0.9|r甲|=0.8,乙组数据相关性强. 答案:B,1,2,3,4,2.随机误差 (1)随机误差的均值

3、E(e)=0,方差D(e)=2. (2)线性回归模型的完整表达式是 在此线性回归模型中,随机误差e的方差2越小,通过回归直线预报真实值y的精度越高. 知识拓展随机误差的主要来源: (1)用线性回归模型近似地逼近真实模型所引起的误差; (2)忽略了某些因素的影响所产生的误差; (3)观测误差.,1,2,3,4,1,2,3,4,知识拓展在线性回归模型中,R2表示解释变量对于预报变量变化的贡献率.R2越接近于1,表示回归的效果越好(因为R2越接近于1,表示解释变量和预报变量的相关性越强).如果对某组数据可以采取几种不同的回归方程进行回归分析,那么也可以通过比较几个R2,选择其值大的模型.,1,2,3

4、,4,【做一做2】 有下列说法: 在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适; R2用来刻画回归效果,R2的值越大,说明模型拟合效果越好; 比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型,拟合效果越好. 其中正确命题的个数是( ) A.0 B.1 C.2 D.3 答案:D,1,2,3,4,3.非线性回归方程 当回归方程不是形如y=bx+a(a,bR)时,称之为非线性回归方程. 非线性回归方程也可以线性化. (1)将幂函数型函数y=axn(a为常数,a,x,y均取正值)化为线性函数: 将y=axn两边取常用对数,则有lg y=nlg x+lg

5、 a,令=lg y,v=lg x,b=lg a代入上式得=nv+b(其中n,b是常数),其图象是一条直线. (2)将指数型函数y=cax(a0,c0,a,c为常数)化为线性函数: 将y=cax两边取常用对数,则有lg y=xlg a+lg c,令=lg y,b=lg c,d=lg a,代入上式得=dx+b(d,b是常数),它的图象是一条直线.,1,2,3,4,4.建立回归模型的基本步骤 一般地,建立回归模型的基本步骤为: (1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量. (2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等). (3)由经验确定

6、回归方程的类型. (4)按一定规则(如最小二乘法)估计回归方程中的参数. (5)得出结果后分析残差图是否有异常.若存在异常,则检查数据是否有误,或模型是否合适等.,1,2,1.相关分析的意义和作用是什么 剖析函数是大家比较熟悉的概念,它是指变量之间的确定性关系,即当X取某一数值x时,变量Y按照某种规则总有一个确定的数值与之对应.相关关系则是指变量之间的非确定性关系,由于随机因素的干扰,当变量X取确定值x时,变量Y的取值不确定,是一个随机变量,但它的概率分布与X的取值有关.这里,我们看到了函数关系与相关关系的本质区别,在函数关系中变量X对应的是变量Y的确定值,而在相关关系中,变量X对应的是变量Y

7、的概率分布.换句话说,相关关系是随机变量之间或随机变量与非随机变量之间的一种数量依存关系,对于这种关系,只能运用统计方法进行研究.通过对相关关系的研究又可以总结规律,从而指导人们的生活与生产实践.,1,2,2.举例说明怎样确定线性回归的模型 剖析在确定数据适合哪种模型之前,首先应该对观测数据绘图,以便进行简单的观测.例如,为了研究建立初始工资与当前工资的回归模型,首先对观测数据绘图,如下图所示.,1,2,从图中可以发现初始工资与当前工资的趋势大概呈线性关系,可以建立线性回归方程.如果观测数据不呈线性分布,那么还可以根据其他方程模型的观测数据分布图形的特点以及对建立各方程后所得的R2进行比较以便

8、确定一种最佳方程式. 一般说来,如果所有的观测量都落到回归直线上,那么R2等于1;如果自变量与因变量之间没有回归关系,那么R2等于0. 另外,我们通过对观测数据分布图形的仔细观察还可以发现一些奇异值,所以还可以通过对数据的检查来消除奇异值.但是,对待奇异值时要格外小心.,题型一,题型二,题型三,题型四,【例1】 一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验.测得的数据如下: (1)y与x是否具有线性相关关系? (2)如果y与x具有线性相关关系,求回归直线方程; (3)根据求出的回归直线方程,预测加工200个零件所用的时间为多少?,题型一,题型二,题型三,题型四,

9、题型一,题型二,题型三,题型四,题型一,题型二,题型三,题型四,题型一,题型二,题型三,题型四,反思求回归直线方程的三个步骤 (1) 对是否具有线性相关性作出判断:一种方法是画出散点图,由样本点是否呈条状分布来判断两个量是否具有线性相关关系;另一种方法是计算出相关系数r,|r|大于0.75时,认为两个变量有很强的线性相关性. (2)求出回归系数:若存在线性相关关系,则根据公式求出回归系数. (3)写出回归直线方程.,题型一,题型二,题型三,题型四,【变式训练1】 某工厂18月份某种产品的产量x(单位:t)与成本y(单位:万元)的统计数据如下表: (1)画出散点图; (2)判断y与x是否具有线性

10、相关关系,若有,求出其线性回归方程.,题型一,题型二,题型三,题型四,解:(1)散点图如图. (2)由图可看出,这些点基本分布在一条 直线附近,可以认为x和y线性相关.,题型一,题型二,题型三,题型四,【例2】 某运动员训练次数与成绩之间的数据关系如下: (1)作出散点图; (2)求出回归方程; (3)作出残差图; (4)计算R2; (5)试预测该运动员训练47次及55次的成绩.,题型一,题型二,题型三,题型四,解:(1)作出该运动员训练次数(x)与成绩(y)之间的散点图,如图,由散点图可知,它们之间具有线性相关关系.,题型一,题型二,题型三,题型四,题型一,题型二,题型三,题型四,(3)作残

11、差图如图, 由图可知,残差点比较均匀地分布在水平带状区域中,说明选用的模型比较合适. (4)计算得R20.985 5.说明了该运动员的成绩的差异有98.55%是由训练次数引起的.,题型一,题型二,题型三,题型四,将x=47和x=55分别代入该方程可得y49和y57. 故预测该运动员训练47次和55次的成绩分别为49和57. 反思“R2、残差图”在回归分析中的作用:,(2)残差图也是用来刻画回归效果的,判断依据是:残差点比较均匀地分布在水平带状区域中,带状区域的宽度越窄,说明模型拟合精度越高,回归方程预报精度越高.,题型一,题型二,题型三,题型四,【变式训练2】 对于x与y有如下观测数据: (1

12、)作出散点图; (2)对x与y作回归分析; (3)求出y对x的回归方程; (4)根据回归方程,预测当y=20时x的值.,题型一,题型二,题型三,题型四,解:(1)散点图如图.,题型一,题型二,题型三,题型四,题型一,题型二,题型三,题型四,由于|r|0.9910.75,因此认为两个变量有很强的线性相关关系.,题型一,题型二,题型三,题型四,(3)由(2)知,可以用线性回归方程拟合.,(4)当y=20时,有20=0.191x-0.067,解得x105. 因此当y的值为20时,x的值约为105.,题型一,题型二,题型三,题型四,题型一,题型二,题型三,题型四,题型一,题型二,题型三,题型四,可以求

13、得r0.998. 由于|r|0.9980.75,可知u和v具有很强的线性相关性.再求出b-0.146,a0.548.,题型一,题型二,题型三,题型四,【变式训练3】 在一化学反应过程中,某化学物质的反应速率y(单位:g/min)与一种催化剂的量x(单位:g)有关,现收集了如下表所示的8组数据,试建立y与x之间的回归方程.,题型一,题型二,题型三,题型四,解:根据收集的数据作散点图,如图. 根据样本点的分布情况,可选用两种曲线模型来拟合. 可认为样本点集中在某二次曲线y=c1x2+c2的附近. 令t=x2,则变换后样本点应该分布在直线y=bt+a(b=c1,a=c2)的周围.,题型一,题型二,题

14、型三,题型四,由题意得变换后t与y的样本数据如下表: y与t的散点图如图. 由y与t的散点图可以观察到样本数据点并不分布在一条直线的周围,因此不宜用线性回归方程y=bt+a来拟合,即不宜用二次曲线y=c1x2+c2来拟合y与x之间的关系.,题型一,题型二,题型三,题型四,根据x与y的散点图也可以认为样本点集中在某一条指数曲线y=c1 e 2 的周围. 令z=ln y,则z=c2x+ln c1,即变换后样本点应该分布在直线z=bx+a(a=ln c1,b=c2)的周围. 由题意得变换后z与x的样本数据如下表:,题型一,题型二,题型三,题型四,z与x的散点图如图. 因为根据散点图可以观察到样本数据点大致分布在一条直线的周围,所以可以用线性回归方程来拟合.,题型一,题型二,题型三,题型四,题型一,题型二,题型三,题型四,错解:B 错因分析对残差平方和和R2理解错误. 正解:R2的值越大,说明残差平方和越小,也就是说模型的拟合效果越好. 答案:C 反思把握好R2的回归意义.,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1