高中数学第三章统计案例3.1第2课时残差分析及回归模型的选择学案新人教A版.pdf

上传人:tbuqq 文档编号:5166116 上传时间:2020-02-10 格式:PDF 页数:12 大小:327.19KB
返回 下载 相关 举报
高中数学第三章统计案例3.1第2课时残差分析及回归模型的选择学案新人教A版.pdf_第1页
第1页 / 共12页
高中数学第三章统计案例3.1第2课时残差分析及回归模型的选择学案新人教A版.pdf_第2页
第2页 / 共12页
高中数学第三章统计案例3.1第2课时残差分析及回归模型的选择学案新人教A版.pdf_第3页
第3页 / 共12页
高中数学第三章统计案例3.1第2课时残差分析及回归模型的选择学案新人教A版.pdf_第4页
第4页 / 共12页
高中数学第三章统计案例3.1第2课时残差分析及回归模型的选择学案新人教A版.pdf_第5页
第5页 / 共12页
点击查看更多>>
资源描述

《高中数学第三章统计案例3.1第2课时残差分析及回归模型的选择学案新人教A版.pdf》由会员分享,可在线阅读,更多相关《高中数学第三章统计案例3.1第2课时残差分析及回归模型的选择学案新人教A版.pdf(12页珍藏版)》请在三一文库上搜索。

1、3.1 第二课时残差分析及回归模型的选择 一、课前准备 1. 课时目标 (1) 了解残差分析回归效果; (2) 了解相关指数 2 R分析回归效果; (3) 了解常见的非线性回归转化为线性回归的方法. 2. 基础预探 1. 在线性回归模型ybxae中,ab和为模型的未知参数,ey是与y bxa之间的 误差,通常为随机变量,称为_. 它的均值E() 0,方差 2 ( )0D e. 线性回归模型的完整表达形式为 2 ( )0,( ) ybxae E eD e . 在此模型中,随机误差的方 差 2 越小,通过回归直线ybxa预报真实值的精度越高. 2. 对 于 样 本 点 1122 (,),(,),(

2、,) nn xyxyxy而 言 , 相 应 于 它 们 的 随 机 误 差 为 (1,2, ) iiii eyyybxa in,其估计值为 (1,2, ) iiiii eyyybxa in, i e称 为 相 应 于 点(,) ii x y的 _. 类 比 样 本 方 差 估 计 总 体 方 差 的 思 想 , 可 以 用 2 1 (,) 2 Q a b n ( 2) 作为 2 的估计量,其中ab和由公式给出,()Q a b,称为残差平 方和 . 可以用 2 衡量回归直线方程的预报精度. 通常 2 越小,预报精度越高. 3. 在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关

3、,是否可以 用线性回归模型来拟合数据. 然后,可以通过残差 12,ne ee来判断模型拟合的效果,判断 原始数据中是否存在可疑数据. 这方面的分析工作称为_. 4. 用相关指数 2 R来刻画回归的效果,其计算公式是: 2 21 2 1 () 1 () n i i n i i yy R yy . 显然 2 R取值越 大,意味着残差平方和_,也就是说模型的拟合效果_. 二、学习引领 1. 进行回归分析的步骤是什么? (1) 确定研究对象,明确是哪两个变量之间的相关关系. (2) 画出散点图,观察它们之间的关系是否存在线性关系,也可计算变量间的线性相关 系数的值来精确判断它们之间是否存在相关关系.

4、如果不存在线性相关关系,判断散点图是 否存在非线性相关关系. (3) 若存在相关关系,则由经验确定回归方程的类型:如观察到数据呈线性关系,则选 用线性回归方程 ? y =bx+a;否则可选择指数模型、对数模型或二次函数模型等. (4) 利用残差图或者相关指数 2 R对回归效果进行判断 2. 随机误差的产生及估计的方法 (1) 在实际中,随机变量除了受随机变量的影响之外,还受其它变量的影响;(2) 由于前面相关关系公式中的 ab和 为截距和斜率的估计值,它们与真实值 ab和 之间也存在 误差 .(3) 因为随机误差是随机变量,因此可以通过这个随机变量的数字特征来刻画它的一些 总体特征 . 均值是

5、反映随机变量取值平均水平的数字特征,方差是反映随机变量集中于均值 程度的数字特征,而随机变量的均值为0,因此可以用方差 2 来衡量随机误差的大小. 3. 如何利用 2 R判断回归效果 在线性回归模型中, 2 R表示解释变量对于预报变量变化的贡献率. 2 R越接近于1,表 示回归的效果越好(因为 2 R 越接近于1,表示解释变量和预报变量的相关性越强). 如果对某 组数据可能采取几种不同的回归方程进行回归分析. 也可以通过比较几个 2 R, 选择其值大的 模型 . 4. 常见的可线性化的回归模型 (1) 幂函数曲线y=ax b( 如图所示 ), 作变换 u=lny ,v=lnx,c=lna, 得

6、线性函数u=c+bv. (2) 指数函数y=ae bx( 如图所示 ) 作变换 u=lny, c= lna, 得线性函数u=c+bx. (3) 倒指数曲线y=a b x e( 如图所示 ). (4) 对数曲线y=a+blnx( 如图所示 ) 三、典例导析 题型一相关系数的应用 例 1 下表为某地近几年机动车辆数与交通事故数的统计资料,请判断交通事故数与机动车 辆数是否有线性相关关系? 机动车辆数 x/ 千台 95 110 112 120 129 135 150 180 交通事故数 y/ 千件 6.2 7.5 7.7 8.5 8.7 9.8 10.2 13. 0 思路点拨:先列表计算出相关系数所

7、需数据,代入公式即可求出相关系数r ,由此判断交通 事故数 y 与机动车辆数x 是否线性相关. 解析:将数据列成下表 由此可知x=128.875 y=8.95 ,进而求得 r= 22 9611.7 8 128.875 8.95 0.9927 (137835 8 128.875 )(6718 8.95 ) . 因为 |r|接近 1 , 所以可得交通事故数y 和机动车辆数x 有较强的线性相关关系. 规律总结: 进行回归分析时,通常先进行相关性检验,若能确定两个变量具有线性相关关 系, 再去求其线性回归方程,否则所求的方程无意义. 两个变量正 (负) 相关时,它们就有 相同 ( 反) 的变化趋势,即

8、当由小变大时,相应的有由小( 大 )变大 ( 小) 的趋势 . 变式训练: 某工业部门进行一项研究,分析该部门的产量与生产费用之间的关系?从这个工 业部门内随机抽取了10 个企业作样本,有如下资料. 见下表 . 产量 x ( 千 克) 40 42 48 55 65 79 88 100 120 140 生 产 费 用 y( 千元 ) 150 140 160 170 150 162 185 165 190 185 完成下列要求: (1) 计算 x 与 y 的相关系数; (2) 对这两个变量之间是否线性相关进行相关性检验。 题型二残差分析 某城区为研究城镇居民月家庭人均生活费支出和月人均收人的相关关

9、系. 随机抽取10 户进 行调查 . 其结果如下: 月 人 均收 人 x( 元 ) 300 390 420 520 570 700 760 800 850 1080 月人均生活费 y ( 元) 255 324 335 360 450 520 580 600 630 750 试预测人均月收人为1100 元和人均月收入为1200 元的两个家庭的月人均生活费. 思路导析:列表计算出相关系数所需数据,代入公式即可求出相关系数r ,初步判断两个变 量之间是否具备相关性,然后做出残差图判断选用的模型是否合适. 解析:作出散点分布图,由图可知月人均生活费与人均收人之间具有线性相关关系. 由题意可知:639,

10、480.4xy, 101010 22 111 4610300,2540526,3417560, iiii iii xyx y 计算相关系数可得 r=0.99316 , 因为 |r|接近 1 , 所以可得两个变量有较强的线性相关关系. 代入公式可知b= 10 1 10 22 1 10 10 ii i i i x yxy xx =0.6599 ,a=y-b x=58.751. 故回归直线方程为 ? y =0.6599x+58.751. 作残差如图所示,由图可知, 残差点比较均匀地分布在水平的带状区域中,说明选用的模型 比较合适 . 计算相关指数R 2=0.986 3,说明城镇居民的月人均生活费的差

11、异有 98.63 是由人均收人引 起的 . 由以上分析可知. 我们可以利用回归方程 ? y =0.6599x-58.751来作月生活费的预报值. 将 x=1100 代人得, ? y =784.64( 元) ; 将 x=1200 代人得,? y=850.63( 元). 故预测月人均收人分别为1100 元和 l200元的两家庭的月人均生活费分别为784.64元和 850.63 元 归律总结: 如果作出的残差图中的残差点比较均匀地分布在水平的带状区域中,带状区域宽 度越窄,说明模型拟合程度越高,回归方程的预报精度越高. 若利用相关指数R 2 来刻画拟合 效果的好坏, R 2 的取值越接近1,说明残差

12、的平方和越小,即说明模型的拟合效果越好. 变式训练:在一段时间内,某种商品的价格x( 元)与需求量y( 件) 之间的数据为 价格 x( 元) 14 16 18 20 22 需求量 y( 件) 56 50 43 41 37 求出 y 对 x 的回归直线方程,并说明拟合效果的好坏. 题型三:非线性回归分析 例 3 现代经济学证明,工厂生产产品的成本与其产量有关,产量越大,其成本越低. 某饰品 工艺厂在生产某种民族特色艺术品时,得到了每件饰品的成本费y( 元) 与产量 x( 百件 )之间 的如下数据: x 1 2 3 5 10 y 10.15 5.52 4.08 2.85 2.11 x 20 30

13、50 100 200 y 1.62 1.41 1.30 1.21 1.15 检验每件饰品的成本费y 与产量x 之间是否具有线性相关关系,若有,求出y 对 x 的 回归方程;若没有,你能求出y 与 x 的一个关系式吗? 思路导析: 通过散点图观察两个变量具备怎样的相关关系,根据相关关系的特征选择合适的 模型,将非线性相关的关系通过置换变为线性相关关系,然后求出成本与产量之间的关系. 解析:画出x 和 y 的散点图,如图. 图中的点的分布不在一条直线附近,故每件饰品的成本费y 与产量x 间不具有线性相 关关系, 又图中的点的分布近似于反比例函数中的一支,故可把 x 1 置换为 u,检验 y 与 u

14、 之 间的相关关系,则有u x 1 ,从而 u 与 y 的数据为 u1 0.5 0.33 0.2 0.1 0.05 0.03 0.02 0.01 0.005 y i 10.15 5.52 4.08 2.85 2.11 1.62 1.41 1.30 1.21 1.15 然后作相关性检验. 经计算得r=0.9998 , 因为 |r|接近于 1,所以可以认为两个变量y 与 u 之间具有较强线性相关关系; 由公式得a=1.125 ,b=8.973 ,所以 ? y =1.125+8.973u , 最后回代u= x 1 ,可得 8.973 ?1.125y x . 答: y 对 x 的回归方程为 8.973

15、 ?1.125y x . 方法规律 :非线性回归问题要先根据已知的数据画出散点图,并把散点图与已经学习过的各 种函数,如幂函数、指数函数、对数函数、二次函数等作比较,挑选出跟这些散点拟合最好 的函数,然后再采用变量的置换,把问题转化为线性回归分析问题解决. 变式训练:在兰新化工厂生产某种化学药品的生产车间内,技术人员测得如下表所示的6 组数据,其中 xmin 表示化学反应进行的时间,ymg表示未转化物质的量. min/x1 2 3 4 5 6 mgy 8 .392.3225.4 20.3 16.2 13.3 (1) 设y与x之间具有关系 x cdy,试根据测量数据估计c和d的值 . (2) 估

16、计化学反应进行到min10时未转化的物质的量. 四、随堂练习 1. 变量 x、y 的散点图如图所示,那么x、y 之间的样本相关系数r 的最接近的值为( ) A.1 B.0.5 C.0 D.0.5 2. 为了考察两个变量和之间的线性相关性. 甲、乙两位同学各自独立地做10 次和 15 次 试验,并且利用线性回归方程,求得回归直线分别为 12 ll和. 已知两个人在试验中发现对变 量的观测数据的平均值都是,对变量的观测数据的平均值都为,那么下列说法正确 的是 ( ) A. 12 ll与相交点为 ( , ) ; B. 12 ll与相交,相交点不一定是( , ) ; C. 12 ll与必关于点 ( ,

17、 ) 对称; D. 12 ll与必定重合 . 3. 对于相关系数r,下列说法中正确的是( ) A.|r越大,相关程度越大B.| r越小,相关程度越大 C.|r越大,相关程度越小;| r越小,相关程度越大 D.1| r且| r越接近,相关程度越大;| r越接近,相关程度越小 4. 如图所示,有5 组数据 (x ,y) ,去掉 _组数据后,剩下的4 组数据的线性相关系数最 大. 5. 已知回归直线的斜率的估计值是1.23 ,样本点的中心为(4 ,5) ,则回归直线的方程是 _。 6. 某产品的广告费用支出与销售额( 单位:百万元) 之间有如下统计数据: 2 4 5 6 8 30 40 60 50

18、70 请对上述变量、进行相关性检验. 五、课后作业 1. 某商品销售量y( 件) 与销售价格x( 元/ 件) 负相关,则其回归方程可能是 ( ) A. 10200yx B. 10200yx C. 10200yx D. 10200yx 2. 对两个变量x 与 y 进行回归分析, 分别选择了4 个不同模型, 它们的相关系数r 如下, 其 中拟合效果最好的模型是( ) A模型 1的相关系数r 为 098 B模型 2的相关系数r 为 080 C模型 3的相关系数r 为 050 D模型 4的相关系数r 为 025 3. 线性相关的四个样本点( ,3.5),(2.5,6.2),(4.4,),(5.2,11

19、.3)xy的中心是(3.4, 7.75),则 _,_xy 4. 已知一系列样本点( ,)(1,2,3, ) ii x yin的回归直线方程为?23yx,若 1 17 n i i x , 则 1 n i i y 5. 某矿脉中设有9 个样本点,某种金属的含量y与样本点到原点的距离 x有如下表的测量 值: x234578101518 y 106.42108.20109.58109.50110.00109.93110.49110.90111.00 请按 b ya x 建立y对x的回归方程, 并预测当样本点到原点的距离20x时,该种 金属的含量 . 6. 假定小麦基本苗数与成熟期有效穗之间存在相关关系

20、,今测得5 组数据如下: 15.0 25.8 30.0 36.6 44.4 39.4 42.9 42.9 43.1 49.2 (1) 求与之间的回归方程,对于基本苗数56.7 预报有效穗 . (2) 计算各组残差,并计算残差平方和. (3) 求 2 R,并说明残差变量对有效穗的影响占百分之几? 参考答案 3.1 第二课时选择回归模型 2. 基础预探 1. 随机误差 2.残差 3. 残差分析 4. 越小越好 三、典例导析 例 1 变式训练 解析:由题意可知:77.7,165.7xy, 101010 22 111 70903,277119,132938 iiii iii xyx y . r= 22

21、 132938 1077.7 165.7 0.808 (70903 10 77.7 )(277119 10 165.7 ) . 因为 |r|接近 1, 所以可得两个变量有较强的线性相关关系. 例 2 变式训练 解析:由题意可知: 18,45.4xy , 55 2 11 1600,3992, iii ii xx y 代入公式可知 b= 5 1 5 22 1 5 5 ii i i i x yxy xx =-2.35 , a=y- b x =87.7 , 故所求回归直线方程为? y=-2.35x+87.7. 列出残差表为: ii yy 1.2 -0.1 -2.4 0.3 1 i yy 10.6 4.

22、6 -2.4 -4.4 -8. 4 所以, 2 55 2 11 ()8.3,()229.2, iii ii yyyy 代入公式可知R 2=1- 2 5 1 5 2 1 () () ii i i i yy yy 0.964. 因为 0.964 接近于 1,所以该模型的拟合效果好. 例 3 变式训练 解析 : (1) 在 x cdy的两边取自然对数,可以得到dxcylnlnln. 设zyln, acln,bdln,则bxaz,则由已知数据可以得到下表: min/x1 2 3 4 5 6 mgy 8 .392.3225.4 20.3 16.2 13.3 yzln3.684 3.472 3.235 3

23、.011 2.785 2.588 由公式计算得 ?3.926a , ? 0.2244b, 线性回归方程为9055.3? zx2119.0, 即9055.3ln c,2219.0ln d,所以675.49c,8010.0d, 根据测量数据估计675.49c,8010.0d. (2) 由(1) 知y与x之间的关系为? 49.675 0.8010 x y, 当10x时, ? y =4.58010.0675.49 10 . 所以估计化学反应进行到min10时未转化物质的量为mg4 .5. 四、随堂练习 1. 答案: C 解析:从散点图可以看出,x 与 y 没有线性相关关系,因而r 的值接近于0. 2答

24、案: A 解析:设回归直线方程为ybxa,则aybx,即atbs,可得出tbs a. 所 以点 ( , ) 在回归直线上,所以直线 12 ll与一定有公共点(, ). 3. 答案: D 解析:由两个变量的相关系数公式可知,相关程度的强弱| r与的接近程度有关,|r越 接近,相关程度越大;| r越接近,相关程度越小. 4. 答案: D 解析:当各点分布在一条直线附近时,相关系数最大,由图中可知,A、 B、C、E 四点分布 在一条直线附近,而D点远离这条直线,故去掉D点后,相关性最强,相关系数最大. 5.?1.230.08yx 解析:设回归直线方程为axby?, 依题意可知 ,23.1b, 又样本

25、点的中心(4 ,5) 在直线 上, 即51.234a即0.08a, 所以回归直线的方程为?1.230.08yx . 6. 解:由题意可以列表如下: i 1 2 3 4 5 xi2 4 6 5 8 yi30 40 50 60 70 xi yi60 160 300 300 560 555 22 111 5,50,145,13500,1380 iiii iii xyxyx y 由上代入公式可得 22 1380 5 5 50 0.92 (145 55 )(1350 5 50 ) r , 因为 |r|接近于 1,说明广告费用和销售额之间具有显著线性关系. 五、课后作业 1. 答案: A 解:因为销量与价

26、格负相关,由函数关系考虑为减函数可排除B、D,根据回归直线方程 yabx中b的统计学意义知不能为负数,再排除C选项,所以选A. 2. 答案: A 解析: r 越接近于1,拟合效果越好。 3. 答案 :1.5x,10y 解析:由 2.54.45.2 3.41.5 4 x x, 3.56.211.3 7.7510 4 y y 4. 答案:343n 解析:因为 11 11 2323343 nn iinn ii ii ii yx yxnn nn . 5. 解析:对 b ya x 作一个变换,将其转化成线性问题. 为此,令 1 t x ,则得线性关系式 yabt,化归到线性回归方程. 将上表中的数据作相

27、应的变换,得下表: t0.50.330.250.20.1430.1250.10.0670.056 y 106.42108.20109.58109.50110.00109.93110.49110.90111.00 用最小二乘法 , 易得线性回归方程为 9.899 y111.5 x , 最后回代t= x 1 ,可得 9.899 y111.5 x , 故当20x时,预报值 y 9.867 111.5111.01 20 . 6. 解析: (1) 由图看出,样本点呈条状分布,有比较好的线性相关关系,因此可以用线性回 归方程刻画它们之间的关系. 设回归方程为 55 22 11 ,30.36,43.5,51

28、01.51,9511.43. ii ii ybxa xyxy 5 22 1 1320,1892.25,921.7296,6746.76. ii i xyyxx y 由 5 1 5 2 2 1 5 0.2911,34.32. 5 ii i i i x yxy baybx xx 故所求的回归直线方程为34.320.29 .yx 当 56.7 时,34.320.29 56.750.763.y估计成熟期有效穗50.763. (2) 由于ybxae,可以算得 iii eyy分别为 12345 0.73,1.098,0.12,1.83,2.004,eeeee 残差平方和: 5 2 1 9.11782. i i e (3) 总偏差平方和: 5 2 1 ()50.18, i i yy 回归平方和: 50.18 9.11782 41.06218 , 2 41.06218 0.818. 50.18 R 所以解释变量、小麦基本苗数对总效应约贡献了81.8%. 残差变量贡献了约181.8%18.2%.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1