学案4用样本估计总体与变量间的相关关系.ppt

上传人:本田雅阁 文档编号:2848518 上传时间:2019-05-27 格式:PPT 页数:59 大小:1.91MB
返回 下载 相关 举报
学案4用样本估计总体与变量间的相关关系.ppt_第1页
第1页 / 共59页
学案4用样本估计总体与变量间的相关关系.ppt_第2页
第2页 / 共59页
学案4用样本估计总体与变量间的相关关系.ppt_第3页
第3页 / 共59页
学案4用样本估计总体与变量间的相关关系.ppt_第4页
第4页 / 共59页
学案4用样本估计总体与变量间的相关关系.ppt_第5页
第5页 / 共59页
点击查看更多>>
资源描述

《学案4用样本估计总体与变量间的相关关系.ppt》由会员分享,可在线阅读,更多相关《学案4用样本估计总体与变量间的相关关系.ppt(59页珍藏版)》请在三一文库上搜索。

1、2013年高考,试题难度仍以中低档题为主.对总体分布的估计、线性回归很可能在选择、填空题中考查.对于频率分布直方图,求线性回归方程以及回归分析、独立性检验与假设检验等,由于计算量大,因此考解答题的可能性不大,但也不排除给出数据、公式,以选择题形式考查.,1.用样本的频率分布估计总体分布 (1)频率分布表与频率分布直方图 频率分布表和频率分布直方图,是从各个小组数据在样本容量中所占 的角度,来表示数据分布规律,它可以使我们看到整个样本数据的频率分布情况.,比例大小,(2)频率分布折线图 连接频率分布直方图中各小长方形 ,就得到频率分布折线图. (3)总体密度曲线 总体密度曲线反映了总体在各个范围

2、内取值的百分比,它能给我们提供更加精细的信息. (4)茎叶图 2.用样本的数字特征估计总体的数字特征 (1)众数、中位数、平均数,上端的中点,众数:在样本数据中,频率分布最大值所对应的样本 数 据; 中位数:样本数据中,累积频率为0.5时所对应的样本数据值(累积频率:样本数据小于某一数值的频率叫做该数值点的累积频率); 平均数:样本数据的算术平均数,即x= . (2)标准差的计算公式: s= . 3.从散点图上看,点散布在 就称这种相关关系为正相关,如果点散布在,从左下角到右上角的区域内,从左上角到右下,角的区域内,就称这种相关关系为负相关.,4.如果散点图中点的分布从整体上看大致在一条直线附

3、近,我们就称这两个变量之间具有 ,这条直线叫做回归直线,回归直线方程常记作 . 5.对于一组具有线性相关关系的数据(x1,y1),(x2,y2),(xn,yn),用最小二乘法,求回归直线系数a,b的公式为 b= = ,a= . 其中,x= ,y= .,线性相关关系,通过求Q= 的最小值而得出回归直线的方法,即求回归直线,使得样本 数 据的点到它的距离的平方和最小,这一方法叫做最小二乘法.,(y1-bx1-a)2+(y2-bx2-a)2+(yn-bxn-a)2,考点1 绘制频率分布直方图,某市2011年4月1日4月30日对空气污染指数的监测数据如下(主要污染物为可吸入颗粒物): 61,76,70

4、,56,81,91,92,91,75,81,88,67,101,103,95,91,77,86,81,83,82,82,64,79,86,85,75,71,49,45.,(1)完成频率分布表; (2)作出频率分布直方图; (3)根据国家标准,污染指数在050之间时,空气质量为优;在51100之间时,为良;在101150之间时,为轻微污染;在151200之间时,为轻度污染. 请你依据所给数据和上述标准,对该市的空气质量给出一个简短评价.,(1)频率分布表:,(2)频率分布直方图如图所示.,(3)答对下述两条中的一条即可: 该市一个月中空气污染指数有2天处于优的水平,占当月天数的 ; 有26天处于

5、良的水平,占当月天数的 ;处于优或良的天数为28,占当月天数的 .说明该市空气质量基本良好. 轻微污染有2天,占当月天数的 ;污染指数在80以上的接近轻微污染的天数15,加上处于轻微污染的天数17,占当月天数的 ,超过50%;说明该市空气质量有待进一步改善.,【评析】 (1)列频率分布表时要注意区分频数、频率的意义. (2)画频率分布直方图时要注意纵、横坐标代表的意义及单位. (3)通过本题可以掌握总体分布估计的各种常见步骤和方法. (4)解决总体分布估计问题的一般步骤如下: 先确定分组的组数; 分别计算各组的频数及频率(频率= ); 画出频率分布直方图,并作出相应的估计.,频数,总数,对某电

6、子元件进行寿命追踪调查,情况如下: 寿命(h) 100,200) 200,300) 300,400) 400,500) 500,600) 个数(个) 20 30 80 40 30 (1)列出频率分布表; (2)画出频率分布直方图; (3)估计电子元件寿命在100,400)以内的概率; (4)估计电子元件寿命在400 h以上的概率.,【解析】 (1)样本频率分布表如下: (2)频率分布直方图如图,(3)由频率分布表可以看出,寿命在100,400)内的电子元件出现的频率为0.65,所以我们估计电子元件寿命在100,400)内的概率为0.65. (4)由频率分布表可知,寿命在400 h以上的电子元件

7、出现的频率为0.20+0.15=0.35,故我们估计电子元件寿命在400 h以上的概率为0.35.,考点2 频率分布直方图的应用,为了解学生身高情况,某校以10%的比例对全校700名学生按性别进行分层抽样调查,测得身高情况的统计图如图:,(1)估计该校男生的人数; (2)估计该校学生身高在170185 cm之间的概率; (3)从样本中身高在180190 cm之间的男生中任选2人,求至少有1人身高在185190 cm之间的概率.,【分析】在频率直方图中,频率等于矩形的面积,每一小组的频率等于这小组的频数与样本容量的商.,【解析】(1)样本中男生人数为40,由分层抽样比例为10%估计全校男生人数为

8、400. (2)由统计图知,样本中身高在170185 cm之间的学生有14+13+4+3+1=35(人),样本容量为70,所以样本中学生身 高在170185 cm之间的频率f= =0.5.故由f估计该校学 生身高在170185 cm之间的概率p=0.5. (3)样本中身高在180185 cm之间的男生有4人,设其编号为,样本中身高在185190 cm之间的男生有2人,设其编号为. 从上述6人中任选2人的树状图为:,故从样本中身高在180190 cm之间的男生中任选2人的所有可能结果数为15,至少有1人身高在185190 cm 之间的可能结果数为9.因此,所求概率p2= .,评析解决该类问题时应

9、正确理解图表中各个量的意义,识图掌握信息是解决该类问题的关键 . 频率分布指的是一个样本数据在各个小范围内所占比例的大小 , 一般用频率分布直方图反映样本的频率分布.其中, 频率分 布直方图中纵轴表示 ,频率= ;频率分布直方图中,各小长方形的面积之和为1 , 因此在频率分布直方图中,组距是一个固定值,所以长方形高的比也就是频率之比; 频率分布表和频率分布直方 图是一组数据频率分布的两种形式,前者准确,后者直观;众数为最高矩形的中点; 中位数为平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标.,频率,组距,频数,样本容量,根据中华人民共和国道路交通安全法规定:车辆驾驶员血液酒精浓度在

10、2080 mg/100 mL(不含80)之间,属于酒后驾车;血液酒精浓度在80 mg/100 mL(含80)以上时,属醉酒驾车.据法制晚报 报道,近两周全国查处酒后驾车和 醉酒驾车共28 800人,如图是对这 28 800人血液中酒精含量进行检测 所得结果的频率分布直方图,则属 于醉酒驾车的人数约为 ( ) A.2 160人 B.2 880人 C.4 320人 D.8 640人,C(依题意血液酒精浓度超过80 mg/100 mL的频率为0.00510+0.0110=0.15,因此属于醉酒驾车的人数为28 8000.15=4 320(人). 故应选C.),甲、乙两台机床同时加工直径为10mm的零

11、件,为了检验产品的质量,从产品中各随机抽取6件进行测量,测得数据如下(单位:mm) 甲:99,100,98,100,100,103 乙:99,100,102,99,100,100 (1)分别计算上述两组数据的平均数和方差; (2)根据(1)的计算结果,说明哪一台机床加工的这种零件 更符合要求.,考点 用样本的数字特征估计总体的数字特征,【评析】两个机床加工零件的平均数相等,平均数描述了数据的平均水平,要说明哪一台机床加工的零件更符合要求,可再用方差来判断.平均数和标准差超过了规定界限时,说明这批产品质量与生产要求有较大偏差.,甲、乙两种冬小麦试验品种连续x年的平均单位面积产量如下:,试根据这组

12、数据,估计哪一种小麦品种产量较稳定.,甲品种的样本平均数为10,样本方差为 (9.8-10)2+(9.9-10)2+(10.1-10)2+(10-10)2+(10.2-10)25=0.02; 乙品种的样本平均数也是10,样本方差为 (9.4-10)2+(10.3-10)2+(10.8-10)2+(9.7-10)2+(9.8-10)25=0.240.02. 所以,由这组数据可以认为甲种小麦的产量比乙种小麦的产量较稳定.,某化肥厂甲、乙两个车间包装肥料,在自动包装传送带上每隔30min抽取一包产品,称其重量,分别记录抽查数据如下: 甲:102,101,99,98,103,98,99; 乙:110,

13、115,90,85,75,115,110. (1)这种抽样方法是哪一种? (2)将这两组数据用茎叶图表示: (3)将两组数据比较,说明哪个车间产品较稳定.,考点 茎叶图,【解析】 (1)因为间隔时间相同,故是系统抽样. (2)茎叶图如图所示:,【分析】 (1)根据各种抽样的特点判断. (2)求出两组数据的平均值与方差进行比较.,(3)甲车间: 平均值:x1= (102+101+99+98+103+98+99)=100. 方差: = (102-100)2+(101-100)2+(99-100)2 3.4286. 乙车间: 平均值:x2= (110+115+90+85+75+115+110)=10

14、0, 方差: = (110-100)2+(115-100)2+(110-100)2 228.5714. x1=x2, ,甲车间产品稳定.,【评析】 (1)茎叶图的优点是保留了原始数据 , 便于记录及表示,能反映数据在各段上的分布情况. (2)茎叶图不能直接反映总体的分布情况,这就需要通过茎叶图给出的数据求出数据的数字特征 , 进一步估计总体情况.,某校开展摄影比赛,9位评委为参赛作品A给出的分数如茎叶图所示.记分员在去掉一个最高分和一个最低分后,算得平均分为91,复核员在复核时,发现有一个数字(茎叶图中的x)无法看清.若记分员计算失误,则数字x应该是_.,甲品种的样本平均数为10,样本方差为(

15、9.8-10)2+(9.9-10)2+(10.1-10)2+(10-10)2+(10.2-10)25=0.02; 乙品种的样本平均数也是10,样本方差为 (9.4-10)2+(10.3-10)2+(10.8-10)2+(9.7-10)2+(9.8-10)25=0.240.02. 所以,由这组数据可以认为甲种小麦的产量比乙种小麦的产量较稳定.,关于人体的脂肪含量(百分比)和年龄关系的研究中,得到如下一组数据. 判断它们是否有相关关系.,考点 利用散点图判定相关关系,【分析】本题涉及两个变量:年龄与脂肪含量,可以以年龄为自变量,考查脂肪含量的变化趋势,而分析相关关系通常借助散点图.,【解析】以年龄

16、作为x轴,脂肪含量作为y轴,可得 相应散点图如图所示: 由散点图可知,两者之间具有相关关系.,【评析】判断有无相关关系,一种常用的简便方法 就是绘制散点图.,已知10只狗的血球体积及红血球数的测量值如下表: 26.99355.90589.49406.20,(1)将表中的数据画成散点图; (2)你能从散点图中发现狗的血球体积与红血球数近似 成什么关系吗? (3)如果近似成线性相关关系的话,请画出一条直线来 近似地表示这种线性相关关系.,(1)画出的散点图如图所示. (2)由散点图可以看出:狗的血球体积与红血球数近 似成线性相关关系. (3)如图中的直线.,假设关于某设备的使用年限x和所支出的维修

17、费用y(万元)有如下的统计资料: (1)线性回归方程y=bx+a的回归系数a,b; (2)估计使用年限为10年时,维修费用是多少?,考点 求线性回归直线,若由资料知,y与x呈线性相关关系.试求:,【解析】(1)制表如下:,【分析】本题已知x与y之间有线性相关关系,就无需进行相关检验.,于是有b= ; a=y-bx=5-1.234=0.08. (2)回归直线方程是:y=1.23x+0.08, 当x=10年时,y=1.2310+0.08=12.3+0.08=12.38(万 元),即估计使用10年时,维修费用是12.38(万元).,【评析】 由本题中y对x的关系呈线性关系,故可用一元线 性 相关的方

18、法解决问题. (1)利用公式: 来计算回归系 数,有时为了方便常制表对应出xiyi, ,以利于求和. (2)获得直线方程后,取x=10,即得所求. (3)求线性回归方程的计算量大,解题时可借助计算器,列出表格,再按分析时的步骤进行. (4)本题是一个应用问题,其实就是求出回归直线方程,通过回归方程来分析使用年限与维修费用之间的关系.,2.2011年高考江苏卷某老师从星期一到星期五收到的信件数分别为10,6,8,5,6,则该组数据的方差s2=_. 3.2010年高考江苏卷某棉纺厂为了解一批棉花的质量,从中随机抽测了100根棉花纤维的长度(棉花纤维的长度是棉花质量的重要指标). 所得数据均在区间5

19、,40中, 其频率分布直方图如图所示, 则在抽测的100根中,有_ 根棉花纤维的长度小于20 mm,4.2010年高考天津卷甲、乙两人在10天中每天加工零件的个数用茎叶图表示如图10-4-10所示,中间一列的数字表示零件个数的十位数,两边的数字表示零件个数的个位数,则这10天甲、乙两人日加工零件的平均数分别为_和_.,1.几种表示频率分布的方法的优点与不足: (1)频率分布表在数量表示上比较确切,但不够直观、形象,分析数据分布的总体态势不太方便. (2)频率分布直方图能够很容易地表示大量数据,非常直观地表明分布的形状,使我们能够看到在分布表中看不清楚的数据模式.但从直方图本身得不出原始的数据内

20、容,也就是说,把数据表示成直方图后,原有的具体数据信息就被抹掉了. (3)频率分布折线图的优点是它反映了数据的变化趋势,如果样本容量不断增大,分组的组距不断缩小,那么折线图就趋向于总体分布的密度曲线.,(4)用茎叶图优点是原有信息不会抹掉,能够展示数据的分布情况,但当样本数据较多或数据位数较多时,茎叶图显得不太方便了. 2.标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,标准差、方差越小,数据的离散程度越小,因为方差与原始数据的单位不同,且平方后可能夸大了偏差的程度,所以虽然方差与标准差在刻画样本数据的分散程度上是一样的,但在解决实际问题时,一般多采用标准

21、差. 3.线性相关关系的理解:相关关系与函数关系不同.函数关系中的两个变量间是一种确定性关系.例如正方形面积S与边长x之间的关系S=x2就是函数关系.相关关系是一种非确定性关系,即相关关系是非随机变量与随机变量之间的关系.例如商品的销售额与广告费是相关关系.两个变量具有相关关系是回归分析的前提.,4.求回归方程,关键在于正确求出系数a,b,由于a,b的计算量大,计算时应仔细谨慎,分层进行,避免因计算而产生错误(注意回归直线方程中一次项系数为b,常数项为a,这与一次函数的习惯表示不同). 5.回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们

22、之间贴近的数学表达式.(2)根据一组观察值,预测变量的取值及判断变量取值的变化趋势.(3)求出回归直线方程.,1.牢记画频率分布直方图的步骤: (1)先确定分组的组数,其方法是:最大数据与最小 数据之差除以组距得组数. (2)计算每组的频数及频率,其中频率= . (3)画出直方图,同时要注意频率分布直方图的含义. 2.利用频率分布直方图估计样本的数字特征: (1)众数在样本数据的频率分布直方图中,就是最高矩 形的中点的横坐标.,频数,总数,(2)在频率分布直方图中 , 中位数左边和右边的直方 图的面积应该相等,由此可以估计中位数的值. (3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和. (4)一组数据中的众数可能不止一个,而中位数是唯一的,如果数据的个数为偶数, 那么,最中间两个数据的平均数是这组数据的中位数.,3.分清平均数和标准差的数学定义和现实含义.平均数反映的是数据的平均水平,标准差反映的是数据的离散程度,反映了各个样本数据聚集于样本平均数周围的程度,标准差越小,表明数据在样本平均数的周围越集中;反之,标准差越大,表明各个样本数据在样本平均数的两边越分散. 4.要熟记相关的定义,注意散点图对判断是否相关的作用.由于计算较为繁琐,因此要细心,还要会用回归方程进行估计,并结合实际作出回答.,祝同学们学习上天天有进步!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1