Wk2-BB-A-11 Correlation & Regression-N.ppt

上传人:PIYPING 文档编号:11947450 上传时间:2021-11-14 格式:PPT 页数:75 大小:2.96MB
返回 下载 相关 举报
Wk2-BB-A-11 Correlation & Regression-N.ppt_第1页
第1页 / 共75页
Wk2-BB-A-11 Correlation & Regression-N.ppt_第2页
第2页 / 共75页
Wk2-BB-A-11 Correlation & Regression-N.ppt_第3页
第3页 / 共75页
Wk2-BB-A-11 Correlation & Regression-N.ppt_第4页
第4页 / 共75页
Wk2-BB-A-11 Correlation & Regression-N.ppt_第5页
第5页 / 共75页
点击查看更多>>
资源描述

《Wk2-BB-A-11 Correlation & Regression-N.ppt》由会员分享,可在线阅读,更多相关《Wk2-BB-A-11 Correlation & Regression-N.ppt(75页珍藏版)》请在三一文库上搜索。

1、相关关系与回归分析(Correlation 斜率 = 0.35 温度每增加一度,可以预期密封强度平均增加 .35 g/cm2 或(通过增加温度 10 度,平均密封强度增加 3.5 g/cm2)。 5: 压盘加热到 250 F 平均可获得 189.1 g/cm2 的密封强度 (= 101.61 + .35 x 250)。 6: 利用回归方程式求 X。 205 = 101.61 + .35(X) 表示 X = 295 F 将压盘加热到 295 F 可获得 205 g/cm2 的密封强度 7: R-sq = 83.3%(见下页),R 平方(R-sq 或 R2):可解释变化百分比 (%),R 平方 =

2、 R-sq 测量 Y 值变化的百分比,该变化通过与 X 的线性关系来解释。 范围从 0 到 1(= 0% 到 100%) 尝试使用下面的图理解可解释的变化。*,讨论:解释 R 平方 (R2),1.从密封强度数据求得的 R-Sq 值是多少? 2.它表示什么含义? 3.您对压盘温度加热到 250 F 时所预测的密封强度把握有多大?,讨论:答案,1. 从密封强度数据求得的 R-Sq 值是多少? 83.3% 2. 它表示什么含义? 密封强度几乎有 85% 的变化都可通过压盘温度来解释。大约有 15% 的变化是无法解释的。 3. 您对压盘温度加热到 250 F 时所预测的密封强度把握有多大? 由于 25

3、0 F 在研究的数据范围内(我们无需外推),而且由于 R2 相当大,因此我们对密封强度的预测相当满意。,相关性 (r):关系的“强度”,相关性 r: 范围从 1 到 1 r = 1=完全负(或反)相关 r = 0=无线性关系 r = +1=完全正相关 测量关系的“强度”(密切) R2 等于 r 的平方 称为 Pearson 相关系数,相关性 (r):关系的“强度”(续),注意:如果斜率 b1 = 0 ,则 r = 0。否则斜率值 b1 和相关性值 r 之间没有关系。,练习:求相关系数 (r),目的:练习使用 Minitab 求相关系数并对其进行解释。 时间:2 分钟 数据:打开文件【HT_Fo

4、ilSeal.mtw】 要求:使用 Minitab 求密封强度和压盘温度之间的相关性: 统计 基本统计量 相关 1.r 的值是多少? 2. 用计算器检查拟合图的 r2 = R-Sq 是否成立。,练习:答案,问题 1:Minitab 输出 问题 2 r2 = (0.913)2 =0.834,相关性 (Pearson) 密封强度 (g/cm2) 和温度 (F) 之间的相关性 = 0.913 , P 值 = 0.000,小心!相关性并不表示因果关系,当散点图上的两个变量显示某种关系时,则称它们是相关的,但这并不一定表示它们有因果关系。 相关性表示两件事情一起变化 因果关系表示一个变量的变化将造成另一

5、个变量的变化 示例 1,两个变量都受第三个变量年龄的影响,40,42,44,46,48,50,52,54,56,58,0,2,4,6,8,10,12,身高(英寸),读书水平(年级),小心!相关性并不表示因果关系(续),示例 2,发票周期,部门 A,部门 B,发票上的错误数,原始,分层,发票上的错误数,将图分层后,我们看不到相关性,而是看到了由于部门的不同造成的差异,检查 X 变量的范围 如果 X 的范围过窄,可能会看不出关系。在正常的情况下,雇员有 20 至 30 名,这种情况的数据虽然较多,该小组最初却省略这种情况以外的数据。,按其它离散变量分层 将图分层后,我们看到了原本不明显的关系。,小

6、心!没有相关性并不表示没有因果关系,如果在您希望看到一种关系时,却没有关系出现:,职员数,候时间,电话等,20,30,A,B,发票上的错误数,部门,发票,周期,应用到您的企业,目的:练习将回归应用到您的企业。 时间:5 分钟 要求:思考您的企业中可能彼此相关的两个变量(连续、离散计数或离散百分比)。 1.X 是哪一个变量?(输入变量可望用来控制或处理它以影响 Y,或者至少使用它来预测 Y) 2.Y 是哪一个变量?(输出变量对您的客户而言很重要的测量数据) 3.总结这些变量: X: _数据类型: _ 是否可控制?_ Y: _数据类型: _ 4.回归方程式对您是否有用? 5.要求自愿者向整个组发表

7、自己的看法。,回归类型,回归假设:残差,关键的回归假设基于残差(而不是原始数据)的属性。我们假设残差: 与 X 无关 稳定而且独立, 不随时间变化 是常量,不随预测的 Y 增加 而增大 是正态的(钟形的), 平均值为 0,使用 Minitab:回归分析,数据:打开文件HT_FoilSeal.mtw 第一部分:拟合方程式并检查残差 1. 使用 Minitab 对密封强度和压盘温度进行回归分析。 统计 回归 回归,响应= Minitab 的 Y 名称,预测变量 = Minitab 的 X 名称,如果没有异常值,值范围从 -3 到 3,将 X 变量放在此处,使用 Minitab:回归分析(续),Mi

8、nitab 的预测Y 或拟合 Y 的名称,使用 Minitab:回归分析(续),2.首先检查残差图。是否有问题,或这些假设有效?,使用 Minitab:回归分析(续),180,190,200,210,-3,-2,-1,0,1,2,3,4,5,拟合值,标准化残差,残差对拟合值 (响应是密封 (g/),50,100,150,200,-3,-2,-1,0,1,2,3,4,5,观测顺序,标准化残差,残差对数据顺序 (响应是密封 (g/),200,250,300,-3,-2,-1,0,1,2,3,4,5,温度 (F),标准化残差,残差对温度 (F) (响应是密封 (g/),如果只有一个 X 变量,这两个

9、图中的模式将是相同的,看起来有一个模糊的模式(波浪形或循环)。与时间有关的什么变量可能造成这种现象?尽量找到它并将它添加到回归分析中。稍后我们将说明如何识别此变量。,变化随温度升高略有增大。这看起来似乎是合理的,但固定变异数的假设并不完全成立。您可以尝试对 Y 求平方根进行变换。我们将在本节稍后介绍此方法。,使用 Minitab:回归分析(续),问题 2 的答案(续),-3,-2,-1,0,1,2,3,4,5,-3,-2,-1,0,1,2,3,正态值,标准化残差,残差的正态概率图 (反应是密封 (g/),-4,-3,-2,-1,0,1,2,3,4,5,0,10,20,30,40,50,标准化残

10、差,频率,残差直方图 (响应是密封 (g/),有一条直线几乎通过所有的点,这表示残差呈正态分布。仔细检查极端数据点。确定是将它们留在那里还是将它们去掉。,残差看起来似乎为正态分布(好)。,使用 Minitab:回归分析(续),下几步 A. 尝试找到另一个与时间有关的变量(如湿度、压力、每日设置等)并进行多重回归分析。 B. 尝试进行平方根变换,看看是否它改进了残差的不变性。 C. 检查异常值(即大的残差)。 为了教学的目的,我们先进行 #C,然后进行 #A 和 #B。,使用 Minitab:回归分析(续),3.检查工作表,找出存储的残差和预测的 Y。将它们与方程式和图中显示的实际数据联系起来。

11、 a.当压盘温度为 208时预测的密封强度是多少? b.检查第一行:是否残差 = 观测的 Y 预测的 Y? c.为何第 11 行和第 12 行的残差不同(尽管每行中的 X = 295)?,使用 Minitab:回归分析(续),不正常的观测数据,Minitab 标记不正常的观测数据,这样您可以: 检查它们是否有错误 研究是否发生了不正常的事件 去掉这些数据重新运行回归分析,以确定系数(b0 和 b1)变化有多大 如果系数变化很大,您必须确定是否将这些不正常的观测数据用于建立回归方程式 回归线应清楚地表示 X 和 Y 之间的关系 清除某些观测数据可能减小 X 数据的范围 如果不清除某些真正的异常值

12、,可能会不合理地影响回归方程式,大的标准化残差,如果标准化残差 (St. Resids.) 2 ,Minitab 将把它标记出来。 我们使用下面的经验法则: 检查标准化残差是否大于 +3 或小于 3 当平均值 = 0 且标准偏差 = 1 时,标准化残差应为正态分布,大的标准化残差(续),从正态分布的属性预期大约有 5% 的 标准化残差大于 +2 或小于 2。 示例: 对于 n = 240 5% = 12 估计有 12 个标准化残差 +2 前面显示的 Minitab 输出显示有 10 个标准化残差 +2。这不是不正常的。 其中只有两个标准化残差 +3(值 3.07 和 4.29) 检查这些观测数

13、据有无错误、特殊现象以及它们对直线的影响(系数) 。在图中用圆圈把它们圈起来。 确定是除去其中一个还是两个数据都除去,并重新进行回归分析。(我们将保留它们。),影响较大的观测数据,影响较大的点通常位于 X 轴的任一端 回归线取决于这些影响较大的点是保留在数据集中还是从数据集中除去,使用 Minitab:回归分析(续),第二部分:处理不正常的观测数据(续) 7a. 将 C5 (Y) 复制到 C10,并将它命名为 Ymissing。编辑 C10 观测数据 1、49、98、121、122、145、169、193:用 *替换这些值(将它们标记为缺少的值)。 7b. 用 Ymissing 重新进行回归分

14、析。(关闭所有的残差图)。,使用 Minitab:回归分析(续),第二部分:处理不正常的观测数据(续) 7c. 重叠两条回归线: Graph Plot (Fits1 vs. Temp) & (Fits2 vs. Temp) Frame Multiple plots overlaygraphs on same page 7d. File Save Current Worksheet As Seal2 结论:右侧(温度 250)的预测值没有很大的变化。8 个有影响的点将左侧(温度 250)的直线略微向上拉。在该范围内这是一种更好的预测。因此,保留所有的数据并使用由 240 个观测数据得出的方程式。

15、 (在第二次回归分析中,其它影响较大的点标记在低温 (214, 217, 220) 处,但由于类似的原因我们也保留了它们)。,温度 (F),第三部分:获得残差图的其它方法 使用储存在工作表中的残差列 a.获得残差的正态概率图 Graph Probability Plot (选择 RES1 或 SRES1;或者 works。) b.残差是否为正态分布? 结论 是,残差是正态分布。尾部有几个我们已研究过的异常值。,使用 Minitab:回归分析(续),Minitab 回归输出的更多信息,区域 1:用于计算个别系数的值 结论 b0(截距)远大于 0 通常,因为 X 总不为 0 ,所以有关截距的信息不

16、象有关斜率的信息那样令人感兴趣因此它没有实际意义 b1(斜率)远大于 0 X(温度)与 Y(密封强度)有明显的线性关系,Minitab 输出:区域 1,解释回归中的 P 值,对于模型中的每个 Xi 项: 虚假设: H0i:斜率 = 0 (或) 当 X 变化时 Y 没有变化 (或) Y 与 X 之间的关系方程式是 Y = 替代假设: Ha:斜率 0 (或) Y 随 X 变化而变化 (或) Y 与 X 之间的关系方程式是 :,解释回归中的 P 值(续),如果 pi .05 不要拒绝 H0 没有足够的证据说明统计上存在显著的斜率 如果存在真实的斜率,则变化太大或样品数量太小,以致无法检测到它 如果

17、pi .05 拒绝 H0,采用 Ha 统计上存在显著的斜率 措施:估计关系的重要性(是否有进一步采取措施的充分理由?),Minitab 输出:区域 2,区域 2:用于观察可解释的和无法解释的变化,S = 4.195R-Sq = 83.3%R-Sq(adj) = 83.2,直线四周剩余的或无法解释的变化的标准偏差:1 st. dev. = 4.2 grams/cm2,调整模型中的 X 数目。(实质上与只有一个 X 的 R-sq 相同。)稍后将在多重回归中讨论。,可解释的变化百分比 (%),Minitab 输出:区域 3,区域 3:用于从整体角度评价回归模型 结论 线性模型解释显著的变化。(或者说

18、,“密封强度”中的显著变化可通过它与压盘温度之间的线性关系解释。),Analysis of Variance SourceDF SS MS F P Regression 12091420914 1188.65 0.000 Residual Error 238 4187 18 Total 23925101,可解释的变化显著性测试,n 1,可解释的 无法解释的,of variation,置信区间和预测区间,置信区间 C.I. = 可能包含“最佳拟合”直线的区间。 如果再次重复回归分析,可定出拟合 Y 的预测值范围。 基于给定的 X 值 对于给定的置信度而言,预测区间 P.I. = 可能包含给定 X

19、 的实际 Y 值的区间 定出可能的实际 Y 值范围 基于给定的 X 值 对于给定的置信度而言,使用 Minitab:回归分析(续),第四部分:计算置信区间和预测区间 继续进行先前开始的数据分析 9a. 计算压盘加热到 275 F 时密封强度的置信区间和预测区间: Stat Regression Regression (使用原始的 Y Seal g/cm2) Options:,使用 Minitab:回归分析(续),我们 95% 确信在压盘温度为 275时, 198.5 到 199.6 包含密封强度的最佳拟合(估计),我们 95% 确信在压盘温度为 275时,密封强度将在 190.7 和 207.

20、3 g/cm2 之间,预测值,拟合,标准偏差拟合,95.0% CI 95.0% PI,199.027 0.272 ( 198.490, 199.563) ( 190.746, 207.307),Minitab 输出(您必须记住您选择的 X 值本例中 X = 275),使用 Minitab:回归分析(续),第四部分:计算置信区间和预测区间(续),9b. 计算包含置信区间和预测区间的拟合直线图,Stat Regression Fitted Line Plot (使用原始 Y Seal g/cm2) Options (同时选择置信区和预测区),小心!应始终将数据绘制成图,没有绘制数据,就不要进行回归

21、分析。 示例:四个 X, Y 数据集 每个有相同的汇总统计数据 相同的 X 平均值 相同的 Y 平均值 相同的 r(相关性) 每个有相同的回归方程式 Y = 3.0+ 0.5X,小心!应始终将数据绘制成图(续),示例:四个 X, Y 数据集(续) 相同的回归方程 Y = 3 + .5X 四种完全不同的关系。直线模型最能代表哪一个数据集?,0,5,10,15,20,0,5,10,15,法则,将数据绘制成图,“图形的优点在于可清楚、准确而且有效地表达复杂的意念它 可以在最短的时间、用最少的语言、在最小的空间中给读者提供最多的意念。” Edward R. Tufte,用图来: 研究 分析 报告结果,

22、使用 Minitab:回归分析(续),第五部分:检查原始数据图 返回到先前开始的数据分析 10.绘制原始数据图 (本页和下页显示这些图)。 在进行回归分析之前了解此信息有用吗?,使用 Minitab:回归分析(续),按“星期几”分层的散点图。我们没有看出任何模式。,星期一,星期二,星期三,星期四,星期五,200,250,300,175,185,195,205,215,225,温度 (F),密封强度 (g/cm2),使用 Minitab:回归分析(续),第五部分:检查原始数据图(续) X 和 Y 变量是按全部 10 天内 30 分钟的时间增量(12 小时一班,有 24 个时段)绘制的。它显示这两

23、个变量如何随一天各个时段发生变化。什么因素造成这种形状?压盘缓慢地加热,最后稳定在 300。可能应该花更多精力来控制压盘温度,以达到理想的密封强度并减小变化。回归分析向我们显示出这种关系。,使用 Minitab:回归分析(续),按时间顺序绘制的分层残差图显示与不同日子相关的另一个变量影响了结果。它可能是压力、湿度、每日设置等。应收集其它数据并并入回归分析中,以帮助预测密封强度。,星期一,星期二,星期三,星期四,星期五,50,100,150,200,-3,-2,-1,0,1,2,3,4,5,指数,SRES1,回顾假设,在回归分析中: 所有假设都是关于残差的 没有对 X 或 Y 作假设 X 和 Y

24、 不须是: 钟形的(正态) 稳定的(一段时间)* 随机的 无关的(实际上我们认为 X 与 Y 是相关的),警告、假设和学习要点的总结页,进行回归分析之前先绘制数据 残差需要显示某些属性,才可正确地进行回归分析 将输入过程数据代入回归方程式,可用于预测(或者可能处理)输出数据,复习:解释回归输出(一个 X),回归过程的五个步骤:概述,下面概述进行简单线性回归的过程 (一个输入或 X 变量):,观察图形,观察描述性统计数据,线性或曲线?,一个 X 还是多个 X?,是否进行变换?,离散 X,离散 Y?,进行回归,观察残差图,观察不正常的观测数据,观察 R-Sq,观察 b 的 P 值,1,预测感兴趣的 X 值,1. 熟悉数据,3.,使模型拟合 数据,拟合得很好,不适当的拟合,检查关于残差的假设,复习回归,本单元讲述了: 回归是用于改进的高级工具 回归分析通过使一条线与数据拟合,来量化一个输出测量 (Y) 与一个或多个输入测量或过程测量 (X) 之间的关系 回归分析生成一个方程式,以: 说明 Y 值的变化 允许我们预测控制过程变量 (X) 的影响 允许我们对某些 X 值预测未来的过程性能 有助于识别影响 Y 的几个关键 X,总结:回归,“所有模型都是错误的, 但其中有一些是有用的。” George Box,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 科普知识


经营许可证编号:宁ICP备18001539号-1