实验三统计回归模型Matlab求解.doc

上传人:李医生 文档编号:7195974 上传时间:2020-11-05 格式:DOC 页数:9 大小:297.01KB
返回 下载 相关 举报
实验三统计回归模型Matlab求解.doc_第1页
第1页 / 共9页
实验三统计回归模型Matlab求解.doc_第2页
第2页 / 共9页
实验三统计回归模型Matlab求解.doc_第3页
第3页 / 共9页
实验三统计回归模型Matlab求解.doc_第4页
第4页 / 共9页
实验三统计回归模型Matlab求解.doc_第5页
第5页 / 共9页
点击查看更多>>
资源描述

《实验三统计回归模型Matlab求解.doc》由会员分享,可在线阅读,更多相关《实验三统计回归模型Matlab求解.doc(9页珍藏版)》请在三一文库上搜索。

1、实验三: 统计回归模型Matlab求解一、实验目的1 通过范例学习建立统计回归的数学模型以及求解全过程;2 熟悉MATLAB求解统计回归模型的过程。 二、实验原理问题:一家技术公司人事部门为研究软件开发人员的薪金与他们的资历、管理责任、教育程度等因素之间的关系,要建立一个数学模型,以便分析公司人事策略的合理性,并作为新聘用人员薪金的参考。他们认为目前公司人员的薪金总体上是合理的,可以作为建模的依据,于是调查来46名软件开发人员的档案资料,如表4,其中资历一列指从事专业工作的年数,管理一列中1表示管理人员,0表示非管理人员,教育一列中1表示中学程度,2表示大学程度,3表示更高程度(研究生)编号薪

2、金资历管理教育编号薪金资历管理教育0113876111242288461202116081032516978711031870111326148038020411283102271740481105117671032822184813062087221229135488010711772202301446710010810535201311594210020912195203322317410131012313302332378010121114975311342541011121221371312351486111011319800313361688212021411417401372417

3、01213152026341338159901301161323140339263301312171288440240179491402181324550241256851513191367750342278371612201596551143188381602211236660144174831601222135261345192071702231383960246193642001分析与假设 按照常识,薪金自然随着资历的增长而增加,管理人员的薪金应高于非管理人员,教育程度越高薪金也越高。薪金记作y,资历记作x1,为了表示是否管理人员,定义:.为了表示3种教育程度,定义: 这样,中学用x3=

4、1,x4=0表示,大学用x3=0,x4=1表示,研究生则用x3=0,x4=0表示。假定资历对薪金的作用是线性的,即资历每加一年,薪金的增长是常数;管理责任、教育程度、资历诸因素之间没有交互作用,建立线性回归模型。基本模型 薪金y与资历x1, 管理责任x2,教育程度x3,x4之间的多元线性回归模型为 (1)其中是待估计的回归系数,是随机误差。MATLAB的统计工具箱基本函数regress:b,bint,r,rint,stats=regress(y,x,alpha) 输入:y: n维数据向量x: n5数据矩阵, 第1列为全1向量alpha: 置信水平,0.05输出:b: 参数估计值bint: b的

5、置信区间r : 残差向量y-xb rint:r的置信区间stats: 第一个数为残差平方即回归方程之决定系数 R2(R为相关系数)越接近1,回归方程显著;第二个数为统计量F检验的值,越大回归方程越显著;第三个数为F对应概率P,越接近零越好;第四个数是误差项的方差估计值在MATLAB命令窗口输入代码:y=13876;11608;18701;11283;11767;20872;11772;10535;12195;12313;14975;21371;19800;11417;20263;13231;12884;13245;13677;15965;12366;21352;13839;22884;1697

6、8;14803;17404;22184;13548;14467;15942;23174;23780;25410;14861;16882;24170;15990;26330;17949;25685;27837;18838;17483;19207;19346;x1=1;1;1;1;1;2;2;2;2;3;3;3;3;4;4;4;4;5;5;5;6;6;6;6;7;8;8;8;8;10;10;10;10;11;11;12;12;13;13;14;15;16;16;16;17;20;x2=1;0;1;0;0;1;0;0;0;0;1;1;1;0;1;0;0;0;0;1;0;1;0;1;1;0;1;1;0

7、;0;0;1;1;1;0;0;1;0;1;0;1;1;0;0;0;0;x3=1;0;0;0;0;0;0;1;0;0;1;0;0;1;0;0;0;0;0;1;1;0;0;0;1;0;1;0;1;1;0;0;0;0;1;0;0;1;0;0;0;0;0;1;0;1;x4=0;0;0;1;0;1;1;0;0;1;0;1;0;0;0;0;1;1;0;0;0;0;1;1;0;1;0;0;0;0;1;0;1;1;0;1;0;0;1;1;0;1;1;0;1;0;xb5=ones(46,1),x1,x2,x3,x4;b,bint,r,rint,stats=regress(y,xb5)可以得到回归系数及其置信区间

8、(置信水平a=0.05)、检验统计量R2,F,p结果,结果分析: R2=0.957,即因变量(薪金)的95.7%可由模型确定,F值远远超过F检验的临界值,p远小于a,因而模型(1)从整体来看是可用的。比如,利用模型可以估计(或预测)一个大学毕业、有2年资历、管理人员的薪金为模型中各个回归系数的含义可初步解释如下:x1的系数为546,说明资历每增加1年,薪金增长546;x2的系数为6883,说明管理人员的薪金比非管理人员多6883;x3的系数为-2994,说明中学程度的薪金比研究生少2994;x4的系数为148,说明大学程度的薪金比研究生多148,但是应该注意到的置信区间包含零点,所以这个系数的

9、解释是不可靠的。需要指出,以上理解是就平均值来说,并且,一个因素改变引起的因变量的变化量,都是在其它因素需不变的条件下才成立的。进一步的讨论的置信区间包含零点,说明基本模型(1)存在缺点。为寻找改进的方向,常用残差分析法(残差指薪金的实际值y与用模型估计的薪金之差,是模型(1)中随机误差的估计值,这里用了同一个符号)。为了对残差进行分析,作图给出与资历x1的关系(图1),%图1yj=11032+546*x1+6883*x2+(-2994*x3)+148*x4;eb=y-yj;plot(x1,eb,r+) 图1: e 与资历x1的关系 从图1中看出,残差大概分成3个水平,这是由于6种管理-教育组

10、合混在一起,在模型中未被正确反映的结果我们将影响因素分成资历与管理教育组合两类,管理教育组合的定义如下表把组合标号1,2,3,4,5,6作为变量X5,则由原数据可得x5=2;5;6;3;5;4;3;1;5;3;2;4;6;1;6;5;3;3;5;2;1;6;3;4;2;3;2;6;1;1;3;6;4;4;1;3;6;1;4;3;6;4;3;1;3;1;作图给出与管理x2教育x3,x4组合间的关系(图2)。%图2x5=2;5;6;3;5;4;3;1;5;3;2;4;6;1;6;5;3;3;5;2;1;6;3;4;2;3;2;6;1;1;3;6;4;4;1;3;6;1;4;3;6;4;3;1;3;

11、1;plot(x5,eb,r+)图2: e与管理教育组合的关系从图2看,对于前4个管理教育组合,残差或者全为正,或者全为负,也表明教育组合在模型中处理不当。在模型(1)中管理责任和教育程度是分别起作用的,事实上,二者可能起着交互作用,如大学程度的管理人员的薪金会比二者分别得薪金之和高一点。以上分析提示我们,应在基本模型(1)中增加管理x2与教育x3,x4的交互项,建立新的回归模型。更好的模型 增加x2与x3,x4的交互项后,模型记作利用MATLAB的统计工具箱xb7=ones(46,1),x1,x2,x3,x4,x2.*x3,x2.*x4;b,bint,r,rint,stats=regress

12、(y,xb7)得到的结果:可知,模型(2)的和F值都比模型(1)中的有所改进,并且所有回归系数的置信区间都不含零点,表明模型(2)是完全可用的。与模型(1)类似,做模型(2)的两个残差分析图(图11,图12),可以看出,已经消除了图1和图2中的不正常现象,这也说明了模型(2)的适用性。%图11yj=11204+497*x1+7048*x2-1727*x3-348*x4-3071*x2.*x3+1836*x2.*x4;eb=y-yj;plot(x1,eb,r+)%图12x5=2;5;6;3;5;4;3;1;5;3;2;4;6;1;6;5;3;3;5;2;1;6;3;4;2;3;2;6;1;1;3

13、;6;4;4;1;3;6;1;4;3;6;4;3;1;3;1;plot(x5,eb,r+)从图11、图12还可以发现一个异常点:具有10年策略、大学程度的管理人员(从表4可以查出是33号),他的实际薪金明显低于模型的估计值,也明显低于他有类似经历的其他人的薪金。这可能是由于我们未知的原因造成的。为了是个别的数据不致影响整个模型,应该将这个异常数据去掉,对模型(2)重新估计回归系数,得到的结果如表8,残差分析图见图13,图14。可以看出,去掉异常数据结果又有改善。%表8y=13876;11608;18701;11283;11767;20872;11772;10535;12195;12313;14

14、975;21371;19800;11417;20263;13231;12884;13245;13677;15965;12366;21352;13839;22884;16978;14803;17404;22184;13548;14467;15942;23174;25410;14861;16882;24170;15990;26330;17949;25685;27837;18838;17483;19207;19346;x1=1;1;1;1;1;2;2;2;2;3;3;3;3;4;4;4;4;5;5;5;6;6;6;6;7;8;8;8;8;10;10;10;11;11;12;12;13;13;14;1

15、5;16;16;16;17;20;x2=1;0;1;0;0;1;0;0;0;0;1;1;1;0;1;0;0;0;0;1;0;1;0;1;1;0;1;1;0;0;0;1;1;0;0;1;0;1;0;1;1;0;0;0;0;x3=1;0;0;0;0;0;0;1;0;0;1;0;0;1;0;0;0;0;0;1;1;0;0;0;1;0;1;0;1;1;0;0;0;1;0;0;1;0;0;0;0;0;1;0;1;x4=0;0;0;1;0;1;1;0;0;1;0;1;0;0;0;0;1;1;0;0;0;0;1;1;0;1;0;0;0;0;1;0;1;0;1;0;0;1;1;0;1;1;0;1;0;x5=2

16、;5;6;3;5;4;3;1;5;3;2;4;6;1;6;5;3;3;5;2;1;6;3;4;2;3;2;6;1;1;3;6;4;1;3;6;1;4;3;6;4;3;1;3;1;xb8=ones(45,1),x1,x2,x3,x4,x2.*x3,x2.*x4;b,bint,r,rint,stats=regress(y,xb8)%图13yj=11200+498*x1+7041*x2-1737*x3-356*x4-3056*x2.*x3+1997*x2.*x4;eb=y-yj;plot(x1,eb,r+)%图14plot(x5,eb,r+)三、实验内容(1) 解答实验原理中的问题:一家技术公司人事

17、部门为研究软件开发人员的薪金与他们的资历、管理责任、教育程度等因素之间的关系,要建立一个数学模型,以便分析公司人事策略的合理性,并作为新聘用人员薪金的参考。他们认为目前公司人员的薪金总体上是合理的,可以作为建模的依据,于是调查来46名软件开发人员的档案资料,如表4,其中资历一列指从事专业工作的年数,管理一列中1表示管理人员,0表示非管理人员,教育一列中1表示中学程度,2表示大学程度,3表示更高程度(研究生)编号薪金资历管理教育编号薪金资历管理教育011387611124228846120211608103251697871103187011132614803802041128310227174

18、048110511767103282218481306208722122913548801071177220230144671001081053520131159421002091219520332231741013101231330233237801012111497531134254101112122137131235148611101131980031336168821202141141740137241701213152026341338159901301161323140339263301312171288440240179491402181324550241256851513191

19、367750342278371612201596551143188381602211236660144174831601222135261345192071702231383960246193642001(2) 某大型牙膏制造企业为了更好地拓展产品市场,有效地管理库存,公司董事会要求销售部门根据市场调查,找出公司生产的牙膏销售量与销售价格、广告投入等之间的关系,从而预测出在不同价格和广告费用下的销售量。为此,销售部的研究人员收集了过去30个销售周期(每个销售周期为4周)公司生产的牙膏的销售量、销售价格、投入的广告费用,以及同期其它厂家生产的同类牙膏的市场平均销售价格,见表1 (其中价格差指其它

20、厂家平均价格与公司销售价格之差)。试根据这些数据建立一个数学模型,分析牙膏销售量与其它因素的关系,为制订价格策略和广告投入策略提供数量依据。表1 牙膏销售量与销售价格、广告费用等数据销售周期公司销售价格(元)其他厂家平均价格(元)价格差(元)广告费用(百万元)销售量(百万支)13.853.80-0.055.57.3823.754.000.256.758.5133.704.300.607.259.5243.603.700.005.507.5053.603.850.257.009.3363.63.800.206.508.2873.63.750.156.758.7583.83.850.055.257

21、.8793.83.65-0.155.257.10103.854.000.156.008.00113.904.100.206.507.89123.904.000.106.258.15133.704.100.407.009.10143.754.200.456.908.86153.754.100.356.808.90163.804.100.306.808.87173.704.200.507.109.26183.804.300.507.009.00193.704.100.406.808.75203.803.75-0.056.507.95213.803.75-0.056.257.65223.753.65

22、-0.106.007.27233.703.900.206.508.00243.553.650.107.008.50253.604.100.506.808.75263.704.250.606.809.21273.753.65-0.056.508.27283.753.750.005.757.67293.803.850.055.807.93303.704.250.556.809.26提示: x1=-0.05 0.25 0.60 0.00 0.25 0.20 0.15 0.05 -0.15 0.15 0.20 0.10 0.40 0.45 0.35 0.30 0.50 0.50 0.40 -0.05

23、-0.05 -0.01 0.20 0.10 0.50 0.60 -0.05 0.00 0.05 0.55;x2=5.5 6.75 7.25 5.50 7.00 6.50 6.75 5.25 5.25 6.00 6.50 6.25 7.00 6.90 6.80 6.80 7.10 7.00 6.80 6.50 6.25 6.00 6.50 7.00 6.80 6.80 6.50 5.75 5.80 6.80;y=7.38 8.51 9.52 7.50 9.33 8.28 8.75 7.87 7.10 8.00 7.89 8.15 9.10 8.86 8.90 8.87 9.26 9.00 8.75 7.95 7.65 7.27 8.00 8.50 8.75 9.21 8.27 7.67 7.93 9.26;X=ones(30,1) x1 x2 (x2.2);四、实验心得

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 科普知识


经营许可证编号:宁ICP备18001539号-1