统计建模课程复习与练习剖析知识讲解.docx

上传人:scccc 文档编号:13441429 上传时间:2021-12-25 格式:DOCX 页数:19 大小:406.31KB
返回 下载 相关 举报
统计建模课程复习与练习剖析知识讲解.docx_第1页
第1页 / 共19页
统计建模课程复习与练习剖析知识讲解.docx_第2页
第2页 / 共19页
统计建模课程复习与练习剖析知识讲解.docx_第3页
第3页 / 共19页
统计建模课程复习与练习剖析知识讲解.docx_第4页
第4页 / 共19页
统计建模课程复习与练习剖析知识讲解.docx_第5页
第5页 / 共19页
点击查看更多>>
资源描述

《统计建模课程复习与练习剖析知识讲解.docx》由会员分享,可在线阅读,更多相关《统计建模课程复习与练习剖析知识讲解.docx(19页珍藏版)》请在三一文库上搜索。

1、统计建模复习题1 .统计建模的主要步骤有哪些?1明确问题2数据收集3数据预处理4模型构建5模型估计6模型检验7结果分 析8撰写论文2 .试列举至少5个常用的统计数据库?例如,中经网统计数据库。1国家统计数据库2中国经济网数据中心 3 OECD数据库4国研网数据库5国家发改委6世界银行7中国统计年鉴、 WIND数据库、BvD数据库3 .试列举至少4项国内广泛使用的微观数据库?并简要说明。1. CHIP数据(中国农村和城市居民家庭收入分配)2. CHNS (中国健康与营养调查)3. CHARLS (中国健康与养老追踪调查)4. CFPS (中国家庭动态调查)5. CHFS (China Healt

2、h and Fertility Survey )中国健康与生育调查4 .常见的模型估计方法有哪些?试列举之。最小二乘(OLS)法、极大似然估计、广义矩( GMM )法、分位数回归方法、贝 叶斯估计5 .在完成统计模型的参数估计后,通常需要进行哪几类检验?试列举之。定性检验,T检验,f检验,拟合优度检验,预测精度检验6 .著名统计学家博克斯(George Box)说过:所有的模型都是错的,但其中有一些模型是有用的! 你对这句话如何理解?模型只能是客观世界的一种近似,是现实的简单化或理想化。有用的模型能抓住 并凸显现象中与分析目的最相关的特征,能抓住问题的本质。7 .简述结构方程模型和普通回归模型

3、的区别?结构方程模型,是一种建立、估计和检验多个变量之间的因果关系模型的方法。模型中既包含有可观测的显变量,也可能包含无法直接观测的潜变量。普通回归模型属于单方程模型方法,结构方程模型属于联立方程模型方法,回归分析只能处理显性变量,而结构方程模型可以发现潜在变量。普通回归一般只有 一个因变量,而且是单向的,SEM则是可单,可双,普通回归是基础,SEM是后来的发展和完善8 .和普通回归模型相比,结构方程模型有哪些优点?1允许回归方程的自变量含有测量误差2可以同时处理多个因变量3 .可以在一个模型中同时处理因素的测量和因素之间的结构。4 .允许更具弹性的模型设定。9 .结构方程模型的构建包括哪几步

4、?1模型假设:SEM是一种验证性的方法,必须有理论支撑。在进行模型估计之前, 要先根据理论分析或以往研究成果来设定初始理论模型。2 .模型识别:确定所设定的模型是否能够对其估计求解。3 .模型彳计:极大似然法(Maximum likelihood )和广义最小二乘法(Generalized least square)4 .模型评价:对模型的整体和参数的估计值进行评价。如果模型拟合效果不佳,对 模型进行修正后重新估计和评价。10 .观察变量、潜在变量测量变量:也叫观察变量或显变量(显示变量),是可以直接测量的指标。潜变量:无法直接观测,其测量是通过一个或几个可观察指标来间接完成的。11 .测量模

5、型、结构模型、结构方程式:=仅7+辖+ 4 依变量的测量方程:丫 = %" + £自变量的测量方程:X = R + 3堂建雪址观赛变过识在变址同不支一援(VJ工作挑战(Y J测量模型典型的SEM模型图示典型的SEM模型图示Error /Uniqueness 测量误差潜变量内Endogenous latentExogenousLatent ariabk 外生潜变立Akiisiirtd a viable 测量变量Measurement Modt测量模型Measurement Model测量模型:观察值时潜在变量之间的关系Structural Model结构模型:因素与因素间的关

6、系12 .外生变量、内生变量外生变量:在模型或系统中,只影响其他变量,而不受其它变量的影响。在路径图中,只有指向其他变量的箭头,没有箭头(不考虑残差项)指向它的变 量内生变量:在模型或系统中,受其他变量(外生变量或内生变量)的影响,而不 受其它变量的影响。在路径图中,有其它变量的箭头指向它。13 .因果关系、相关关系因果关系:一个变量对另外一个变量的直接影响。用单向箭头表示。相关关系:双向曲线箭头表示。但这种相关关系不代表有因果关系。因果关系需要更严密的证明。例如,常吃鱼的学生学习成绩更好。二者是相关关 系,但不一定具有因果关系。14 .直接效应、间接效应和总效应直接效应:反映原因变量(外生变

7、量或内生变量)对结果变量(内生变量)的直 接影响。其大小等于原因变量到结果变量的路径系数。间接效应:反映原因变量通过一个或者多个中间变量对结果变量所产生的影响。间接效应是所有从原始变量出发,通过中间变量,结束于结果变量的路径系数乘积之和。总效应:原因变量对结果变量效应的总和,包括直接效应和间接效应。15 .饱和模型与非饱和模型预设模型(Default model):所建立的模型。饱和模型(Saturated model):对参数间关系最无限制的模型,各个变量间都假设 相关或有因果关系。独立模型(Independence model):指模型中所有变量完全独立。只估计观测变 量的方差。也叫零模型

8、。如果“预设模型”拟合的比“独立模型”还差,就应该拒绝预设模型。通常预设模型的拟合优度在独立模型和饱和模型之间。16 .简述内生变量和外生变量的区别。内生变量是由模型系统决定的,同时也对模型系统产生影响,外生变量影响系统但 不受系统影响.外生变量一般是经济变量,条件变量,政策变量,虚变量17 .简述路径系数和载荷系数的区别。:潜变量与潜变量间的回归系数称为路径系数,潜变量与可观测变量间的回归系数称为载荷系数。18 .在结构方程模型中, Default model (预设模型)、Saturated model (饱和模 型)、Independence model (独立模型)三类模型有什么区别,

9、并举例说明。预设模型(Default model):所建立的模型。饱和模型(Saturated model):对参数间关系最无限制的模型,各个变量间都假 设相关或有因果关系。独立模型(Independence model):指模型中所有变量完全独立。只估计观测变 量的方差。也叫零模型。如果“预设模型”拟合的比“独立模型”还差,就应该拒绝预设模型。通常预设 模型的拟合优度在独立模型和饱和模型之间。19 .比较验证性因子分析(CFA)与探索性因子分析(EFA)的区别。探索性因子分析(CFA):针对已有数据,探索模型中变量之间的关系。目的在 于探索。样本量应超过100,应该为观测变量的 5-10倍以

10、上(Hair, 1998 )验证性因子分析(Confirmatory Factor Analysis, EFA ):验证根据理论预设的模 型中,若干变量之间的关系是否成立。目的在于验证。样本量至少150个(Rigdon, E. , 2005),至少为观测变量数目的 10-15倍以上 (Thompson, 2000)20 .简述PLS-PM模型与SEM模型的区别,比较二者的优缺点。PLS-PM不对数据做任彳5分布假定,而SEM必须假定数据为多元正态分布。但学 界往往忽视此点,误用 SEM模型。在实际应用中,往往统计不显著也都判定显著, 这是因为数据很难满足正态性假定。在正态假定下,PLS估计是有

11、偏的;但在非正态条件下,PLS-PM优于SEM。PLS-PM适用于小样本;SEM样本量必须较大。PLS-PM假定所有隐变量都是相关的(即使在图中它们之间无箭头),而 SEM假 定,只要隐变量之间无箭头,就认为它们之间的相关为零;PLS-PM用全部数据建模,而 SEM由于假定了分布,只要有各变量的协方差矩阵 就可以计算。例如,4个观测变量,只需协方差及样本量n,共11个数就可以得到大量输出结果,这意味着先验假定对结果影响较大。由于软件支持,而且只要有协方差阵即可计算,社会学、心理学、教育学等学者偏好SEM方法。PLS-PM和SEM的检验评价指标不同;PLS-PM适用于关注隐变量得分的情况(例如满

12、意度指数),各国计算满意度指 数都用PLS-PM方法。SEM无法直接得到隐变量得分。PLS-PM收敛速度快,适用于较大、较复杂的模型,计算效率比SEM更高。PLS-PM无商业软件支持,知名度低;SEM有LISREL、AMOS等软件支持,知名度局。21 .季节调整的分解方式包括哪几种模型?加法模型的一般形式为匕=+ s + it乘法模型的一般形式为匕=X S/X /J对数加法模型是通过对乘法模型取自然时数得到的特殊形式的加法 E式为In匕=lnTC + lnS,伪加法模型是由英国中央统计局研究开发的.其一般形式为 匕=TCt(Sr + It - D22 .在季节调整过程中,什么时候选择取对数?什

13、么时候不取对数?乘法模型取对数,加法模型不取对数针对某个序列而言,数据波动明显取对数,数据波动平稳不取存在异方差的时候必须取对数23 .指数平滑包括哪几种常用的方法,并指出每一种指数平滑方法的适用条件。(1)单指数平滑(一个参数)这种单指数平滑方法适用于序列值在一个常数均值上下随机波动的情况,无趋势及季节要素。(2)双指数平滑(一个参数)这种方法是将单指数平滑进行两次(使用相同的参数)。适用于有线性趋势的序 歹U。(3) Holt-Winters 一无季节趋势(两个参数)这种方法适用于具有线性时间趋势、无季节变差的情形。这种方法与双指数平滑法一样以线性趋势无季节成分进行预测。双指数平滑法只用了

14、一个参数,这种方 法用两个参数。(4) Holt-Winters加法模型(三个参数)该方法适用于具有线性时间趋势和加法模型的季节变差。(5) Holt-Winters 乘法模型该方法适用于具有线性时间趋势和乘法模型的季节变差24 .在机器学习中,常用的分类方法有哪些?监督学习:1. K近邻2.回归3.支持向量机回归(SVM ) 4 .决策树5.朴素贝叶斯 6.人工神经网络非监督学习:1.聚类 2.Apriori 3.FP-growth25 .举例说明决策树的基本思想及其优势。基本思想:决策树学习采用的是自顶向下的递归方法,其基本思想是以信息嫡为 度量构造一棵嫡值下降最快的树,到叶节点处的嫡值为

15、零,此时每个叶节点中的 实例都属于同一类。优点:1决策树模型可以读性好,具有描述性,有助于人工分析;2效率高,决策树只需要一次构建,反复使用,每一次预测的最大计算次 数不超过决策树的深度。26 .交叉验证的基本思想是什么?常见的交叉验证方法有哪些?基本思想:将原始数据进行分组,一部分做为训练集(train set),另一部分做为验证集(validation set)。首先,用训练集进行训练,然后,利用验证集来测试训练得 到的模型,以此来做为评价分类器的性能指标。主要分类:Hold-Out方法、K折交叉验证、留一交叉验证27 .结合图形,解释 Adaboost和Bagging方法的原理,并比较二

16、者的区别。AdaBoost算法原理:boosting提升法的一种特例,试试调节抽样权重的过程bagging回归的做法:不断放回地对训练样本进行再抽样,样本量和原来样本量相同;对每个自助样本都建立一棵回归树;对于每一个观测,每棵树给一个预测;将这些值进行投票(分类问题)或者求平均值(回归问题)作为最终的预测AdaBoost和bagging都是在若干分类器基础上的一种集成算法,区别在于,如果 一个训练样本在前一个分类器中分类犯错,那么在下一次抽样过程中,它的权重 会被加重;相应地,被正确分类的样本的权重会下降。AdaBoost算法的原理八-T2(x)TT f 、MBIM.IB.f Ph J &qu

17、ot;Tf 17一 /sign28.比较随机森林分类算法和决策树算法的区别,解释随机森林的原理变量又进行了随机抽样原理:从样本集中用自助法选出 n个样本;选择最佳分割属性作为节点建立决策树。这些决策树的每一个树节点的分割变量 不是由所有的自变量竞争产生的,而是从随机选取的少数变量中产生的。重复以上两步 m次,即建立了 m棵决策树。这m个决策树形成随机森林,通过投票表决结果,决定数据属于哪一类。随机森林的特点:决策树的样本是随机的,每棵树的每个节点的产生也是随机29 .结合图形,解释支持向量机(SVM)方法的原理。把图弄明白 找出两块边界,最宽的平行线上的点叫支持向量在线性可分情况下,在原空间寻

18、找两类样本的最优分类超平面。在线性不可分的情 况下,加入了松弛变量进行分析,通过使用非线性映射将低维输入空间的样本映射 到高维属性空间使其变为线性情况,从而使得在高维属性空间采用线性算法对样本 的非线性进行分析成为可能,并在该特征空间中寻找最优分类超平面。其次,它通 过使用结构风险最小化原理在属性空间构建最优分类超平面,使得分类器得到全局 最优,并在整个样本空间的期望风险以某个概率满足一定上界。30 . Bootstrap 的定义。bootstap(自助、自举、鞋裨):一种从给定训练集中等概率、有放回的进 行重复抽样,也就是说,每当选中一个样本,它等可能地被再次选中,并 被再次添加到训练集中。

19、31 .结构方程模型。关于结构方程模型的内容,请认真学习两个案例“超市满意度模型”和“收入满 意度模型”。画出两个图,标准化和非标准化的结果图,并给出部分文本输出结果:1收入状况-.14.00 e13图13.03e1014.39-1.85目前快乐-.01.00收入状况个体状况e12-.05e10目前快乐-.54.34-.14, e13图2Estimates (Group number 1 - Default model)Scalar Estimates (Group number 1 - Default model) Maximum Likelihood EstimatesRegression

20、 Weights: (Group number 1 - Default model)Estimate S.E. C.R. P Label个体状况<-收入状况.000.000-2.651.008社会状况<-收入状况-.001.000-3.600*亲友状况_1<-个体状况1.000回归系数家庭环境1<-个体状况.1418.536*1.203个性状况_1<-个体状况1.882.1989.519*地位满总_1<-社会状况1.000公正安逸_1<-社会状况1.211.09912.215*收入满总_1<-社会状况1.124.09711.556*期望收入_1&

21、lt;-收入状况1.000资产1_1<-收入状况.630.01251.412*收入1_1<-收入状况.108.00255.311*目前快乐_1<-社会状况-1.851.192-9.622*目前快乐_1<-个体状况-.308.342-.900 .368目前快乐_1<-收入状况.000.000.442 .658健康环境_1<-个体状况1.865.1999.374*工作涡思1<-社会状况.898.04818.622*Standardized Regression Weights: (Group number 1 - Default model)Estimat

22、e个体状况<-收入状况-.105社会状况<-收入状况-.142亲友状况_1 <-个体状况.353家庭环境_1 <-个体状况.508个性状况_1 <-个体状况.795地位满总_1 <-社会状况.784公正安逸_1 <-社会状况.446收入满总_1 <-社会状况.421期望收入_1 <-收入状况.966资产1_1<-收入状况.902收入1_1<-收入状况.921目前快乐_1 <-社会状况-.544目前快乐/<-个体状况-.048目前快乐_1 <-收入状况.013健康环境1 <-个体状况.6961Estimat

23、e工作满总_1 <-社会状况.702Covariances: (Group number 1 - Default model)EstimateS.E.C.R. P Labele12 <-> e13.136.0178.129 *e5 <-> e9-.144.424-.339 .734e7 <-> e138.3301.3766.052 *Correlations: (Group number 1 - Default model)Estimatee12 <-> e13.667e5 <-> e9-.013e7 <-> e13

24、.310Variances: (Group number 1 - Default model)Estimate S.E. C.R. P Labele1125915.4011299.844 19.937 *e12.108.022 4.957 *e13.386.031 12.492 *e1.767.037 20.820 *e2.455.023 19.571 *e3.226.020 11.072 *e4.247.019 12.749 *e52.321.114 20.315 *e62.304.112 20.506 *e71876.554240.245 7.811 *e82360.156139.379

25、16.933 *e953.5223.543 15.106 *e103.031.161 18.837 *e14.404.026 15.533 *e15.326.020 16.188 *Squared Multiple Correlations: (Group number 1 - Default model)R2Estimate收入状况 社会状况 个体状况工作满思_1 健康环境_1.000 .020 .011 .493 .485Estimate目前快乐 1.335收入1_1.849资产1_1.813期望收入_1.932收入满息.177公正安逸_1.199地位满总.615个性状况_1.632家庭环

26、境_1.258亲友状况_1.125Model Fit SummaryCMINModelNPARCMINDFPCMIN/DFDefault model3191.41347.0001.945Saturated model78.0000Independence model124858.12066.00073.608RMR, GFIModelRMRGFIAGFIPGFIDefault model2.015.984.974.593Saturated model.0001.000Independence model1887.425.507.418.429Baseline ComparisonsModelN

27、FIDelta1RFI rho1IFI Delta2TLI rho2CFIDefault model.981.974.991.987.991Saturated model1.0001.0001.000Independence model.000.000.000.000.000Parsimony-Adjusted MeasuresModelPRATIOPNFIPCFIDefault model.712.699.706Saturated model.000.000.000Independence model1.000.000.000NCPModelNCPLO 90HI 90Default mode

28、l44.41321.11975.501:Saturated model.000.000.000Independence model4792.1204567.1275023.774FMINModelFMINF0LO 90HI 90Default model.097.047.023.080Saturated model.000.000.000.000Independence model5.1795.1094.8695.356RMSEAModelRMSEALO 90HI 90PCLOSEDefault model.032.022.041.999Independence model.278.272.2

29、85.000AICModelAICBCCBICCAICDefault model153.413154.284303.602334.602Saturated model156.000158.192533.896611.896Independence model4882.1204882.4584940.2584952.258ECVIModelECVILO 90HI 90MECVIDefault model.164.139.197.164Saturated model.166.166.166.169Independence model5.2054.9655.4525.205HOELTERModelH

30、OELTER .05HOELTER .01Default model657744Independence model1719Minimization:.016Miscellaneous:.077Bootstrap:.000Total:.093由输出结果回答下面的问题:未标准化的系数是要的箭头指向谁谁是y(1) 写出某观测变量以及内生依变量模型的具体形式。其可决系数R2是多少? sq非标准化个体*1.00+e1 =亲友满意(2) 模型中包含哪些可观测的内生变量、不可观测的内生变量、不可观测的外生变量?试分别列举出来。12可观测内生 3椭圆不可观测内生15e不可观测外生(3) “收入状况”对“目前

31、快乐”的总影响?其中,直接影响是多少?间接影响是多少?标准化总=直接 + 间接:=【(-0.105) * (-0.048) + (-0.0142) * (-0.544) +0.013(4) “收入状况”、“个体状况”和“收入状况”的方差分别是多少?非标准化v收入 e11=25915.401 个体状况 e12=0.108 社会状况 e13=0.386(5) “个体状况”和“社会状况”对“目前快乐”的影响,谁大谁小?提示:主要考核标准化系数的效果看绝对值个体状况-0.048社会状况-0.54社会状况影响大!(6) 综合来看,该结构方程模型能否通过各项检验。简述其理由。看CR系数相当于t检验 绝对值

32、应该大于 2, P值小于0.05判断准则拟合指数绝对拟合指数L拟合优度指数工典整的拟合优度指敷IAGU1近似谖差均方根卧1 SEA)4均方根残差5mdf相对拟合指数也规范拟合指数於FI)7不规范拟合指数6NFDK增值拟合指数”H)9.比较拟含指数(CFD信息标准指数1(1赤池信息量准则(AK)11. 一致性赤池信息量准购AC1?期望交叉验证指数"CVD节也拟合指效以节俭拟合指数(PGFD取值在。-1之间.拟合好取值在0 7之间.例拟合好05拟合好:Q OB Q I。拟合一般;>010拟合不舒取值在0I之间.值越小越好.小于口 05姒合好<3拟合较好取值在之间.>Q叩

33、拟合好>a 9。拟合好>Q 90拟合好取值在01之间.>a叩拟合好取值越小拟合越好.无准确界限取值越小拟合越好,无准确界限取值越小拟合越好.无准璃界限14节俭观范拟合指拈(PNFDQ 90模型节俭90模型节值25 .修正指数和CR系数的应用实验模型修正MI值CR修正系数用于模型扩展,是指对于模型中某个受限制的参数,若允许自由估计,整个 模型改良时将会减少的最小卡方值。MI最大的进行修正,在之间加双箭头可降低卡方值。CR系数(临界比率)用于模型限制,计算模型中有一对待估计参数(路径或载荷系 数)估计值之差,并除以相应参数标准差之差构造的统计量。比较系数和系数之间有没有相等的关系

34、,>0.05说明不具有相等关系。26 .假设你需要帮助某银行设计一套方法来甄别恶意信用卡使用,请陈述你将如何做。可供你分析的数据有:100万条记录,其中有已识别的恶意使用记录5000条,占比0.5%;这些记录包含交易的商家、交易发生时间(time stamp),金额等。(1)数据预处理,对某些字段进行离散化或归一处理。(2)将恶意与正常交易记录分布按一定比例分成两堆,对应结合一起后形成训练样本 和测试样本。(3)对训练样本中正常交易记录进行聚类分析,形成K个类,类与训练样本的恶意交易记录结合形成K个子训练样本。(4)对每个子样本使用 Adaboost算法,弱分类器选择支持向量(5)分别评

35、价第四步得到的分类结果(6)用测试样本测试最终组合分类器,最终分类结果可以使用投票或结合权重进行判 断(7)评价模型,可以采用准确率、召回率或一类、二类错误等指标进行32.随着信息化的发展,大数据的时代已经到来。海量的文本、图片、视频数据存在 于互联网和生活上,请结合所学的统计学知识和个人兴趣,探讨机器学习在统计 学中的应用。互联网挖掘数据、检测垃圾邮件、探测金融市场的变化趋势、银行信贷客 户的审批网易云音乐通过对平常听歌的“风格”,“种类”等进行统计,系统会计 算出你可能喜欢的曲目并且推荐给你,根据你在每日推荐歌曲中的听歌情 况会再次计算,越来愈加趋近你的喜好。33.能够根据决策树的图形结果,进行分析和总结。经济含义34.选题与摘要写作。要求:用词准确、逻辑清晰、简明扼要。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 社会民生


经营许可证编号:宁ICP备18001539号-1