调查问卷设计及处理.ppt_三一文库31doc.com

资源描述

《调查问卷设计及处理.ppt》由会员分享，可在线阅读，更多相关《调查问卷设计及处理.ppt（28页珍藏版）》请在三一文库上搜索。

1、数学建模基础,13194312736,第五章调查问卷设计及处理,调查问卷,从啤酒和尿布的故事开始，我们发觉简单的数据中可能存在无穷的奥秘，好奇心趋势越来越多的人投身到枯燥的数据中。在瀚如烟海的数据中，不论是科学研究还是商业调查，很大一部分数据是通过调查问卷的方式来获取的。在问卷星平台上，每天都会产生上万份问卷和100多万份答卷，但大部分用户的数据分析仅仅停留在简单的频率分析上。数据中隐藏的巨大价值，还等待着被人挖掘。,1 统计学基础及术语解释,P值：也称显著性值或Sig值，用于描述某件事情发生的概率情况，其取值范围介于01，不包括0或者1。在大多数情况下，如果P值小于0.01（0.05

2、或0.1），则说明某件事情的发生概率至少有99%（95%或90%）的把握。,量表：通常是指李克特量表，其用于测量样本人群对于某件事情的态度或者看法情况。量表的尺度形式有多种，常见的是五级量表，即有五个答项。,样本：通俗的讲即为填写问卷的人，对于样本的数量，通常情况下为量表题项的5倍或者10倍即可（无效样本在分析问卷前需要进行删除或者筛选）。,频数分析：通常会涉及样本、有效样本、频数、百分比、累计百分比、有效百分比等。,描述性分析：通常会涉及平均值、标准差、中位数等术语名词。,1.1 数据分析,1.2 信度和效度分析,信度分析：在于研究数据是否真实可靠，通俗地讲，即研究样本是否真实回答了问题，信

3、度分析只能分析量表题项。科隆巴赫系数：也称信度系数、内部一致性系数、Cronbach 系数或者系数，此值一般大于0.7即可。校正的项总计相关性，也称CITC值，此值大于0.4即说明某题项与另外的题项之间有着较高的相关性。,效度分析：用于研究题项是否有效地表达研究变量或者纬度的概念信息，通俗地讲，即研究题项设计是否合理，或者题项表示某个变量是否合适。内容效度：即使用文字叙述形式对问卷的合理性、科学性进行说明。结构效度：通常使用探索性因子分析（EFA）进行验证，通过因子分析对题项进行分析，如果输出显示题项与变量对应关系基本与预期一致，则说明结构效度良好。如果题项的因子载荷系数值小于0.4

4、，则应该考虑删除该题项； KMO值应大于0.6；巴特球形检验对应的P值应小于0.05；根据方差旋转矩阵确定提取因子数量，如果某题项与某个因子对应的因子载荷系数值较高，那么该题项应当归纳对应至该因子。,1.3 变量关系研究,相关分析：一种最基本的关系研究方法，其目的在于分析两个变量之间的相关关系，包括两者是否存在相关关系，以及相关关系的紧密程度。 Pearson和Spearman相关系数：描述先关关系程度，通常绝对值大于0.7说明两个变量之间表现出非常强的相关关系；当绝对值大于0.4时，说明相关关系强；当绝对值小于0.2时，说明相关关系较弱。,线性回归分析：研究X对于Y的影响关系分析方法，其

5、中X被称为自变量，Y被称为因变量。 R2或调整R2：代表X对于Y的解释力度，取值范围为01，该值越大越好。 F值：用于检验所有自变量X中至少有一个会对因变量Y产生影响的关系，若F值对应的P值小于0.05，则说明所有自变量X中至少有一个会对因变量Y产生影响关系。,Logistic回归分析：研究影响关系，即X对于Y的影响情况，此处涉及的Y是分类变量。 Hosmer和Lemeshow检验、Cox 综合得分表达式：F=30.636%*因子1+25.044%*因子2+22.378%*因子3 +21.941%*因子4；根据成分得分系数矩阵得出因子表达式：因子1=0.466*A1+0.313*A2+-0

6、.013*D2 因子4=-0.021*A1+0.037*A2+0.435*D2 根据上述公式计算最终综合得分,问题：什么是方差？为什么使用方差多权重？,样本值与平均值（期望）之差的平方值的平均数。表示数据的离散程度。,5 聚类样本类和非量表类问卷研究,什么是聚类什么是分类？两者有什么区别？,分类：按照某种标准给对象贴标签，在根据标签来区分归类；聚类：事先没有标签而通过成团分析找出食物之间存在的聚集性原因的过程。,聚类分析可以对样本进行分析也可以对题项（变量）进行分析，前者我们称之为Q型聚类，后者称之为R型聚类。聚类效果判断：,看聚类分析得到的每个类别是否可以进行有效的命名，是否符合现实意义

7、；,使用判别分析进行判断，判断聚类变量与类别之间的投影关系情况；,是否能科学详细的描述清楚聚类分析的使用过程；,看聚类分析后每个类别样本量是否均匀。,SPSS中聚类分析：在SPSS软件中，聚类分析可分为三种：两步聚类、K-均值聚类和系统聚类。,聚类分析方法特点对比,聚类分析基本步骤：,数据标准化，Z值法：,生产聚类类别编号，计算不同类别样本的数量。,对比另外两种聚类分析方法的聚类类别数量。,通过经验和专业知识判断聚类效果，是否能有效识别样本特征。聚类样本差异性用方差和卡方分析进行。,聚类分析（数据:5-3.sav）分析分类K-均值聚类V1V5放入变量窗口聚类数为3；保存勾选聚类成员，选项

8、ANOVA表；初始聚类中心表，第一类最优，第三类次之；最终聚类中心表，第一类最优，第三类次之，第二类不理想；ANOVA显著性都通过；分析分类两步聚类V1V5放入连续变量窗口聚类数量固定为3；聚类质量图可以看出聚类效果可以接受，双击模型概要图，选择预测变量重要性，可以看出因子对聚类建模的重要性高低情况；分析分类系统聚类V1V5放入连续变量窗口；绘图勾选谱系图；方法转换值勾选Z分数；保存单一方案聚类数为3；,聚类步骤,哪两类聚成一类,个体间距离,参与聚类的个体（0值）或小类（非0）,本步聚类结构在以下第几步用到,非量表类问卷研究此部分更多的会使用简单易懂的频数和百分比描述，最好结

9、合各种图形展示，比如选题可以通过条形图展示，单选题可以使用柱形图展示。此类问卷中大部分题项均为分类数据，因此需要使用卡方分析（交叉表分析）进行差异关系研究，也可能会需要使用Logistic回归进行影响关系研究。,卡方分析（数据:5-4.sav）分析描述统计交叉表将Q9和Q11放入行变量窗口，Q2放入列变量窗口；统计量勾选卡方；单元格百分比勾选列；查看卡方表下方是否80%以上数据值大于5，若不满足此条件不能使用卡方检验，只能用平均值比较方法来分析差异性；满足条件，看Pearson卡方对应的P值，P值大于0.05表示没有差异性，通过交叉表总计行和列进行解释；若P值小于0.05表示有差异

10、性，此时要根据表内部各行各列进行解释；尝试分析性别与投资理财产品使用情况的差异性，并作解释。,Logistic分析（数据:5-4.sav）研究性别、年龄、专业和生活费对“您未来是否有意愿购买理财产品”的影响情况；分析回归二元Logistic将Q19_New放入因变量窗口，Q2Q5放入协变量窗口； Q2和Q4是分类数据，需要进行虚拟变量处理，分类将Q2和Q4放入分类协变量窗口；选项勾选H-L拟合度；分类变量编码表中，体育类为“000”表示为参照项；女性为“0”表示为参照项；模型汇总表，C&S R2和Nagelkerke R2伪系数决定迭代次数； H&L检验表，H&L检验是验证真实数据

11、情况是否与模型拟合结果表现一致，P值小于0.05则说明真实数据与模型拟合情况不一致；分类表，体现模型拟合情况，整体拟合正确率是77.1%；方程中的变量表，查看P值，若P值大于0.05则表示没有呈现出显著性；反之则呈现出显著性，根据分类变量编码表得知Q4（2）表示Q4（010）为文科类；理工类P值为0，说明呈现显著性，B值为-2.139，也就是说相对于体育类样本，理工类样本未来理财意愿明显更低。,6 问卷分析思路和分析方法,操作实训：北京大学师生对咖啡屋及类似休闲场所的需求调查,要求： 1、受访者人口背景特征分析 2、受访者对现有酒吧的习惯和态度 3、受访者在酒吧消费的情况 4、背景资料的相关分析分析并给出相应结论。,（1）受访者人口背景特征分析是否去过咖啡店与性别、年龄、学历身份、收入的关系（2）受访者对现有酒吧的习惯和态度对光顾频次和咖啡店偏好情况，喜欢的原因和光顾的原因（3）受访者在酒吧消费情况最频繁光顾的咖啡店与消费品、与人均花费间的关系（4）背景资料的相关分析最频繁去处、最喜欢去处与人口背景资料，人口背景资料间关系。,

展开阅读全文