二数据管理.ppt_三一文库31doc.com

资源描述

《二数据管理.ppt》由会员分享，可在线阅读，更多相关《二数据管理.ppt（91页珍藏版）》请在三一文库上搜索。

1、,数据管理,在数据文件建立好之后，还需要对数据进行必要的加工处理。对同一个数据往往需要从各种不同的侧面进行研究，采取多种统计方法进行分析，而不同的统计方法对数据文件结构的要求不尽相同，这就需要对数据文件的结构进行重新调整或转换，以便适合于相同的统计方法。,数据管理,文件级别的数据管理变量级别的数据管理,文件级别的数据管理（1）,SPSS中的Data菜单提供了文件级别的数据管理，可以对整个数据文件进行加工整理。,Insert Variable：插入变量 Insert Cases：插入记录 Go to Case：到达某条记录,简单命令（这些功能都可以用鼠标在数据表界面直接完成，很少用菜单操作，

2、在此不详述）,Sort Cases：记录排序 Split File：记录拆分 Select Cases：记录筛选 Weight Cases：记录加权,常用的简单过程（使用频繁，必须掌握）,文件级别的数据管理（2）,Define Variable Properties：定义数据字典 Copy Variable Properties ：将预定义的数据字典直接引入当前数据文件，即复制外部数据文件属性到当前数据文件,变量与数据文件属性向导（对大型或连续性数据分析项目非常有用）,Transpose：数据转置 Restructure：数据文件的重组,数据重构向导,文件级别的数据管理（3）,Add Ca

3、ses：纵向合并 Add Variable ：横向合并,文件合并过程（Merge Files）,Define Dates：定义日期变量过程，用于时间序列数据 Aggregate：数据汇总过程 Identify Duplicate Cases：查找重复记录,其他过程,文件级别的数据管理（4）,正交设计过程（Orthogonal Design）,单变量排序：SPSS提供了一种简易操作方法，即在数据表格的变量名处单击右键，弹出右图多变量排序：使用Sort Cases过程来进行，查看详情,记录排序,记录排序,选中Responese ，选择升序选钮（默认）,记录排序,注意：在多重排序中，指定排序变

4、量名的次序很关键，首先安第一个变量排序，对于与第一个变量取值相同的记录考虑按第二个变量排序排序后，原来记录数据的排序将被打乱，对于时间序列数据，若未存放有记录标志的变量，应注意保存原数据的排列顺序，以免数据混乱,记录排序,记录拆分,也可以选择快捷方式,1.选中此框不拆分文件,2.按所选变量拆分文件，各组分析结果放在一起便于比较,3.按所选变量拆分文件，各组分析结果单独放置,4.用于选择拆分数据文件的变量,5.要求将数据按所用拆分变量排序,6.数据集很大，且拆分变量已排序，选此可节省运行时间,记录拆分,1,2,3,4,5,6,记录筛选,快捷方式,1.分析所有记录,2.分析满足条件的记录，按I

5、f按钮设定筛选条件,3.从原数据中按某种条件抽样，按Sample进行设定,4.基于时间或记录序号选择记录，按Range进行设定,5.使用筛选指示变量选择记录，非0值的记录被选中,6.未选中的记录被隔离,7.选定的个案复制到新的数据集,8.未选中的记录被删除,记录筛选,1,2,3,4,5,6,7,8,记录筛选,划斜线的表示没有选中的个案被过滤了,记录加权,快捷方式,对于采用频数输入方式的数据应设置权重变量，如第三行表示treat单纯药物 outcome有效的人共48个，f是频数变量，应设为权重,记录加权,定义变量属性,变量名、测量尺度等,定义变量属性,变量列表,拷贝变量属性,数据转置,Trans

6、pose：该过程用于对数据进行行列转置，即原来的一条记录转成为一个变量，而变量则转成为一个记录，两次Transpose过程后数据集会恢复原样（点此见具体操作）。,数据转置,将变量VAR00001-VAR000010选入变量框，再点击确定键,转置前的数据集,数据转置,转置后的数据,数据文件重组,示例：,此例中不同性别的体重记录在单独的列中，如果你想要通过t检验，来比较不同性别的体重，但没有t检验过程所需要的分组变量，这时就需要重组数据，将一个变量组重组为一个weight变量，同时创建一分组变量group。,原数据结构,重组后的数据结构,打开数据菜单，选择重组,数据文件重新排列,选择变量重组

7、为个案,数据文件重新排列,此例选择一个变量组,将原数据集中的需重组的变量组放入目标变量框，然后定义重组后目标变量名。此例重组后的目标变量名为： weight,此例选择创建单个索引变量,定义索引变量名、标签及索引值,未选定重组变量的处理,完成重组后数据集,合并数据文件,可以使用两种不同的方式合并两个文件中的数据,1、纵向合并：合并活动的数据集与另一个打开的数据集，两个数据集中变量相同，个案不同（即将一个数据集中的个案添加到另一具有相同变量数的数据集中）。 2、横向合并：合并活动的数据集与另一个打开的数据集，两个数据集中个案相同，变量不同（即将一个数据集中的变量添加到另一具有相

8、同个案数的数据集中）。 3、无论用那一种合并方式，如果两个数据集中有变量数（或个案数）不同，则合并后的数据集中有部分缺省值。 4、横向合并有匹配合并和不匹配合并，如何是匹配合并则两个数据集中必须具有唯一相同的匹配变量。,示例：下面两个数据集分别来自于两家医院，如何合并？,A医院数据集,B医院数据集,选择合并文件添加个案,Add Cases：纵向合并，从打开的数据文件中增加记录到当前活动数据集中，相互合并的数据文件中应该有相同的变量。,文件纵向合并,左框：新、老数据文件中不匹配的变量名,*：当前数据集中的变量 +：新添加数据集中的变量,右框：已匹配的变量名，选择完成后单击确定即可,合并后的

9、数据集,横向合并示例：,研究开始时的基线数据集,随访结束时的数据集,文件横向合并,1. 未被纳入的变量列 2. 被纳入合并后新数据集的变量列表 3. 记录匹配使用的关键变量,Add Variables：横向合并，从打开数据文件增加变量到活动数据文件，两个数据集要有一个一一对应的关键变量进行匹配合并，且记录应按关键变量排序后再合并。,1,2,3,“分类汇总数据”将活动数据集中的个案组汇总为单个个案并创建新的汇总文件，或在活动数据集中创建包含分类汇总数据的新变量。基于零个或多个中断（分组）变量的值汇总个案。如果未指定中断变量，则整个数据集将成为单个中断组。,分类汇总数据,如果创建新的分类汇总数据文

10、件，则新数据文件对由中断变量定义的每个组都包含一个个案。例如，如果中断变量有两个值，则新的数据文件将仅包含两个个案。如果未指定中断变量，则新数据文件将包含一个个案。如果将分类汇总变量添加到活动数据集，则不分类汇总数据文件本身。分隔变量值相同的每个个案对新聚合变量都得到相同的值。例如，如果性别是唯一的中断变量，则所有男性对于表示平均年龄的新分类汇总变量将得到相同的值。如果未指定中断变量，则对于代表平均年龄的新分类汇总变量，所有个案将收到相同值。,分组变量,被汇总变量,定义变量名与标签,定义函数值,定义汇总函数,定义新产生汇总变量的名称和标签,Name&Label,标识重复记录,在数据中出现“

11、重复”个案有多种原因，包括：数据输入错误，意外地多次输入了同一个案。多个个案具有相同的主标识值，但它们有不同的次标识值，就像居住在同一间屋子的多个家庭成员。多个个案代表同一个案，但是对于除标识该个案的变量之外的其他变量有不同值，例如由同一个病人在不同时间服用的不同的约。 “标识重复个案”允许您自由定义重复，并在一定程度上控制对主个案和重复个案的自动确定。,希望查找重复值的变量,重复记录按该变量的取值排序,设定第一个还是最后一个重复记录为主记录,PrimaryLast0表示相应的记录为重复记录,标识重复记录,变量级别的数据管理（1）,SPSS中的Transform（转换）菜单提供了变

12、量级别的数据管理，可以对变量进行操作。,在理想情况下，原始数据非常适用于要执行分析的类型，并且，变量间的任何关系都是合适的线性或切合的正交关系。不幸的是，这种情况非常少。初步分析可能会暴露出编码方案不合理或编码错误，或者可能需要数据转换以揭示变量间的真实关系。您可以执行从简单任务（比如拼并类别以进行分析）到更高级任务（比如基于复杂方程和条件语句创建新的变量）的数据转换。,计算新变量（Compute）：最常用,Recode：对变量值进行分组合并 Visual Bander：连续变量的可视化分段 Count：表示某个变量的取值中是否出现某个值，或某个区间 Rank Cases：变量编秩

13、Automatic Recode：对记录按某个变量值的大小排序,变量转换,变量级别的数据管理（2）,Create Time Series：建立时间序列 Replace Missing Values：缺失值替代 Random Number Seed：设定随机种子,专用过程,变量级别的数据管理（3）,控制命令,Run Pending Transforms：用于执行编程中被挂起的数据整理操作,专用于时间序列模型,例1 下例数据是一组慢性病随访数据，计算每个人的体重指数，BMI=体重/身高2*100。,计算新变量,计算新变量对话框,此框中输入表达式,定义目标变量名、类型及标签,软键盘和运算符,函数

14、选择框,函数说明框,根据条件计算,条件表达式对话框,输入条件表达式,例2 在数据heart.sav中将v2(年龄)重新编码，生成新变量grade,当=21岁且=31岁且=41岁且=51岁且=60岁且70岁取值为6，71岁以上取值为7。,数值变量值分组,变量重新编码对话框,将重新编码的变量v2放入此框,输入重新编码后的变量名及变量标签，按按钮。,原变量为v2, 编码后的变量为grade,按按钮设置编码规则,旧值可以是单值、缺省值、范围、从最小到某一值、从某一值到最大或其他值。,新值：1,2,3,4,5,6,7,变量值分组合并,变量值分组合并,变量值分组合并,变量值分组合并,re

15、code过程提供了精确分组的功能，但如果希望进行的分组是有规律的，比如等距分组，或等样本量分组，使用 recode过程进行操作就显得非常麻烦，且可视化程度不高。此时可以考虑使用visual bander过程进行可视化分段。,连续变量的可视化分段,例3 仍以数据heart为例，将变量v2（年龄）分为7组，20岁以下为第一组，按10岁等间距的方式分组。,连续变量的可视离散化,连续变量的可视化分段,连续变量的可视化分段,生成分割点对话框,连续变量的可视化分段,自动填充值标签,连续变量的可视化分段,例4 仍以数据heart.sav为例，查看变量v2（年龄）大于等于60岁，如果v2大于等于60岁，

16、创建的新变量取值为1，否则为 0。,查看特定变量值（count功能）,该对话框将创建一个变量，该变量统计每个个案的变量列表中相同值的出现次数。例如，某调查可能包含一个年龄变量，您可以计算并创建一个年龄大于等于60岁和小于60岁的新变量，产生的新变量为二分类变量，即满足条件的为1，否则为0。,查看特定变量值,查看特定变量值,查看特定变量值,例5 仍以数据heart.sav为例，根据年龄分组计算SBP的秩次。,变量编秩,使用“个案排秩”对话框可以为数值变量创建包含秩、常规得分和Savage 得分以及百分位值的新变量。将基于原变量名称和选定的测量自动生成新变量名称和描述性变量标签。一个摘要表将列出原

17、变量、新变量和变量标签。（注意：自动生成的新变量名称的最大长度为8 个字节。）根据需要，您可以：,1、按升序或降序对个案排秩。 2、通过在“依据”列表中选择一个或多个分组变量而将排秩组织为子组。将计算每个组中的秩。组通过分组变量的值组合定义。例如，如果您选择疾病类型和性别作为分组变量，则将为疾病类型和性别的每一组合计算秩。,变量编秩,用于定义秩次类型，默认为rank（秩分数）,变量编秩,用于定义对相同值观测量的处理方式默认值为取平均秩次。,变量编秩,自动重新编码,例6 仍以数据demo.sav为例，将字符型变量gender转化成数值变量new_gender。,使用“自动重新编码”对话框可以将

18、字符串值和数值转换为连续整数。当类别代码不连续时，对许多过程来说，生成的空单元将降低性能并增加内存要求。此外，某些过程不能使用字符串变量，某些过程要求因子水平为连续的整数值。, “自动重新编码”创建的新变量保留了旧变量中任何已定义的变量标签和值标签。对没有已定义值标签的任何值，将使用原值作为重新编码后的值的标签。一个表显示了旧值、新值以及值标签。字符串值将按字母顺序重新编码，其中大写字母将排在相应的小写字母之前。缺失值被重新编码为高于任何非缺失值的缺失值，并保留它们的原有顺序。例如，如果原变量有10 个非缺失值，最低的缺失值将被重新编码为11，值11 将作为新变量的缺失值。,将字符变量转换为数值变量,新变量名,Thank you,

展开阅读全文