计量经济学课件教案第八章_数据整理与描述.docx

上传人:scccc 文档编号:13097766 上传时间:2021-12-14 格式:DOCX 页数:14 大小:52.77KB
返回 下载 相关 举报
计量经济学课件教案第八章_数据整理与描述.docx_第1页
第1页 / 共14页
计量经济学课件教案第八章_数据整理与描述.docx_第2页
第2页 / 共14页
计量经济学课件教案第八章_数据整理与描述.docx_第3页
第3页 / 共14页
计量经济学课件教案第八章_数据整理与描述.docx_第4页
第4页 / 共14页
计量经济学课件教案第八章_数据整理与描述.docx_第5页
第5页 / 共14页
点击查看更多>>
资源描述

《计量经济学课件教案第八章_数据整理与描述.docx》由会员分享,可在线阅读,更多相关《计量经济学课件教案第八章_数据整理与描述.docx(14页珍藏版)》请在三一文库上搜索。

1、第八章 数据整理与描述数据文件是一个矩形的矩阵,这个矩阵的每一行都代表或对应着一个“观测单位”(如张三、李四、王五),矩阵的每一列都代表或对应着一个“变量”(比如年龄,身高、体重,月工资收入等等)。因此,数据文件矩阵中的每一个元素(case)都代表或对应着某一个“观测单位”中的某一个“变量”的变量值或观察值。数据可以自己创建生成,也可以利用他人已经整理好的数据。一、生成一个完整的数据集要掌握的命令:为了创建一个完整的文件,要掌握下面的命令。命令命令解释用法示例dir列示当前路径文件夹中的所有文件dircd将cd后面的路径设定为当前路径cd d:/mydatadescrib显示整个数据集的信息d

2、esrename将现有变量名改为新的变量名rename gender sexlabel给数据/变量/变量值加注标签说明label data标签数据label data “2004级成绩表”label var标签变量label var name “姓名”label valuelabel define标签变量值label values gender genderlblabel define genderlb 1 "男" 0 "女"note为数据加注额外说明note: 9月10日为数据加注说明list列示内存中的数据list id namesave保存数据sa

3、ve mydata, replace以上命令可以通过help command查看到具体的命令格式.(一)创建一个数据文件例:创建一个文件(文件名为mydata.dta),标签该数据(用label命令)使得任何一个使用该数据的人都能明白该数据(包括整个数据/其中的变量及变量值)的含义。原始数据的内容如下,请将下表复制粘贴到EXEL表格中然后保存为origin.xls1John1140682Chris1280523Jack0290764Huang0243905Tom0370966Han1153857Phillip0285368Jin129565其中第一列为学号id,第二列为姓名name,第三列为性

4、别gender(1表示男性,0表示女性),第四列为民族minority(1表示汉族,2表示少数民族,3表示不知道);第五列为经济学成绩economy,第六列为数学成绩math。案例的参考操作下面程序中的所有命令中加黑的为固定用法,不能灵活选择;而斜体表示文件名和变量名,可以自己根据自己的文件名和变量名情况灵活选择或改动。(一)变量重命令采用直接复制粘贴法,将原始数据粘入stata,然后退出数据编辑器,先将该数据保存起来,文件名为origin.dtasave origin, replace新粘入的变量自动命令为var1, var2,.var6,为使变量容易理解和记忆,要将变量重新命名,命令为na

5、me。在此之前,可以先用一个describ命令看看数据情况。des /查看数据集的整体情况,注意变量名为var1-var6renpfix var v /将所有var开头的变量名改为以v开头 rename v1 id /将第一个变量重新命令为id ren v2 name ren v3 gender ren v4 minority ren v5 economy ren v6 math des /再次查看数据集的整体情况,注意变量名已改变(三)标签文件为避免时间太长,忘记变量的含义,我们可以用label命令来标记。该命令可以用来标记数据文件,如将文件取名为“2007年秋5632班学习成绩单” lab

6、el data “2007年秋5632班学习成绩单”在文件处理过程中加注说明,命令为notes note: 2007年9月6日由任我行创建该数据下一次打开数据,要查看创建和数据处理的说明时,直接键入 notev 标签变量:label var也可以用label命令来标记变量,如将id标记为“学号” label var id “学号” label var name “姓名” label var gender “性别” label var minority “民族”v 标签变量值:label define和label values还可以标记变量的取值。注意要按以下两步来操作: label defin

7、e genderlb 1 "男" 0 "女"l /注意此时gender变量显示的值为0或1 label values gender genderlb /该命令仅仅是显示的变化,实质不变l /注意此时gender变量显示的值为男或女 label define minoritylb 1"汉族" 2 "少数民族" label values minority minoritylbl(四)保存和删除数据文件compress /压缩数据,使之在不损失任何信息的前提下占用空间最小 save mydata /保存数据,数据文件名为

8、mydata如果已经有同名文件,而且可以将原文件覆盖,要加上replace选项 save mydata, replace*=end=二、打开或导入数据(一)打开示例数据示例数据为STATA帮助文件中所用的数据,其后辍名为.dta,如果在STATA软件当前路径下,直接用use命令即可打开;如果不在当前路径下,则可以使用sysuse命令打开。. u auto,clear /打开汽车数据auto.dta. cd d:/ /改变路径到d:/. u auto, clearfile auto.dta not found /系统提示无法找到文件,因为auto.dta不在d:/r(601);. sysuse

9、auto,clear /无论当前路径是什么,该命令均能打开系统自带文件示例数据Auto,美国1978年汽车数据,包括产地、车名、行使里程、重量等变量Bplong,血压数据Cancer,药物实验生存数据Census,1980年美国分州人口普查数据Citytemp,美国城市气温数据Educ99gdp,教育与GDP关系数据Gnp96,美国1967-2002年的GNP数据Lifeexp,预期寿命数据Nlsw88,美国年轻妇女研究数据Pop2000,美国2000年人口普查数据Sp500,S&P500历史数据Uslifeexp,美国预期寿命1900-1999Voter, 美国1992年选举民意调查

10、数据(二)从网络获取数据上述示例数据可能没有全部下载到你的所用的电脑中,因此简单地使用use和sysuse命令时,可能出现错误,如. u nlswork, clearfile nlswork.dta not found此时,如果确定该数据为示例数据,可以直接通过网络获取,其命令为:. u http:/www.stata- /从网站获取数据,或者. webuse nlswork, clear /与前一命令等价,从STATA官方数据库获取数据webuse只能从http:/www.stata-另一个网络数据较多的地方是波士登大学的数据中心,伍德里奇的计量经济学导论一书中所使用的全部数据都可以通过该数

11、据中心获得。比如. u http:/fmwww.bc.edu/ec-p/data/wooldridge/CEOSAL1即打开教材中例2.3中所使用的CEO数据。use命令只能打开后辍名为“*.dta”格式的数据,.dta格式以外的数据,STATA不能直接读取,需要从外部读入,最简单而直接的办法是复制和粘贴。但是有时没有其他软件,比如,我们有SAS格式或SPSS格式的数据,但没有SAS软件和SPSS软件,此时需要用STATA提供的其他命令或者使用transfer数据格式转化软件。在讨论其他输入或导入数据的方法之前,我们先来学习一点数据类型的知识。(三)导入其他格式数据经常会遇到的情形是:我们有其

12、他格式的数据,需要导入到STATA中进行分析,建议大家此时将其他格式数据复制到分析数据的文件目录下,然后直接用STATA的导入数据文件命令导入原始数据,用程序模式进行处理,然后导出处理结果。这样做的最大好处是:既不会破坏最原始的数据文件,又使我们的每一步数据处理和分析过程都有迹可循。利用我们已经创建的“origin.xls”数据(如果没有,请将第二讲一开始的表格复制到EXCEL并保存),将其打开并另存为“origin.csv”,(另存时请注意要选择“保存类型”下拉单,选择CSV(逗号分隔)这一项)。然后在STATA命令窗口中用下述命令导入. insheet using origin.csv,

13、clear也可以先将“origin.xls”数据打开并另存为“origin.txt”,然后用下面的命令导入. insheet using origin.txt, clear(四)导出数据与前述三个命令相反,有时我们需要将STATA数据导出为其他格式数据,比如文本格式或后缀为acs的格式:此时需要使用outsheet命令实现,该命令的基本格式如下。outsheet using myresult.txtoutsheet using myresult.asc此时建立的文件myresult.txt第一行为变量名,第26行为变量值。变量列间用Tab键分隔。如果文件已经存在,则需要使用replace选项,

14、相应的命令分别为。outsheet using myresult.asc, replace(五)使用TRANSFER软件Transfer软件专用于转换不同格式的数据文件,使用起来非常方便。只需要在input File Type栏中选择需要转化的原数据文件类型,然后定位打开需要转化的原数据文件。再选定输出文件类型,指定输出文件的存放位置和文件名。最后点击transfer按钮。数据便被转化。该软件可在http:/www.pinggu.org/bbs上下载试用,不过做正式工作,建议采用正版软件。三、数据整理为了折分或合并数据文件,要掌握下面的命令。这也是该小节的学习目标。命令命令解释用法示例drop

15、删除变量或观察值drop mathkeep保留变量或观察值keep mathappend将两个数据集拼接(观察值拼接)append using mathmerge将两个数据集合并(变量合并)merge id using mathreshape将数据重整reshape long inc,i(id) j(yr)stack将多列数据转换成一列数据stack a b c d, into(e f)xpose数据转置xpose, clear以上命令可以通过help command查看到具体的命令格式数据Aappendmerge数据连接与拆分(drop/keep)数据B数据A数据B数据B(一)横向拆分数据例

16、:将mydata数据分成三个数据文件,分别为学生基本信息文件student.dta, 经济学成绩文件economy.dta和数学成绩文件math.dta。原始数据文件mydata.dtaidnamegenderminorityeconomymath1John1140682Chris1280523Jack0290764Huang0243905Tom0370966Han1153857Phillip0285368Jin129565将要新生成的三个数据文件如下student.dtaidnamegenderminority1John112Chris123Jack024Huang025Tom036Han1

17、17Phillip028Jin12economy.dtaideconomy140280390443570653785895math.dtaidmath168252376490596685736865将mydata拆分成学生基本信息数据文件studentcd d:/mydata/ /在d:/mydata文件夹下操作u mydata, clear /打开第3讲已经创建的数据文件drop economy math /删除economy和math这两个变量save student, replace /将删除后的数据集命名为student,并保存将mydata拆分成经济学成绩数据文件economyu m

18、ydata, clear /打开第3讲已经创建的数据文件keep id economy /仅保留id和economy这两个变量在当前数据集中save economy,replace /将当前数据集重新命令为economy,并保存到当前路径请练习:将mydata拆分成数学成绩数据文件math(二)纵向拆分数据例:将mydata数据分成二个数据文件,分别为女生数据集female.dta和男生数据集 male.dta。 原始数据同上。该例完成后将要形成的数据如下female.dtaidnamegenderminorityeconomymath3Jack0290764Huang0243907Phill

19、ip0285365Tom0370961John114068male.dtaidnamegenderminorityeconomymath1John1140686Han1153858Jin1295652Chris128052将mydata拆分成女生数据集femaleu mydata, clear /打开第3讲已经创建的数据文件keep if gender=0 /仅保留女生的记录在当前数据集中save female, replace或者请练习:将mydata拆分成女生数据集male(提示:使用drop命令)(三)纵向合并数据要完成的任务:将女生数据集female.dta和男生数据集 male.dt

20、a合并为新的数据集mydata1 原始数据同上。将女生数据集female和男生数据集male合并为新数据mydata1u male, clear /打开记录男生信息的数据文件maleappend using female /将记录女生信息的female文件追加到当前数据集中save mydata1, replace(四)横向合并数据例:将学生基本信息数据集student.dta和数学成绩math.dta,经济学成绩economy.dta合并为新的数据集mydata2. 原始数据同上。将学生基本信息和学习成绩合并成新数据mydata2u economy,clear /打开经济学成绩数据文件sor

21、t id /按学号排序save economy, replace /重新保存一下u student,c clear /打开学生基本信息数据文件sort id /按学号排序merge id using economy /以学号关联,将基本信息与成绩一一对应对接tab _merge /显示对接情况,3表示成功对接,1和2表示未成功对接drop _merge /去掉标识对接是否成功变量_mergesort id /去掉变量_mergesave mydata2,replaceu math,clearsort idmerge id using mydata2 /用学号关联学生与数学成绩math一一对接d

22、rop _mergesave mydata2, replace(五)数据重整v 要掌握的命令命令命令解释用法示例reshape将数据重整reshape long inc,i(id) j(yr)xpose数据转置xpose, clear例: 数据集mywide.dta共有六个变量,其中后四个变量分别为2003年和2004年的数据成绩和经济学成绩,现要求将数据转化为mylong.dta的格式,将年份单独做成变量,数学和经济学成绩则成为两个单独变量。原始数据mywide.dtaidnamemath2003math2004economy2003economy20041John401368552Chri

23、s806452873Jack905576254Huang43609045Tom706896426Han531085897Phillip856136528Jin9566584转换后的数据mylong.dtaidnameyearmatheconomy1John200340681John200413552Chris200380522Chris200464873Jack200390763Jack200455254Huang200343904Huang20046045Tom200370965Tom200468426Han200353856Han200410897Phillip200385367Phill

24、ip200461528Jin200395658Jin2004684将学习成绩数据集mywide变换形式u mywide, clearreshape long math economy, i(id name) j(year) /数据重整,宽变长save mylong, replace将学习成绩数据集mylong变换形式reshape wide*或者u mylong, clearreshape wide math economy, i(id name) j(yearr) /数据重整,长变宽save mywide2, replace(六)数据转置例:将下面的数据行列互换原始数据math.dtaidm

25、ath168252376490596685736865互换后的数据应该为:newmath.dtav1v2v3v4v5v6v7v8123456786852769096853665转置u math,clearxpose, clear四、绘图STATA10.0版本的绘图功能有了新的提升,主要是提供了窗口化的图形处理能力,使得绘图可以像在EXCEL中一样,用鼠标完成操作。但是这些操作背后的命令基础仍然是本讲即将介绍的内容。(一)绘图命令一个完整的图应包括以下要素:曲线(点/线/面)、标题与副标题、图例、脚注、插文、坐标轴。以下命令显示出上图*=begin=sysuse auto , cleartwow

26、ay (scatter mpg weight if foreign=0) / (scatter mpg weight if foreign=1 , msymbol(Sh) /*曲线选项,点的类型*/ / , / title(标题: 行驶里程与车重关系) /*图选项:标题*/ / subtitle(副标题: 11574年美国的国产和进口汽车) / ytitle(纵坐标标题:里程) /xtitle(横坐标标题:重量) / note(注释: 数据来自于美国汽车协会) / text(35 3400 “曲线类型:散点图”) / legend(title(图例) label(1 国产车) label(2

27、进口车) /scheme(s1rcolor)*=end=命令结构graph-command (plot-command, plot-options) (plot-command , plot-options) , graph-options 或者graph-command plot-command,plot-options | plot-command , plot-options | , graph-optionsgraph-command定义图的类型,plot-command 定义曲线类型,同一个图中如果有多条曲线可以用括号分开,也可以用“|”分开,曲线有其自身的选项,而整个图也有其选项。

28、例如twoway为graph-command中的命令之一,而scatter为plot-command中的命令之一。(二)选项标题项: title()为图加上标题和副标题sysuse sp500 , clearsc close date, title(“收盘价”) subtitle(“S$P500”)坐标轴(1) 有坐标轴、有刻度格式(默认)sc close date(2)双坐标轴格式line close volum date /同时绘出收盘价和交易量, 我们发现价格几乎为一条直线,实际上价格的波动是很大的,之所以像一条直线,是因为交易量和单产的单位不一致导致的。如果我们用双Y轴,将交易量的纵轴

29、用右纵轴表示。tw (line close date, yaxis(1) (bar volum date, yaxis(2) (3)坐标轴标题纵坐标标题:ytitle();横坐标标题:xtitle()line volum date, ytitle(交易量)(4)坐标轴刻度值左纵坐标刻度及刻度值:ylabel()下横坐标刻度及刻度值:xlabel()line close date, ylabel(1000(50)1400) 图例legend()v 自动插入图例例:当有两条曲线时,STATA会超支生成图例,置于图的下方。line open close date (2)关闭自动插入的图例line o

30、pen close date,legend(off) (3)定制图例内容legend(label()line open close date,legend(label(1 开盘价) label(2 收盘价) (4)定制图例位置legend(position()可将图例放在图的12个位置(对应于时钟的小时刻度)如正右边为position(3) 右正方为position(5),正上方为position(12)。line open close date,legend(pos(12) 有时我们希望将图例放在图中,命令为ring(0)line open close date,legend(pos(1)

31、ring(0) col(1) /col(1)将图例按一列处理脚注:note()脚注主要用于标明数据的来源或者有关对整个图的说明,如line close date, note(“数据来源:S&P500”)(三)几种常用的图STATA提供各种曲线类型,包括点(scatter)、线(line)、面(area),直方图(histogram)、条形图(bar)、饼图(pie)、函数曲线(function)以及矩阵图(matrix)等。对时间序列数据有以ts开头的一系列特殊命令,如tsline。还有一类是对双变量的回归拟合图(lfit、qfit 、lowess)等,可以用帮助命令查看。help g

32、raphhelp towwayv 散点图(略)v 连线图sysuse sp500,clearg n=_ntw (line open close n in 1/50 ) /title("twoway line") xtitle("date") ytitle("price") /legend(label(1 "open") label(2 "close") order(2 1) ring(0) pos(8) /text(1300 25 "open")对时间序列数据,可以先设定时期

33、,简化命令sysuse sp500,cleartsset date /X轴为时间,由tsset设定.tsline close, sort /tsline用于时间序列数据,收盘价v 条形图:bar和hbarclearinput str5 age m f16-24 .9 .225-44 .8 .845-66 3.8 2.967-79 8.2 5.480+ 9.1 7.2end /以上程序录入数据graph bar m f , over(age) / /按年龄绘制title(不同年龄组发病率) ytitle(发病率) /legend( label(1 "Males") label

34、(2 "Females") ) /bar(2 , bfcolor(gs3) /第二类条形图的色彩方案v 直方图:histogramsysuse auto, clearhist pricev 核估计图: kdensitykdensity pricev 箱图:boxsysuse nlsw, cleargraph hbox wage, over(grade) asyvar nooutsides legend(rows(2) v 函数图例:绘制如右图的正态分布密度函数图。tw function y=normden(x)v 矩阵图 matrixsysuse auto,cleargra

35、ph matrix price weight leng(四)同时做多个图BY(VARNAME)by(varname)功能适用于matrix和star以外所有图形,该选项使graph按照指定的分组变量分别绘制图形。一般情况下,对bar和box,按指定变量分组的多个图共用一套坐标轴,对其它图形,将分别绘制独立的图形并列陈列。rescale与by()合用,要求图形使用不同的刻度。默认为所有图形使用相同的刻度。sysuse auto,clearsc price weight,by(fore)STATA提供了若干图形示例及代码,这些图例见网址http:/www.ats.ucla.edu/stat/stata/Library/GraphExamples/default.htm

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 社会民生


经营许可证编号:宁ICP备18001539号-1