社会统计学重点.doc_三一文库31doc.com

资源描述

《社会统计学重点.doc》由会员分享，可在线阅读，更多相关《社会统计学重点.doc（2页珍藏版）》请在三一文库上搜索。

1、1.社会调查研究的步骤:1.确定课题。2.了解情况。3.建立假设。4.确定概念和测量方法。5.涉及问卷。6.试填问卷。7.调查实施。8.校核与登录。9.统计分析与命题的检验。资料的整理归纳分析以及如何收集资料正是统计分析所要谈论的内容。1、社会统计学是介绍对有关社会现象的数量资料进行分析和推论的各种统计方法的课程。2.社会调查资料的特点：随机性和统计规律性。3.怎样选用统计分析方法：1.全面调查和非全面调查。2.单变量和多变量。3.变量层次.4.分布概念：指一个概念或变量，它的各个情况出现的次数或频次，又称频次分布。表现形式:数对的集合.5.变量取值的要求变量取值必须完备；变量取值必须互斥

2、。6.统计表：是用表格形式来标识前面所说变量的分布。它不需要文字叙述，就能反应出资料的特性以及资料之间的关系，在编印，传递方面有很大优点，比统计表更精确，但不及统计图直观。7.统计表必须具备的内容：1.表号。2.表头。3.标识行。4.主体行。5.表尾。8.根据变量的层次,可以选择以下不同的统计图形:定类变量:圆瓣图、条形图。定序变量：条形图。定距变量：直方图、折线图。14.集中趋势测量法，也叫集中趋势分析法，是指用变量的一个典型值或特征值来代表该变量的所有取值的方法。1.众值：就是用具有频数最多的变量值来表示变量的集中值。2中位值：是数据序列之中央位置之变量值。未分组：N为奇数时：中位值等于n

3、+1/2. N为偶数时：中位值等于中间两变量和/2. 根据频次分布求中位值：中位值等于频次的和+1/2.中位值等于求出所对应值所在的区域。分组：1.计算出累计频次，得到累计百分比。2.确定最高频次所在组。3均值：总体各单位数值之和除以总体单位数目所得之商。4.离散趋势分析，即用一个特别值来反映一组数据之间的离散程度的方法。这个特别值称为离散值，或离散趋势、离中趋势。它描述的数据的差异性，或变量取值分布的分散状况。离散值愈大，描述的代表性愈小。5.异众比率：非众值在总数N中所占的比例。Fm0=众数的频率。6.极差:=观察的最大值-观察的最小值。7.四分互差：q=q75-q25 ， q50的位置=

4、n+1/2.q25的位置=n+1/4.q74的位置=3(n+1)/2、分组资料求：8.方差与标准差9.众值。中位值和均值的比较：1.众值：定类。定序和定距变量：异众比率。2.中位值：定类和定序：极差和四分互差。3.均值：定距：方差或标准差。第三章：概率1.概率是随机事件各种结果发生可能性大小的数量表示。统计规律性：是指在一定条件下，就其个别一次的结果来说都具有偶然性，但大量重复的实验或观察，则其结果无不呈现必然的规律性。概率分布，反映的是随机变量一共有多少种可能取值，以及各种取值所出现的概率是多少。2.形式：可表示为数对的集合。 3.要求：随机变量的取值必须满足完备性和互斥性。 2.数学期望

5、含义：数学期望是总体均值，即总体某一随机变量各项取值的加权平均值，它只是一个理论值，是我们所期望的均值。第五章：1.正态分布：在概率分布下，靠近数学期望的数据最多，离开数学期望越远，分布的数据越少，左右两侧基本对称，这种中间多，两侧逐渐减少的基本对称的分布。概率密度的概率分布称为正态分布。三个特征：1.一个高峰：曲线是单峰，有一个最高点。2.一个对称轴：对称轴是直线x=u。3.一个渐近线：横轴为渐近线。2.均值：决定左右方向。方差：决定高矮胖瘦。3.标准正态分布是一种特殊的正态分布，是正态分布中当=0 和=1 时的分布。通常用Z表示服从标准正态分布的变量，记为 ZN(0，1 )，即 Z值称作

6、x的标准分。4.正态分布的概率密度表达公式：5.极限定理：凡采用极限的方法所得出的一系列定理。统称极限定理。可分为两类：一类是研究在什么条件下随机事件可以转化为不可能事件或必然事件即有关阐明大量随机现象平均结果的稳定性的一系列定理。成为大数定理。第二类：是研究在什么条件下，随机变量之和的分布可以近似为正态分布，称为中心极限定理。6.大数定理和中心极限定理：贝努里大数定理表明,在相同条件下进行多次观察时，随机事件发生的频率有接近其概率的趋势。大数定理：从一个特定的总体中抽取出所有可能的样本(样本容量相同)，如果样本容量足够大，那么这些样本的均值的分布将趋近于正态分布。7.中心极限定理：从一个指定

7、的总体中抽取出所有可能的样本，如果样本的容积足够大，那么这些样本的均值的分布，将趋近于正态分布。设1，2，n是相互独立、服从同一分布的随机变量，该分布存在有限的期望和方差。则当n趋于无穷大时，这n个随机变量的算术平均数将近似服从正态分布，即N(n,n) 。正态分布表明，如果一个现实的量是由大量独立偶然因素的影响叠加而得，且其中每一个偶然因素的影响又是均匀地微小的话，则可以断定这个量将近似地服从正态分布。意义：为统计推论中用抽样成数来估计总体成数提供了理论依据第六章参数估计1.统计推论：统计推论是根据局部资料（样本资料）对总体的特征进行推断。即，从被研究现象的总体中按照随机原则抽取一部分个体

8、进行调查，并依据调查结果对总体的数量特征作出具有一定可靠程度的估计，以达到认识总体的一种统计方法。2.总体：研究对象的全体。总体的数量指标可以看作随机变量。3.样本：按照一定方法从调查总体中抽取出来的部分调查对象的集合。4.统计量：样本中的每一个个体资料所反映的数据是一个随机变量。那么，从总体中抽取容量为n的样本，可以看做是n个相互独立且分布相同的随机变量1,2,n。则该随机变量的任何函数f(1,2,n)也是随机变量。则该函数叫作统计量。5.参数估计：通过样本统计值来估计总体参数值是多少，或在什么范围内6.假设检验：通过样本资料的分析对总体的某种假设进行检验。 7.点估计是指用样本资料计算出来

9、的数值来估计总体的数量特征（即未知的总体参数）。点估计值是一个具体的数值。8.区间估计则是通过样本资料计算出一个数量范围对总体的未知参数进行估计。区间估计值是一个数量区间。9.抽样分布: 抽样分布，指从一个特定的总体中抽取出所有可能的容量相同的样本时，这所有样本的统计值的分布情况。实际就是研究统计量的数字特征：均值和方差。10.置信区间和置信度：在样本容量一定的情况下，置信区间和置信度是相互制约的。置信度越大，则相应的置信区间也越宽。置信区间：在一定概率水平下，包含了总体参数的数值区间。在样本数量确定的情况下，与置信度成正比关系。与估计的精确性关系成反比。11、置信度，也称置信水平、置信系数和

10、置信概率，即置信区间的可靠性程度，反映了总体参数值落在样本统计值某一区间内的概率。用1-表示。当置信度取0.90时，它表示如果独立重复地抽取很多样本，每次样本容量n保持不变的话，则，平均而言，每100个样本，其中有90个样本算出的区间估计是包含待估参数Q的。12.显著性水平，即用置信区间来估计总体参数值不可靠的概率。与置信度之和为1，两者大小成反比。第七章1.统计假设: 可以通过抽样调查获得的数据来直接验证的假设。假设检验(统计假设检验),即通过样本资料对总体的某种假设进行检验。只有通过假设检验，才能用样本资料来科学地推论总体。 2.原假设和备则假设：又称虚无假设，用H0表示。它是根据已有资

11、料或周密考虑后建立的关于总体中不存在某种特征或状态的假设。备则假设又称研究假设。用H1表示。它是与原假设相反的假设，即关于总体中存在某种特征或状态的假设3.假设检验的基本原理：假设检验的依据是小概率原理。思想：假设检验的思想：经过抽样获得一组数据，即一个来自总体的随机样本，如果根据样本计算的某个统计量，表明在原假设Ho成立的条件下几乎是不可能发生的，就拒绝或否定这个原假设，并继而接受它的对立面备选假设。反之，如果在原假设Ho成立的条件下，根据样本所计算的某个统计量，发生的可能性不是很小的话，那么就接受原假设。依据的原理小概率原理，全称“小概率事件不可能原理”，指对于发生概率很小的事件，在一次

12、观察（或抽样）中是不可能发生的；如果在一次观察（或抽样）中出现了小概率事件，则认为事件的发生概率实际上并不小。4假设推论的显著性水平：一般是指在原假设成立条件下，统计检验中所规定的小概率的标准。即规定小概率的数量界线。5.假设检验的步骤和两类错误：1.根据实际问题做出假设。2.根据样本构成合适的，能反应H0的统计量，并在H0成立的条件下确立统计量的分布。3.根据问题的需要，给出小概率的大小，并根据2.3.点求出拒绝域和临界值。4.根据以上三步骤建立起来的具体检验标准，用样本统计量的观测值进行判断。若样本统计量的值落入拒绝域，则拒绝H0，接受备则假设H1.否则接受H0。5.两类错误： 1.第一类

13、错误，即弃真的错误。拒绝原本正确的原假设H0，导致推断结论错误。前提：原假设是正确的。 2.第二类错误，即纳伪的错误。接受了原本错误的原假设H0，则导致了另一种推断错误。前提：原假设是错误的。一、列联表的涵义：列联表是将两个或多个定类变量的观测数据分别按照它们的不同取值进行联合分类时所列出的频数（或频率、概率）表。作用：通过对表中各个Nij或Pij的比较，可以研究表中的两个或多个变量之间是否存在关系。二、列联表中变量的分布：（一）联合分布对于列联表中，当x=xi,y=yj时的频次为Nij，写作（xi,yj，Nij）。所有Nij的分布称作联合分布。（二）边缘分布在列联表中，只研究其中一个

14、变量不同取值的分布，而不论另一个变量的取值，这样的分布就是边缘分布。（三）条件分布在列联表中，当一个变量取固定值时，另一个变量不同取值的频率(概率)分布情况，就是条件分布。四、rc列联表的相关系数：rc表：列联表中两个变量中至少有一个变量的取值为三个或三个以上。五减少误差比例概述：变量y和x间的相关程度，可以通过不知它们有关系时，预测y时的全部误差，与知道它们有关系时，用x去预测y时的误差的相对差值的大小来度量。称为减少误差比例法(PRE)。大样本总体均值的假设检验1.原假设H0：=0（0为已知）备择假设H1：单边0(右侧) 或 0(左侧) 双边03.对于给定的显著性水平，查正态分布表得Z

15、或Z/2的值。 4.判断和决策双边检验，若|Z|Z/2，则接受H1；|Z|Z/2，则接受H0。右侧单边检验：若ZZ，则接受H1；ZZ，则接受H0。左侧单边检验：若Z-Z，则接受H0；若Z-Z，则接受H1。 1.某单位为了验证收入统计报表的正确性，作了50人的抽样调查，样本人均月收入 = 871元，样本方差S=21元。问能否证明统计报表中的人均月收入= 880元是正确的（显著性水平=0.05）根据=0.05，则Z/2=1.96。因为|Z|=3.031.96，所以，拒绝原假设=880元。即在0.05的显著性水平下，我们不能认为人均月收入为880元，因此可以认为统计报表是有误的。 2 根据

16、已有资料，某市人均月收入为1500元。经工资改革后，做了一次900人的抽样调查，发现人均月收入 =1550元，S=600元。请问工资改革后该市的人均月收入是否增加了（显著性水平=0.05）？解：根据题意，可知需要进行右侧单边检验。建立假设：H0：=1500元； H1：1500元。已知 =1550元，S=600元， =0.05，则Z=1.96。因为Z=2.51.96，所以，拒绝原假设=1500元。即在0.05的显著性水平下，我们可以认为该市经过工资改革后人均月收入增加了。接例2，如果给定显著性水平=0.001，试验证工资改革后该市的人均月收入是否增加了？解：根据题意，可知需要进行右侧单

17、边检验。建立假设：H0：=1500元； H1：1500元。统计量Z=2.5，而=0.001时，Z=3.09，可见，Z=2.5Z0.001=3.09。所以，接受原假设=1500元。即在0.001的显著性水平下，我们可以认为该市经过工资改革后人均月收入没有变化。大样本检验例4 某高校男生中吸烟者占20%。经过戒严宣传后，进行了抽样调查，发现100名被调查的男生中，有12人是吸烟者。问戒烟宣传是否收到了成效？（=0.05）解：根据题意，需要做左侧单边检验。成立假设H0：p=0.20； H1：p0.20。已知则统计量根据=0.05，则Z=1.65，因为Z= 2Z= 1.65，所以，拒绝原

18、假设p=0.20。即在0.05的显著性水平下，我们可以认为学生中吸烟者比例有所下降，戒烟宣传收到了成效。小样本检验根据=0.05，则Z=1.65，因为Z= 2Z= 1.65，所以，拒绝原假设p=0.20。即在0.05的显著性水平下，我们可以认为学生中吸烟者比例有所下降，戒烟宣传收到了成效。解：根据题意，可知需要进行右侧单边检验。作出如下假设：H0：=160cm； H1：160cm。由于身高服从正态分布，但方差未知，所以选用t检验，统计量t服从t分布。 =0.05，自由度k=16-1=15，查t分布表得，t0.05(15)=1.7531。则t=1.667t0.05(15)=1.7531 所以，接受原假设。即当显著性水平为0.05时，不能认为该高校学生平均身高超过了160cm。列联表：解答：（1）5.991，故拒绝原假设。（2）

展开阅读全文