1、第二节第二节 样本特征数样本特征数 总体的总体的和和虽然得不到,但从获得的数虽然得不到,但从获得的数据资料可以求得样本的平均值和标准差,分据资料可以求得样本的平均值和标准差,分别用别用和和 表示表示,这两个值是非常重要的统这两个值是非常重要的统计特征数。计特征数。一、一、样本平均值样本平均值 样本平均值是表示一个变量数列中各变样本平均值是表示一个变量数列中各变数分布的中心位置的一个数值,在均值上下数分布的中心位置的一个数值,在均值上下点的地方频数最高,故均值对一个变量数列点的地方频数最高,故均值对一个变量数列具有较大的具有较大的代表性代表性。样本平均值的计算方法有几种:样本平均值的计算方法有几
2、种:当样本容量少时,可按习惯的算术平当样本容量少时,可按习惯的算术平均值求法求得:均值求法求得:对于分组数据,可按下式计算:对于分组数据,可按下式计算:为分组后各组的组中值为分组后各组的组中值,为各组的频数为各组的频数。单位进级法单位进级法当样本容量很大,分组又当样本容量很大,分组又多,采用上式仍感麻烦,可改用单位进多,采用上式仍感麻烦,可改用单位进级法计算级法计算A A为假定均值,选频率最大而又接近为假定均值,选频率最大而又接近中位中位的的那个组那个组的组中值。的组中值。类区间类区间组中值组中值fidfid123456789556473(A)8291100109118127121329222
3、0841-3-2-1012345-3-4-13022402416510087例例二、样本标准差二、样本标准差 标准差是表示一变量数列离开均值的标准差是表示一变量数列离开均值的偏离程度,是度量变量数列分散程度的指偏离程度,是度量变量数列分散程度的指标,以标,以Sx表示。表示。样本标准差的计算方法也有几种:样本标准差的计算方法也有几种:小样本的标准差公式小样本的标准差公式n-1n-1为自由度为自由度(小样本时值(小样本时值与总体偏差大,与总体偏差大,用用n-1n-1更接近总体更接近总体 实际计算中常用的公式实际计算中常用的公式分组资料的标准差公式分组资料的标准差公式单位进级法单位进级法三、标准误三
4、标准误标准误标准误即平均数的标准差即平均数的标准差估计标准误估计标准误是由样本估计总体的标准误,所以加估计两字是由样本估计总体的标准误,所以加估计两字 四、四、变异系数变异系数 标准差是测量变异的绝对常数,单位与原样本标准差是测量变异的绝对常数,单位与原样本的单位相同,当两个变量数列的均数相同时,可以直的单位相同,当两个变量数列的均数相同时,可以直接根据两者标准差的大小来确定变异程度的大小。如接根据两者标准差的大小来确定变异程度的大小。如果有两个均数不同,或单位不同的变量数列,就不能果有两个均数不同,或单位不同的变量数列,就不能用标准差的大小来判断变异程度了,需要有一个相对用标准差的大小来判
5、断变异程度了,需要有一个相对指标,这个表示变异程度的相对指标就是变异系数。指标,这个表示变异程度的相对指标就是变异系数。通过变异系数通过变异系数C的比较,说明变异程度的差别的比较,说明变异程度的差别五、五、偏斜度偏斜度 有时会遇到一个大样本,它的变化是规有时会遇到一个大样本,它的变化是规则的,但频数分布是不对称的,这时还需要则的,但频数分布是不对称的,这时还需要使用另一些特征数来弥补平均数和标准差的使用另一些特征数来弥补平均数和标准差的不足。其中之一是度量数据围绕不足。其中之一是度量数据围绕众数众数呈不对呈不对称的程度,即常被称为偏斜度。称的程度,即常被称为偏斜度。使用最广泛的是三阶中心矩使用
6、最广泛的是三阶中心矩 用用4、11、12、和和13这四个数示意性地这四个数示意性地说明三阶中心矩,并计算出说明三阶中心矩,并计算出m3 m3=-180/4-45 当将离差立方后,其中有一个负数,它远当将离差立方后,其中有一个负数,它远远超过另外三个正数,所以其代数和为负数。远超过另外三个正数,所以其代数和为负数。负数说明在平均数的左侧的离差大于右侧负数说明在平均数的左侧的离差大于右侧的离差,因此分布是不对称的。的离差,因此分布是不对称的。当当m300时,分布是正偏的;时,分布是正偏的;当当m301|1时,就一定时,就一定不是正态分布了。不是正态分布了。六、峭度六、峭度峭度是度量曲线形状的量,表达为:峭度是度量曲线形状的量,表达为:当当等于等于3时,时,q20,可以认为数据是可以认为数据是正态的正态的;当当q2为正数时,为正数时,曲线过于陡峭;当曲线过于陡峭;当q2为负数时,曲线过于平坦。为负数时,曲线过于平坦。