第二章试验资料的整理与描述.ppt

资源描述

《第二章试验资料的整理与描述.ppt》由会员分享，可在线阅读，更多相关《第二章试验资料的整理与描述.ppt（65页珍藏版）》请在三一文库上搜索。

1、第一节试验资料的整理第二节描述试验资料的特征数,第二章试验资料的整理与描述,主要内容及难点,试验资料的性质和整理方法；次数分布表的制作；统计表、统计图的绘制及其特点；平均数、方差、标准差及变异系数的计算方法和各自的统计意义；,一、试验资料的分类,1、数量性状资料数量性状是指能够以量测或计数的方法表示其特征的性状。如作物单株产量、株高和单株光合叶面积、单株籽粒数等。观察测定数量性状而获得的数据就是数量性状资料。,第一节试验资料的整理,1）计量资料用称量、测量等量测手段获得的数量性状资料。因为两相邻数据间允许有带小数的任何数值出现，即两数间的变异是连续的，所以也称为连续性变异资

2、料。,2）计数资料用计数方式得到的数据资料。各观察值均为整数形式，每两数据间不允许有小数存在，即两数间的变异是不连续的，因此，也称间断性资料或不连续性变异资料。,2、质量性状资料,质量性状是指只能观察而不能测量的性状，如花药、茎、种子、果实、叶片的颜色、籽粒的饱满度、芒的有无等。质量性状本身不能用数值表示，要获得这类性状的数据资料，须对其观察结果作数量化处理。,1）统计次数法在一定总体或样本内，根据质量性状类别统计次数，以次数作为质量性状的数据。这种数量化的资料又叫次数资料。例如白花与红花豌豆杂交，统计F2代不同花色植株数，1000株中有红色266株，紫色494株，白色240株。,例如，

3、调查作物受某种病虫害危害情况，将作物性状分为高抗、抗、中抗、中感、感病5个级别，分别用1，2，3，4，5表示，统计样本内各种级别的植株数。,2)分级赋值法先根据性状的变异情况分级，给每个分级分别赋予一个适当的数值作代表值，然后统计属于各个级别的个体数。,二、试验资料的整理,根据数据出现的一定范围，从最小值到最大值划分成若干个互斥的组区间，再统计各组区间内观察值个数，则可从中寻找到一定的规律，这种由不同组区间内观察值出现的次数组成的分布，简称次数分布。,1、计数资料的整理,观察值不多，变异范围不大的计数资料，以每一观察值为一组进行分组，然后统计次数制成次数分布表。,表2-1、100个麦穗的每穗

4、小穗数,表2-2、100个麦穗每穗小穗数的次数分布表,表2-3、200个稻穗每穗粒数的次数分布表,每穗粒数（x）次数（） 2630 1 3135 3 3640 10 4145 21 4650 32 5155 41 5660 38 6165 25 6670 16 7175 8 7680 3 8185 2 合计 200,2、计量资料的整理,计量资料在分组前需要确定全距、组数、组距、组中值及组限，然后将全部观测值归组，制成次数分布表。下面以表2-4中140行水稻产量为例，说明计量资料整理的方法与步骤。,表2-4 140行水稻产量（单位：g）,（1）求全距：全距是资料中最大值与最小值之差，又称

5、为极差(range)，用R表示，即 R=Max(x)-Min(x) 此例最大观测值为254g，最小为75g，全距 R = 254 75 = 179（g）,（2）确定组数与组距：组数的确定依据：1）观察值多少，2）极差，3）计算方便，4）能保持资料真实性。,表2-4中观测值个数即样本容量为n=140，查表2-5，组数为1012，这里分为12组。,样本容量组数 3060 5 8 60100 8 10 100200 1012 200500 1218 500以上 1830,表2-5 样本容量与组数,组距：指每组的最大值与最小值之差，记为i。分组时要求各组的组距相等。组距的大小由全距和组数确定，计算

6、公式为：组距（i）= 全距/组数,本例组距（i）= 179/12=14.9（g）为了计算方便，以15g作为组距。,（3）、确定组中值与组限：第一组的组中值一般选接近资料中的最小值为宜，而且便于计算。此例为75。,（4）、数据归组。,第一组的下限为：75-15/2=67.5；上限为：75+15/2=82.5；,表2-6、140行水稻产量数据的次数分布表,3、质量性状资料的整理,对于质量性状资料可按性状或属性进行分组，分别统计各组的次数，然后制成次数分布表。例如，水稻杂种F2植株米粒性状的分离情况，见表2-7。,表2-7、水稻杂种F2植株米粒性状分离情况,统计表：用表格形式表示数据间的数量关系

7、。统计图：用几何图形表示数据间的数量关系。使用统计表和统计图，可以把研究对象的特征、内部构成、相互关系等简明、形象地表达出来，便于分析比较。,三、常用统计表与统计图,表2-8 大豆花色一对等位基因杂种二代分离情况统计表,x(产量，g/行) 图2-1、140行水稻产量次数分布直方图（histogram）,x(产量，g/行) 图2-2、140行水稻产量次数分布多边形图（polygon）,图2-3、水稻杂种F2米粒性状分离条形图,单式条形图（bar diagram）,复式条形图,图2-4、四个水稻品种不同发育时期叶绿素含量,品种,复式条形图,图2-5、水稻杂种F2米粒性状分离饼形图,图2-6、

8、小麦生产年降水情况,单式线图,图2-7、不同小麦品种灌浆结实期叶片蒸腾速率（陕229；长武134；晋麦47；偃师9号；咸农151）,蒸腾速率(mmol/m2.s),复式线图,第二节描述试验资料的特征数,除了用统计表和统计图来直观、形象地表示研究对象的数量特征外，统计数也可用来描述研究对象的内在规律。把这些统计数称为特征数。描述资料集中性的特征数是平均数，描述资料离散性的特征数是变异数。,参数:,用总体的全体观察值计算的、描述总体的特征数称为参数(parameter)。参数是一个常量，一般未知，通常用希腊字母表示，如总体平均数，总体方差2 等。,统计数:,由样本全体观察值计算的，描述样本的

9、特征数称为统计数(statistics)。统计数是一个变量，随样本的不同而不同，统计数一般用拉丁字母表示，如样本平均数，样本均方等。统计上，通常由统计数去估计或推断所在总体的相应参数。,总体与样本的关系图,总体,（随机变量）,参数:，2，N,样本,统计数: ，s2，n,（次数分布图、表）,数据分析,（不同的假设测验）,一、平均数（mean）,平均数可综合反映研究对象在一定条件下的一般水平，是数量资料的代表数，常用来进行资料间的比较。 1、算术平均数(arithmetic mean) 1)定义与公式总体平均数：,样本平均数,2）平均数的基本性质：,简记为,例测某水稻单株粒重的样本5个观察

10、值分别为3，8，7，6，4g，试计算该样本离均差之和。,【例21】在大豆区域试验中,吉农904的6个小区产量分别为25.0、26.0、22.0、21.0、24.5、23.5（kg）。求该品种的小区平均产量。即吉农904的小区平均产量为23.5kg,3）平均数的计算直接法,加权法,式中，xi-各组组中值；fi-各组次数；K-分组数。各组的次数fi是权衡各组中值xi在资料中所占比重大小的数量，因此f被称为组中值xi的“权” 。,【例22】用加权法计算表2-6资料中140行水稻平均产量。即140行水稻平均产量为157.93g。采用直接法算得 =157.47g，用加权法计算的结果与其十分接

11、近。,样本平均数是总体平均数的无偏估计,统计上定义：当一个统计数的数学期望等于相应的总体参数时，则称该统计数为其总体参数的无偏估计。,统计数的无偏性有两个含义：第一是无系统性偏差，把这些正负偏差在概率上平均起来，其值为零；第二是当统计数使用次数无限增大时，取其平均值，能无限逼近被估计的量。因此无偏估计不等于在任何时候都给出正确无误的估计。,例:有一总体:1,6,4,5,6,3,8,7.,则=x/N=5 如从中取样本容量为3的样本, 则有,个样本.,其中只有4个样本:,数学期望是指所有样本平均数的平均值等于,这就是无偏估计的概念.,平均数有二个缺点：一是它易受较大值或较小值的影响；二是在有些情况

12、下不具有实际意义。因此在反映资料的集中性或代表性时，还需要引入其他平均数的概念。,例: 买100元某基金,5年净值如下,计算平均年收益率. 110 130 100 160 171 14.4% 110 130 80 160 171 19.3%,2、中位数和众数,中位数又称中数 (median)，记为Md。将观察值按大小依次排列，当观察值数目为奇数时，最中间的观察值就是中数Md;当观察值数目为偶数时，最中间的两个观察值的算术平均数为中数Md。,在资料中出现次数最多的数或组中值称为众数（mode），记作M。,3、几何平均数和调和平均数,设有n个观察值，其乘积开n次方所得的值，即为几何平均数，常用Mg

13、表示，即：,几何平均数常用在生长率、生产动态及药物效价分析上。,调和平均数,设有n个观察值，各观察值倒数的算术平均数之倒数就称为调和平均数，用H表示，调和平均数主要求一个过程不同阶段的平均速度。,调和平均数主要用于反映研究对象在不同阶段的平均速度。如土壤毛细管中水分上升速度。,二、变异数,变异数就是表示资料变异大小的统计数，最常见的变异数有极差、标准差、变异系数。,因为R甲=23-13=10 R乙=20-16=4 所以认为甲的变异程度大于乙。,1、极差：最大值与最小值之差。,2、方差与标准差,1）定义：把每个观察值与平均数之差（）称为离均差（deviation from mean），表示观察

14、值偏离平均数的距离。资料的变异大，各数据分散，各离均差的绝对值大；反之，各离均差绝对值则小。,由于,因此,避免了离均差之和为零。离均差平方和简称平方和（sum of square），记为SS。,总体样本,平方和(SS)的大小受观察值个数的影响，就同一对象而言，若观察值个数多，SS增大，反之则减小。为消除SS的这个缺陷，可将SS除以观察值的个数得到平均平方和，称之为方差 (variance)。,总体方差通常无法得到，而由样本方差估计，样本方差一般称之为均方 (mean square)，记为 or MS 。在计算样本方差时，是离均差的平方和除以（n-1）而不是样本容量n 。把(n-1)称为自由

15、度(degree of freedom)，记为df或DF。,自由度的概念,在计算离均差平方和时，能够自由变动的离均差个数。 n个离均差受到这一条件的约束，能自由变动的离均差个数是n-1，第n个离均差不能再任意变动。一般情况下，计算离均差平方和有k个约束条件，则其自由度d=n-k。,计算样本方差为什么要用自由度作分母？,统计学已经证明：用,计算的样本方差才是总体方差的无偏估计。,因为,标准差(standard deviation),统计学上把方差的正的平方根称为标准差。,方差和标准差，都可度量资料的变异程度，反映平均数代表性优劣。在实际问题分析中，为全面描述资料的特征，常将平均数与标准差配合

16、使用，如水稻单株粒重。,2）、样本方差和标准差的计算,f 为各组次数，为各组组中值，为样本平均数，n= 为样本容量。,【例28】：测量某一水稻单株粒重得5个观测值：3、8、7、6、4（g）。计算其标准差S。即该样本标准差为2.07g。,【例29】根据表2-6的次数分布资料采用加权法计算每行水稻产量的标准差。若采用直接法计算标准差，S=36.24g。,试描述或解释下列两个样本的不同,3、变异系数(coefficient of variation),为了比较具有不同单位，或单位相同但平均数大小不同的两个样本之间的变异度，需要以平均数为单位统一标准差的量纲，定义变异系数CV。,表2-13、两个小麦品种主茎高度的平均数、标准差与变异系数,从标准差看，甲的主茎高度变异比乙大。但两者平均数不同，须用变异系数进行比较。CV甲=9.23%，CV乙=10.92%，因此认为甲的变异程度比乙小。,本章重点:,样本与总体，参数与统计数的概念和关系；学会运用统计表、统计图来描述研究对象的规律；掌握平均数，方差，标准差及变异系数的概念、计算和使用. 思考题 10,

展开阅读全文