生物统计学第一章(课堂PPT).ppt

资源描述

《生物统计学第一章(课堂PPT).ppt》由会员分享，可在线阅读，更多相关《生物统计学第一章(课堂PPT).ppt（109页珍藏版）》请在三一文库上搜索。

1、1,生物统计学,生命科学学院王志高,2,为什么要学统计学？,3,1. 采用统计学方法，发现不确定现象背后隐藏的规律。变异（variation）是社会和生物医学中的普遍现象。许多个体之所以能汇集成一个总体，必定存在共同的特征，共同的特征是他们的同质性，但个体之间又不是完全相同的，这种个体之间的差异就是变异。变异使得实验或观察的结果具有不确定性，如每个人的身高、体重、血压等各有不同。,4,最大值=6.18, 最小值=3.29, 极差=2.89 算术均数=4.72，标准差=0.57。,5,2. 用统计学思维方式考虑有关生物学研究中的问题 “阳性”结果是否是虚假联系？某感冒药治疗1周后，治愈率

2、为90%，能否说该感冒药十分有效？ “阴性”结果是否是样本含量不足？有人曾对发表在Lancet, N Engl J Med，JAMA等著名医学杂志上的71篇阴性结果的论文作过分析，发现其中有62篇（ 93%）可能是由于样本含量不足造成的假阴性。,6,什么是生物统计学？,生物统计学是应用数理统计的原理和方法来分析和解释生物界数量现象的科学，也可以说是数理统计在生物学研究中的应用。它是现代生物学研究不可缺少的工具，不论是传统学科还是现代分子生物学，时时刻到都会与数字打交道。为了揭示生物体内在规律或生物与环境之间的关系，都离不开因素分析、待别是多元分析。,7,设计统计原理，阐述统计理论和有关公式

3、，以满足统计方法的需要统计方法的应用，旨在对客观事物得出本质的和规律性的认识。人们在从事科学研究时，总是通过事物一部分（样本）来估计事物全体（总体）的性质特征，即从样本推断总体，从特殊推导一般，从而对所研究的总体得出正确的结论。在生物科学研究中，我们期望知道总体不是样本。可是在实际问题调查和试验中，我们所得到的却只是样本资料。生物统计学从本质来看，实际上是研究如何从样本推断总体的一门科学。,8,课程特点与学习方法,（一）课程特点与要求本课程重点介绍基本概念、基本方法，主要从应用角度理解，简化推证过程。掌握生物统计的基本方法，熟悉常用实验设计方法。,9,二）建议学习方法,1. 掌握

4、生物统计学的基本原理和公式，理解公式的含义和应用条件，不深究推导过程； 2. 培养科学的统计思维方法。结合专业，了解统计方法的实际应用。 3.学会使用常用的统计软件。,10,教学内容,第1章统计数据的收集与整理第2章概率分布与抽样分布第3章统计推断与参数估计第4章拟合优度检验第5章方差分析第6章一元回归及简单相关分析第7章实验设计,11,第一章统计数据的收集与整理,1.1 总体与样本总体、样本、样本含量、抽样（方法） 1.2 数据类型与频数（率）分布数据的类型、频数表与频数图的编绘 1.3 样本的几个特征数平均数、标准差、方差、变异系数,12,几个常用术语,变

5、量与常数误差与错误准确与精确测量与测量尺度,13,对随机变量的取值过程为测量。取值所采用的标准为测量尺度。,测量和测量尺度,采用统一的标准化的尺度进行测量，其测量结果一般是稳定的和一致的，例如身高、胸围等形态指标的测量均采用统一的测量尺度(全国统一研制的身高计、胸围尺均以厘米为记录单位，体重以公斤为记录单位，肺活量以毫升为单位等),14,变量可以测量的任何特征或属性Any characteristic or attribute that can be measured。（不同个体结果可能不同）随机变量在概率论中称变量为随机变量观测值（observed value）、变量值（valu

6、e of variable）、资料（data）变量的测得值。,15,变量可是定量的，也可以是定性的。定量变量（quantitative variable）：亦称为数值变量，变量值是定量的，表现为数值大小，一般有度量衡单位。e.g. 身高、体重。定性变量（qualitative variable）：亦称为分类变量，其变量值是定性的，表现某个体属于几种互不相容的类型中的一种。e.g. 血型，豌豆花的颜色。常数（constant）：是不能给予不同数值的变量，代表事物特征和性质的数值。e.g.样本平均数，标准差。,16,误差（Error）测量值=真实值+随机误差+非随机误差 1随机误差（随机

7、抽样误差）：由于试验中许多无法控制的偶然因素所造成的试验结果与真实结果之间产生的误差，是不可避免的，不能消除的。 2系统误差受确定因素影响，大小变化有方向性。某种程度上可以控制。 3非系统误差（错误）研究者偶然失误而造成的误差。,17,准确度与可靠度,准确度(accuracy)或真实性（validity）：观察值与真值的接近程度，受系统误差的影响。可靠度（reliabiliy）也称精确度(precision)或重复性（repeatability）：重复观察时观察值与其均值的接近程度，受随机误差的影响。,18,1.1 总体与样本,一、总体总体（population）是我们研究的全

8、部对象。总体又分为无限总体（ infinite population ）和有限总体（finite population ）。例如，研究在某种条件下生长小麦的株高，因为无法估计出在这种条件下生长的小麦数量，可以设想这一总体是无限的。如果研究每个地块小麦的株高，这一总体就是有限总体。构成总体的每个成员称为个体（individual）。,19,二、样本,从总体中抽取的一部分个体则构成样本（sample）。样本内包含的个体数目称为样本容量（sample size），常以n表示。由于样本容量不同，一般又分大样本（n30）和小样本（n30）。统计分析的核心在于由样本的信息推断总体的信息。因此

9、，获得样本仅是一种手段，而推断总体才是真正的目的。,20,参数：总体的统计指标，如总体均数、标准差，采用希腊字母分别记为、。固定的常数,样本,抽取部分观察单位,统计量,参数,推断inference,样本统计量：样本的统计指标，如样本均数、标准差，采用英文字母分别记为。参数附近波动的随机变量。,总体,21,三、抽样,从总体中获得样本的过程称为抽样（samlping）。抽样的目的是希望通过对样本的研究，推断其总体。例如，希望由100株“三尺三”高梁的株高推断在这种条件下生长的该品种的株高，这就要求样本应能在最大程度上代表总体的情况。为此，在从总体中抽取样本时，总体中的每一个个体被抽

10、中的机会必须都一样，不能带有偏见。,22,又如，在小麦育种工作中，我们常常希望得到矮秆品种。为了满足个人愿望，在抽样时便多抽矮秆的，这样得到的样本没有代表性，属于偏性抽样，不能代表总体的情况。样本应该是一个总体的缩影。为达到这个目的，需要用随机抽样（random sampling）方法获得样本。,23,（一）随机抽样的方法,1 抽签-筷子；2 抓阄-纸条；3 随机数字表-P322（附表1）例如：需要从包含4728个个体的总体中，抽出一个含量为20的样本。因为个体总数4728是一个四位数，所以总体中每一个个体的编号都应是四位数，即从0001号到4728号。第一步，闭上眼睛用铅笔在随机

11、数字表上任意点上一点，假若点到奇数上，就用第一页表；点到偶数上，就用第二页表。第二步，在选定的那一页上再点一次，决定从哪个字开始。决定了起点以后，开始以四位数字为一节连续读下去，不用考虑数字间的间隙。可以正读、倒读、横向读、纵向读，也可以沿对角线方向读。选出小于等于4728的数字，大于4728的则舍弃，直到取满20个数为止。这20个数所对应的个体，即为我们选中的样本。,24,25,（二）随机抽样的方式,1 放回式抽样从总体中抽出一个个体，记下它的特征后放回总体中，再做第二次抽样。这种抽样方式可能会重复抽中某一个体。 2 非放回式抽样从总体中抽出个体后不再放回。在上述的例子中，若保留

12、重复的随机数字，则为放回式抽样；若舍弃重复的数字，则为非放回式抽样。对于无限总体来说，放回式抽样和非放回式抽样，实际上没有区别。样本的含量越大越有代表性。但是，太大的样本研究起来是很困难的。因此，样本的含量必须合适。,26,1.2 数据类型与频数（率）分布,1.2.1 连续型数据和离散型数据生物统计学中经常遇到的数据有两种类型：即连续型数据和离散型数据。用量测方式所得到的数据称为连续型数据（continuous data），又称为度量数据（measurement data）。例如，长度、时间、质量、OD值、血压值等。这类数据通常是非整数。虽然有时记载的是整数，如身高的厘米数，但是当提高精

13、确度后，总会出现小数。对连续型数据进行分析的方法通常称为变量的方法（method of variable）。,27,用计数方式所得到的数据称为离散型数据（discrete data），又称为计数数据（count data ）。例如，某一类别动物的头数，具有某一特征的种子粒数，血液中不同类型的细胞数目等。所有这些数据全都是整数，而且不能再细分，也不能进一步提高它们的精确度。对离散型数据进行分析的方法通常称为属性的方法（method of attribute）。描述数据变化规律的最简单方法是将这些数据列成频数表（frequency table）或绘成频数图（frequency graph），根

14、据频数分布进行研究。,28,1.2.2 频数（率）表与频数（率）图的编绘,一、离散型数据频数（率）表与频数（率）图的编绘例1.1 调查每天出生的10名新生儿中，体重超过3千克的人数，共调查120天。每天的10名新生儿中体重超过3千克的人数，可能有11种情况：1名也没有，有1名，有2名，10名都是，如表1-1的第一列所示，这一列称为组值（class value）。表1-1的第2列所记载的是调查结果。全部调查完毕，累加各行结果填入频数一栏（第3列），或者将各行的结果除以总数而得出频率（第4列）。所谓频率，即将某一类别的数目除以总数所得到的分数。把频数或频率按超过3千克的人数的顺序排列起来，便得

15、到了频数分布（frequencydistribution）或百分率分布percentage distribution ）。,29,30,编制连续型数据的频数（率）表的方法步骤从原始数据表中找出最大值和最小值，并求出极差。决定划分的组数，分组数是由数据的多少决定的，在数据较少时，如50100个数，可以分为710组。数据较多时，可分为1520组。根据极差与决定划分的组数，确定组限。在频数表中列出全部组限、组界及中值。将原始数据表中数据，用唱票的方式填入频数表中，计算出各组的频数和频率。,31,极差（range）：数据中最大值和最小值之差，又称全距。组限（class limit）：各组

16、的最大值与最小值称为组限，最小值称为下限，最大值称为上限。中值（midvalue）：每一组的中点值，一般是每一组的两个组限的平均值。,32,在横轴上标明各组的组界，纵轴标明频数，然后以每一组的组界为一个边，相应的频数为另一个边作矩形，构成直方图（histogram）（图1-2）。若纵轴改为频率则得到频率直方图。直方图又称组织图。,33,2 多边形图在横轴上标出各组的中值，纵轴上标出频数（率），在坐标平面内标出相应的每个点（以中值为横坐标，以该中值对应的频数（率）为纵坐标），用线段连接各点。最低一组非零频数的点，应该直接与相邻的零频数中值相连；最高一组非零频数点，亦应该与相邻的零频数中值

17、点相连。最后得到一个多边形图（polygon）（图1-3）。,34,累计频数图的意义？,横坐标与多边形图有何差异？,3 累积频数图经常使用的第三种频数图称为累积频数图cumulativefrequency graph）。作图法为：首先根据表1-3制成累积频数表（表1-4）、在横轴上标出各级的中值，纵轴上标出累积频数（率）。在坐标平面内标出相应的点（以中值为横坐标，以该中值对应的累积频数（率）为纵坐标），连接各点，从而得到累积频数（率）图,35,研究频数（率）分布的意义,1. 根据频数（率）分布，可以看出数据的集中情况（重心）。平均值（average value, mean）算术平均数（a

18、rithmetic mean）、中位数（median）和众数（mode）。 2. 从频数（率）表或频数（率）图中，可以直观地看出数据的变异情况。 3. 可以直观看出频数（率）图的变化形状。还可显示一些不规则的情况。,36,频数（率）分布的不恒定性,当用随机抽样方法获得样本时，由于偶然性，有时在一个样本中抽到的数值偏高，而另一个样本中数值偏低，使两个样本的频数分布出现不同。由于样本分布的不恒定性，当用样本去推断总体时，推断的结果也会有所不同。这就需要考察当用某一样本去推断总体时所得结果与真正总体之间有多大误差，结果的可信度有多高。,37,1.3 样本的几个特征数,某班某次考试的成绩,38,频数表

19、和频数图只能定性地描述一组数据。对于生物统计学来说，这种描述远远不够。为了更客观地描述这些数据，需要借助于以下分析工具的帮助。它们是数据集中点的度量平均数，数据变异程度的度量极差、方差、标准差和变异系数。这些数字是描述样本频率分布特征的，称为样本数字特征或简称为样本特征数（samp1e characteristics）（总体称参数）。,39,平均数（mean）,平均数是统计学中最常用的统计量，用来表明资料中各观测值相对集中较多的中心位置。主要包括：算术平均数（arithmetic mean）中数（中位数）（median）众数（mode）几何平均数（geometric mean）调和

20、平均数（harmonic mean）,40,算术平均数,（一）算术平均数定义算术平均数是指资料中各观测值的总和除以观测值个数所得的商，简称平均数或均数。（二）算术平均数计算 1 直接法主要用于样本含量n30以下、未经分组资料平均数的计算。,41,生物统计学中，使用最多的是算术平均数,42,2 加权法,对于样本含量 n30以上，且已分组的资料，可以在次数分布表的基础上采用加权法计算平均数：,43,算数平均数的基本特征,算术平均数的计算与样本内的每个值都有关，它的大小受每个值的影响。若每个xi都乘以相同的数k，则平均数亦应乘以k。若每个xi都加上相同的数A，则平均数亦应加上A。如果

21、是n1个数的平均数，是n2个数的平均数，那么全部n1 n2个数的算术平均数是加权平均数（weighted mean）：,44,平均数的计算方法,离散型数据频数资料：,注意记住所有字母符号的含义,45,例1.1 新生儿体重,作表计算是个好习惯,46,连续型数据频数资料：,47,例1.2 “三尺三”株高,48,二、中（位）数,将资料内所有观测值从小到大依次排列，位于中间的那个观测值称为中位数。当观测值的个数是偶数时，则以中间两个观测值的平均数作为中位数。当所获得的数据资料呈偏态分布时，中位数的代表性优于算术平均数。,49,三、众数,具有最高频数的组值或中值称为众数。具有两个分开的高频

22、率分布称双众数（bimodal）。表1-5 100听罐头净重的次数分布表,50,变异程度的度量,对于数据的变异程度，经常使用的度量方法有三种，它们是：范围（range）或称为极差，平均离差（mean deviation, MD）和标准差（Standard deviation, s or SD）或称为标准离差。其中最重要的是标准差。,51,52,53,54,平均离差（mean deviation, MD）,表16中数据的MD：,55,除得的商称为样本方差（sample variance），用符号s2表示。,离差平方和（sum of square of deviations）,56,标准差（s，

23、SD）,方差的缺点：方差s2是离均差平方的平均数。虽然方差在实际应用中用得最广泛，但它还不能直接地指出某个数x与平均数之间的偏离究竟达到什么程度。,57,s要比MD要大一些。如果数据分布曲线是平滑且对称的，那么大约57的数据落在平均数MD内；如果数据分布曲线是平滑且对称的，那么大约68的数据落在平均数s内。,58,总之，衡量数据离散程度时，三种方法都可以使用。用抽样理论可以证明：用标准差估计总体离散程度最可靠，平均离差次之。,59,标准差的计算方法,1. 非频数资料的计算方法,不要求公式推导。,60,例13 从两个小区分别随机抽取20株小麦，测其单穗粒数，结果如下表，计算其标准差。,61

24、,列出下表计算,62,但是若将上述数据进行编码，则可明显看出用（1. 12）式计算极为便利。具体做法是任选一个数C，求每一个数与C的差，利用差值计算离差平方和。结果与未编码所得的值是一样的。C最好选接近平均数的一个数，这样编出的数码最容易计算。,63,现仅对例1.3中的第一个小区进行计算，取C25，于是xx25。根据（1.12）式,编码和列表都是好习惯。,64,1. 频数资料的计算方法,65,66,对于连续型数据，可以用中值代替离散型数据中的组值做近似的计算，但是连续型数据中的中值一般都较大，必须编码后再计算。可用下式：,67,68,69,偏斜度和峭度,度量数据围绕众数呈不对称的程度，

25、即通常所称的偏斜度（skewness）。虽然有几种不同的度量偏斜的方法。但是鉴于三阶中心矩（third central moment）的方法有最好的特性，因而使用得最广泛。三阶中心矩的定义为：,70,71,下面用4、11、12和13这四个数示意性地说明三阶中心矩并计算出 m3 。从下表中可以看出，当我们将离差立方后，其中有一个负数，它远远超过另外三个正数，其代数和为负数，因此m3 负数说明在平均数左侧的离差大于右侧的离差。因此分布是不对称的。,72,若频数分布是对称于平均数的，则三阶中心矩等于0。当曲线在大于平均数的一侧有一个“长尾”时（图15A），m3 0；正偏。当曲线在小于平均数的一

26、侧有一“长尾”时（图15B），m3 0。负偏。,73,74,m3的两个严重缺点,（l）它的单位为物理学单位的立方，因此在不同类型数据之间不易比较。（2）因为它没有计算数据变异的性质，因此没有一个绝对的含义。为了解决这一问题，制定了一个没有任何单位的量。,75,76,77,第二个度量曲线形状的量是g2，称为峭度（kurtosis）,78,不要求推导。,79,了解,80,对于频数资料，可用类似计算标准差的方法，将中值编码后再计算。可以使用以下公式：,了解,81,例1.2 “三尺三”株高分布的g1和g2。将表1-3中的数据用C157编码后，列成下表,82,g1和 g2值与“正态”曲线的值差异都不大

27、。g1-0.105与正态的0很接近，但稍微有些负偏。g20.295略高于正态的0，即曲线的峰略突起。所以两者均可被认为接近“正态”曲线。在做曲线形状判断时，必须是一个大的样本， g1 和 g2 才可靠。判断g1 时，样本含量至少要200以上，g2需l000以上。以上各阶矩都是由样本计算得到的，因此称为样本矩（sample moment）。,83,变异系数（coefficient of variability，CV）,假若两组数据的标准差相等，但是平均数不等，那么平均数大的样本，比平均数小的样本相对来说更整齐。为了客观地比较两者的变异程度，引入变异系数（coefficient of variability，CV）这一概念。变异系数的公式为：,84,85,86,87,88,89,90,91,92,93,94,95,96,97,98,99,100,101,102,103,104,105,106,107,108,素材和资料部分来自网络，如有帮助请下载!,

展开阅读全文