生物统计学基本概念及公式.doc

资源描述

《生物统计学基本概念及公式.doc》由会员分享，可在线阅读，更多相关《生物统计学基本概念及公式.doc（22页珍藏版）》请在三一文库上搜索。

1、生物统计学（Biostatistics）是以概率理论为基础,研究生命科学中随机现象规律性的应用数学科学。涉及到医学科学研究的设计、资料搜集、归纳、分析与解释的一门应用性基础学科、二、科学研究的基本程序 1、提出一个欲待研究的问题：2、科学研究设计：专业设计、统计学设计：统计学设计（statistical design）：是指用统计学原理对研究的全过程所作出的周密合理的统筹安排，如确定研究对象，拟定研究因素及其分配，如何执行随机、对照与重复的统计学原则，如何观察与度量效应，以及数据收集、整理与分析的方法,通过合理的、系统的安排，达到控制系统误差，以尽可能少的资源消耗（最小的人力、物力、财力和时

2、间）获取准确可靠的信息资料及可信的结论，使效益最大化。3、获取试验与观察的资料，又称为搜集资料4、数据审核与计算机录入5、分析资料描述性统计（descriptive statistics）是指用统计指标、统计图、统计表等方法，对数据的特征及其分布规律进行检测与描述。统计推断（inferential statistics）是通过随机样本信息推断总体特征的过程。统计推断又包括置信区间（confidence interval）估计与统计学假设检验（hypothesis test）。统计学分析过程按变量的多寡可分为单变量分析与多重变量分析。 6、分析结果的合理解释(Explication of r

3、esults)：研究中应注意的问题1、统计学结论的正确与否取决于统计学分析数据的真实性、准确性以及研究样本对研究总体的代表性。 2、尽可能地控制系统误差是统计分析数据真实性、准确性的保证。3、随机化抽样是确保样本数据对研究总体具有代表性的重要过程。变量variable：在总体中,个体的许多属性（如年龄、性别、血浆胆固醇等）存在变异性，统计学上将反映个体属性变异性特征的指标称为随机变量（Random variable)，简称变量; 针对不同类型的属性，需采用不同类型的变量，因而产生不同类型的资料。总体（Population）与样本(Sample)：根据研究目的所确定的具有相同性质的观察单位的集

4、合成为总体（母体）。从同一总体中通过随机化过程抽取的部分观察单位称为样本（子样）。抽样（Sampling）从研究总体中通过一定原则获取样本的过程样本含量（Sample size）.样本中所包含的基本研究单位数量同质（Homogeneity）：同一总体中的每一个体都具有相同性质类别的特征。变异(Variation)：同一总体中的各个体间的差异性。随机化（randomization ）：能使总体中每一观察单位均能以同等机会（概率）进入样本，或分配到实验组与对照组的过程。抽样误差（Sampling Error）：由于总体中各个体间存在变异性，因抽样过程的随机性所至样本的统计量与总体的参数不等，或多个

5、样本的统计量存在差异性称为抽样误差。概率（Probability）：描述随机事件发生的可能性的度量。随机事件A的发生概率记为 P(A)。概率的取值在0 到 1之间，若P=1或P=0的事件称为必然事件,若0P1 的事件为随机事件。概率接近于0（如P50例)：z近似，t更精确配对设计资料均数的比较1.异源配对：将受试对象按某些混杂因素（如性别、年龄、窝别等）配成对子，然后将每对中的两个个体随机分配给两种处理（如处理组与对照组），对子成对出现，仅对对子中的两个体进行随机。2. 同源配对(或自身配对)：同一受试对象作两次不同的处理（如甲法、乙法），或一种处理的前后比较。优点：配对设计减少了比较对子间的

6、个体差异。特点：资料成对（对子编号），利用每对数据间的差值（d）作比较， n=n-1完全随机设计两总体均数的比较实验设计：用完全随机设计(completely random design) 方法，把受试对象随机分为两组，分别给予不同处理，然后比较独立的两组样本均数。各组对象数不必严格相同。但两组例数相等，可提高检验效能。两总体均数的Z 检验当总体方差已知时，应使用Z检验大样本（如两组例数均50例）情况下，尽管总体方差未知，也可用样本方差取代总体方差，用Z检验作近似计算两总体方差间的差异性检验自由度n1-1,n2-1使用双侧的原因：计算F值时，较大方差S12可以作为分子，也可作为分母。注意：

7、一般的方差分析，只采用单侧检验对出现方差不齐情况时统计学应对策略1.采用不以来总体分布的非参数检验2.对原变量合适数学变换，使方差变为齐性方差3.当各组方差相差悬殊时课采用Welch加权方差分析总体方差齐同情况下的t检验：自由度n1+n2-2均数的标准误：方差不齐时t检验卡方检验Chi-square Test卡方检验是对分类资料进行统计推断分析的一种方法。它可以用来比较两个或多个率的差异(同质性检验)或检验两个指标是否关联(关联性检验)或判断列联表的边际分布是否一致(一致性检验)等。理论频数:卡方检验的分类A） 22 四格表：（1）同质性检验-比较两个率；（2）关联性检验B）2k 列联表：（1

8、）同质性检验-比较 k 个率；（2）关联性检验；（3）趋势分析C）RC 列联表：关联性检验：双向无序，单向有序，双向有序D） kk 配对分类数据的卡方检验：1）一致性检验(reliability)；2）对称性检验(symmetry)卡方界值X2（0.05，1）3.841自由度df=(行数-1)(列数-1)=1四格表专用公式(Pearson公式)连续性校正公式Yates：当样本含量40，如有一个格子理论频数小于5时使用四格表的精确概率Fisher exact若有理论频数小于1或n40时，尤其时用其它方法计算概率接近检验水平时使用四格表卡方检验方法的选择原则对于成组分类数据的 22 表: a

9、) n 40，且所有E 5 - Pearson （一般公式） b) n 40，但有 1E5 -Yates（校正公式） c) n 40 或有E1或 p- Fishers exact（精确算法）1) 左单侧检验： H0: 1 =2 vs H1: 1 23) 双侧检验： H0: 1 = 2 vs H1: 1 2左侧概率+右侧概率原表格概率=1行列表卡方检验：RC表有序分类型数据的卡方检验The Chi-square test for ordinal categorical data1）有序分类变量的量化方法（1）等距离法（2）非等距离法（3）秩得分法（rank scores）：第i行秩得分：第j

10、行秩得分：（4）Ridit 得分法（ridit scores）：在秩得分的基础上进行：r2i=r1i/n；c2i=c1i/n（5）调整Ridit 得分法（modridit scores）：在秩得分的基础上进行：r3i=r1i/（n1）；c3i=c1i/（n1）2）标准化得分（样本得分n个样本得分均值）/得分标准差配比方表同质与对称性检验kk 配对分类数据的卡方检验1）一致性检验(reliability)一致性检验方法-kappa 检验2）对称性检验(symmetry)（a） McNemar 检验-2 2 表配对四格表公式： b+c40时使用 b+c50mg”等 )缺点：方法比较粗糙，对于符

11、合参数检验条件者，采用非参数检验会损失部分信息，其检验效能较低；样本含量较大时，两者结论常相同应用非参数检验的情况：1.不满足正态和方差齐性条件的小样本资料；2.总体分布类型不明的小样本资料；3.一端或二端是不确定数值（如0.002、65等）的资料（必选）；4.单向有序列联表资料；5. 各种资料的初步分析。秩次(tie)将数值变量值从小到大，或等级变量值从弱到强所排列的序号。两个独立样本检验Wilcoxon秩和检验Wilcoxon rank sum test1区间（计量）数据的两样本比较：符合参数条件时，采用两样本均数的t检验2有序（等级）数据的两样本比较常错误采用卡方检验名义数据的两样本比

12、较，采用率或构成比的卡方检验K个独立样本检验完全随机设计多个样本比较的Kruskal-Wallis H检验1.区间（计量）数据的多个样本比较 Kruskal-Wallis H检验；如果满足参数条件，这类资料一般作完全随机设计ANOVAK个相关样本检验：随机区组设计多个样本比较的Friedman M检验等级相关：应用：两个样本的相关分析，当两个变量不服从正态分布时，可以采用等级相关分析。医学研究的统计学设计研究设计的基本类型1. 实验(Experiment)研究 (干预) 受试对象：人临床试验（clinical trial）动物动物实验（ animal experiment ）临床试验：治疗

13、临床疗效实验预防社区干预实验（community intervention trial） 2. 调查(Survey)研究 (无干预) 被动地观察、如实记录研究设计的重要性设计好：（1）既省又可靠；（2）可估计和控制误差；（3）获取多方面知识设计不好：（1）杂乱无章、虽多犹无；（2）只能罗列现象、无规律可言两种研究类型的区别与联系实验研究调查研究干预因素施加不施加研究类型推断性描述性研究范围较小大研究地点实验室或现场现场控制误差较好较差相互关系对调查加以验证为实验提供线索研究设计的基本要素（一）处理因素( treatment factor )（二）受试对象( subject )（三）实验效应

14、( experimental effect )1. 客观性：主观指标和客观指标。2. 精确性：准确度(accuracy)或真实性(validity)观察值与真实值的接近程度，受系统误差的影响。常用指标：灵敏度、特异度精密度(precision)或可靠性（reliabiliy）或重复性（repeatability）重复观察时观察值与其均值的接近程度，受随机误差的影响。常用指标：Kappa值、一致百分率实验设计的基本原则1.随机化原则（randomization）；2.对照原则 (control)；3.重复原则 (replication)：重复(replication)是指各处理组与对照组要有

15、一定样本含量(sample sizes)。几种不同设计类型的随机化分组：（1）完全随机实验设计：将观察单位完全随机地分配到实验组与对照组或几个对比组中去。（2）配对实验设计paired experiment design： 1.同源配对：同一受试对象用两种不同的实验方法；受试对象自身实验前后的对比。2.非同源配对：将具有相同条件的实验对象配成对子。（3）随机区组实验设计 (randomized block experiment design) （1）将多方面条件相近的受试对象配成一组，称作一个区组（block）。（2）每个区组的受试对象个数取决于对比组组数。 (3) 每个区组的受试对象

16、被随机地分配到各对比组中。配对设计的扩展，故又称配伍组设计（4）交叉设计：(cross-over experiment design)每个受试者随机地在两个或多个不同试验阶段分别接受指定的处理(试验药或对照药)。同源配对设计的扩展优点：（1）控制个体间的差异，（2）减少受试者人数。对照的形式：包括：空白对照、实验对照、标准对照、自身对照、相互对照、历史对照设立对照应注意的事项(1)均衡：对照组与实验组除研究因素外，其他因素应尽可能相同(2)同步：对照组与实验组应处于同一空间和同一时间常用的抽样方法 1.单纯随机抽样simple random sampling：先将总体的全部观察对象

17、编号，再利用抽签或随机数字表的方法随机抽取观察对象组成样本。最基本的抽样方法2. 系统抽样systematic sampling：按照一定的顺序，机械地每隔若干个单位抽取一个单位的方法。又称间隔抽样，机械抽样3.分层抽样stratified sampling：先按某种特征将总体分为若干组别、类型或区域等（统称为“层”），再用随机抽样的方法从每个子总体中抽取样本。要求“层内齐同，层间不同”。4. 整群抽样cluster sampling：按群体而不是按个体抽取观察单位的抽样方法。各种抽样方法的抽样误差顺序：分层系统单纯整群误差( error )：实测值与真值之差。系统误差(systematic error)：在一定实验条件下，由某种未发现或未确定的因素所引起观测值具有方向性和系统性的误差，又称偏倚（bias）。（三）系统误差类型及其控制类型发生阶段控制选择偏倚设计随机化测量偏倚实施盲法混杂偏倚分析配对、分层样本含量的估计与检验效能样本含量（sample size）：为了保证研究结论的可靠性，确定的实验研究或调查

展开阅读全文