Arlequin操作说明.doc

上传人:本田雅阁 文档编号:2725579 上传时间:2019-05-08 格式:DOC 页数:31 大小:1.90MB
返回 下载 相关 举报
Arlequin操作说明.doc_第1页
第1页 / 共31页
Arlequin操作说明.doc_第2页
第2页 / 共31页
Arlequin操作说明.doc_第3页
第3页 / 共31页
Arlequin操作说明.doc_第4页
第4页 / 共31页
Arlequin操作说明.doc_第5页
第5页 / 共31页
点击查看更多>>
资源描述

《Arlequin操作说明.doc》由会员分享,可在线阅读,更多相关《Arlequin操作说明.doc(31页珍藏版)》请在三一文库上搜索。

1、ARLEQUIN 使用说明引 言Arlequin是一款优秀的人类遗传学数据分析软件,其名字来源于法语“Arlecchino”,是一个十七世纪意大利著名喜剧人物的名字。这个喜剧人物具有多个面目,可以根据需要,多个角色之间轻而易举的相互转变。Arlequin软件包如此取名,大概是为了说明此款软件能够满足遗传分析方面的需求。Arlequin软件包提供了许多方法和统计学检验来从遗传学和人口统计学数据(如大量的分子序列数据和传统的等位基因频率等)中挖掘信息。Arlequin 软件有着友好的Java图形操作界面,便于使用者操作。Arlequin软件包由Stefan Schneider、David Roes

2、sil和Laurent Excoffier三人完成。Arlequin软件包下载和升级的网址为:http:/anthro.unige.ch/arlequin。下载后的Arlequin软件包基本由Arlequin20_zip.exe和jre117-win32.exe组成,在运行Arlequin程序之前,需要先安装jre117-win32.exe。Arlequin20_zip.exe是个自解压的程序,点击此程序将文件释放到所选择的目录,就可以运行了。在上述网址还提供了一个升级包arlpatch2001.zip,修正了原软件里边的一些bug,并提高了某些计算程序的精确性;下载后解压,直接运行即可。Ar

3、lquin 功能概述: Molecular diversity (分子多态性) Mismatch distribution (错配分布) Haplotype frequency estimation (单倍型频率估计) Linkage disequilibrium (连锁不平衡):检测不同位点上等位基因的非随机关联 Hardy-Weinberg equilibrium (哈温伯格平衡) Tajimas neutrality test (Tajima中性检验) Fus neutrality test (Fu中性检验) Ewens-watterson neutrality test ( Ewens

4、-watterson中性检验) 以上三个中性检验都是基于无限位点模型,适用于DNA sequence 和 RFLP单倍型。 Chakrabortys amalgamation test (Chakrabortys 融合检验,检测人群的均一性或同质性,和中性选择等) Minimu Spanning Network (MSN,最小扩张树或称之为最小支撑树,基于分子差异) AMOVA (分子差异度分析,用以评测人群的遗传结构) Pairwise genetic distances (遗传距离的估计) Exact test of population differentiation (检测随机交配群体

5、单倍型的非随机分布) Assignment test of genotype (通过估计等位基因频率将单个基因型分配到特定的人群中)Arlequin软件包功能强大,以上列出了本软件包一些基本的功能,下文将对这些功能进行详细的阐释和实例讲解。Arlequin 输入数据的格式Arlequin 软件包大致能接受以下五种数据格式:DNA sequences、RFLP data、Microsatellite data、Standard data、Allele frequency data。这些数据可以使单倍型(haplotypic)数据格式,也可以是基因型(genotypic)数据格式。对于RFLP d

6、ata类型数据,“1”表示存在限制性位点,“0”表示不存在限制性位点,“-”表示限制性位点缺失。对于DNA sequences类型数据,“-”代表一个缺失的核苷酸,“?”代表一个未知核苷酸,R表示A/G(purine),Y表示C/T(pyrimidine),M表示A/C,W表示A/T,S表示C/G,K表示G/T,B表示C/G/T,D表示A/G/T,H表示A/C/T,V表示A/C/G,N表示A/C/G/T。Arlequin 软件包输入文件的扩展名应该为*.arp,配置文件的扩展名为*.ars。在Arlequin 软件包输入文件中,#后可以输入任何字符,直至此行结尾。1、Alequin输入文件的格

7、式- profile在一个Alequin输入文件的最开始是 Profile 部分profileTitle=“” 当前分析数据的名称或标题(双引号内可以为任何字符串)如:Title=“ancient mtdna data of QiDan”NbSamples= (指所分析数据中人群的个数,可以是1-1000之间的任何整数) 如:NbSamples= 6。DataType= 此部分用以说明所分析数据的格式。可以输入的字符有:DNA,RFLP,MICROSAT,STANDARD,FREQUENCY。例如:DataType=DNAGenotypicData=此参数用来说明所分析的数据是单倍型数据还是基

8、因型数据。可以输入的字符为:0(haplotypic data)和1(genotypic data )例如:GenotypicData= 0LocusSeparator=此参数用以说明在不同的位点用何字符来分离等位基因。可使用的字符有:WHITESPACE,TAB,NONE,或除#、?、-,以外的任何字符。例如:LocusSeparator= TAB。缺省值为:WHITESPACEGameticPhase=此参数用以说明配子片段的基因型是否已知。此处可使用的字符有:0(gametic phase not known)和1(known gametic phase)例如:GameticPhase=

9、 1。缺省值为:1RecessiveData=此参数用以说明所研究基因型数据是否为隐性等位基因。此处可使用的字符有:0(co-dominant data 共显性)和1(recessive data隐性数据)。例如: RecessiveData= 1。缺省值为:0MissData=用来确定用什么字符来代表缺失的位点数据,这个字符要输入在“”或之间。例如:MissData=“”。缺省值为:MissData=“?”。Frequency=当单倍型或表现型的频率用绝对或相对的数值来表示时,用到此项。可填的参数有:ABS(绝对数值)、REL(相对数值)。绝对数值可以通过对样本数目的相对频率计算而得到。例如

10、:Frequency=ABS。缺省值:ABSCompDistMatrix=此参数用来说明距离矩阵数据是否来自原始的数据,还是直接就是数字的形式。可采用的字符有:0(利用亚矩阵数据)和1(通过单倍型信息计算距离矩阵)。例如:CompDistMatrix= 1。缺省值:0FrequencyThreshold=此参数用来界定输出文件中,单倍型频率数据的范围。可采用的数值有:从0.01到0.0000001的有理数例如:FrequencyThreshold=0.01。缺省值:0.00001EpsilonValue=此参数代表利用基因型数据用来估计单倍型频率和连锁不平衡的运算法则的收敛标准。此处可以用的数

11、值为:107到10 12例如:EpsilonValue= 10- 10缺省值: 10-72、Alequin输入文件的格式-Data sectionData部分的数据格式要求如下。DataHaplotype list(单倍型数据),如下图所示: FigDistance matrix (距离矩阵数据),如下图所示:Fig对于距离矩阵数据,是一个下三角的矩阵,而且对角线上所有的值为0。由距离矩阵可以计算遗传结构。在AMOVA分析中,矩阵的元素应该是Euclidean distances 正方形的形式。另外,单倍型的名字应该跟距离矩阵行和列的顺序保持一致。如果单倍型的名字在输入文件的其它位置也曾出现,

12、则二者应该保持一致。3、Alequin输入文件的格式- SamplesData后的samples的格式,如下所示:SampleName=此参数用来说明所分析样品的名字。例如: SampleName= “mtdna of XinJiang Han people”注意问题:不同的样本,名字应该是不一样的。SampleSize=说明样本数目的大小,可以输入任何正整数。例如: SampleSize=119注意事项:后边所列出的样本数目必须与此数保持一致,否则程序将不能正常运行。将会在log file中产生一个警告信息。对于频率数据,当相对频率确定时,此项参数可以用来把相对信息频率为绝对频率。Sampl

13、eData= 此参数后边可以直接输入所分析的数据,须在大括号内。例如:Fig4、Alequin输入文件的格式- Genetic StructureStructureName= 说明结构的名称,双引号内可以为任何字符。例如:StructureName= “structure of the samples from Mongolia”注意:这个名字与输出结果中的名字是相对应的。NbGroups=说明基因结构中群体的数目,任何正整数即可。 例如: NbGroups=12注意:如果这个数值不正确,则程序不会运行或出现问题。IndividualLevel=说明分析多样性时,是否在个体水平上。可采用的数值

14、为:0或1。例如: IndividualLevel= 0注意:缺省值为0。1仅适用于基因型数据Group=进行分组。在此项中,“#”不能出现在括号中,否则会导致错误的信息。关于组的注释信息,应该在确定分组之前已经说明。对于分组,示例如下:Fig5、Alequin输入文件的格式-Mantel test settings这个选项可以用来计算矩阵间的相关性,如Ymatrix和X1之间,Ymatrix、X1 和X2 之间。MatrixSize=用来确定用于Mantel test的矩阵的大小。所有的正整数均可。例如:MatrixSize= 5 MatrixNumber=用来计算相关性的矩阵的数目。例如:

15、MatreixNumber= 2 YMatrix=作为遗传距离的矩阵。例如,如果用“fst”来计算矩阵之间的相关性,那么每个矩阵的遗传配对差异Fst将被用来计算。其对应关系如下图所示:FigYMatrixLabels=用来确定计算所使用的Ymatrix。把选定的距离矩阵的名字,用双引号引起来,置于一个大括号中。如下图所示:FigDistMatMantel=利用YMatrix计算的相关性矩阵的值。形式如下图所示:FigUsedYMatrixLabels=属于此组的矩阵的名字集合,用大括号括起来。形式如下图所示:Fig关于Arlequin输入文件的实例,如下图所示:Fig在Arlequin安装目录

16、下,会有一个名为“datafiles”的文件夹,里边有各种输入数据的例子,分析数据时参照那些例子的格式即可。Arlequin的界面及操作Arlequin软件的操作界面比较友好,操作简便。单击ArlequinFolder中的“arlequin.exe”文件,会弹出如下操作界面。FigFile MenuOpen project :打开所要分析的数据Close project :关掉正在分析的数据Quit :退出Help Menu帮助文件点击“Open Project”按钮,会弹出如下对话框:Fig选择要分析的数据的路径和名字,点击“Ok”即可载入数据,点击“Cancel”则取消此步操作,点击“Cl

17、ear List”按钮清除空白框中的数据,点击“Add to list”可浏览电脑文件夹,载入要分析的数据。点击“Configuration”按钮,操作界面变为如下图所示:FigUse associated settings: 如果选中此选项,则Alequin对每套数据都将自动载入相同的设置。Append results:如果选项则每次的运行结果都自动添加到前次运行结果之后。Include distance matrix results:如果选中此选项,则利用单倍型估计分子分歧度的距离矩阵将在结果文件中显示出来。Keep AMOVA null distribution:选中此选项,结果文件中空

18、分布的运行结果与输入文件相同,但扩展名为*.va、*.vb等。Location of browser to view results:确定结果文件的存放位置。Location of Editor to view project:确定用何种文件编辑器去查看或编辑 Alequin projcet 和 log 文件。点击“Project Wizard”按钮,会弹出如下对话框。FigData File:确定目标文件的名字和位置,其扩展名必须为 *.arp。Data type:确定所分析数据的类型(DNA、RFLP、Microsat、Standard、Frequency)或Genotype data、G

19、ametic phase、Recessive data。Controls:Number of samples (样本数目)、Locus separator(用什么字符来分隔不同的位点)、Missing data(用什么字符代表缺失的位点数据)。Optional data:list of haplotype (单倍型列表)、distance matrix (距离矩阵)、group structure (分组的结构)。点击“Import Data”按钮,弹出如下对话框。Fig通过此对话框,可以将Alequin 2.0的数据转化为Alequin 1.1、Genepop 1.0、Biosys 1.0、

20、Phylip 3.5、Mega、Win Amova 1.55等软件包的数据格式。载入数据之后,程序的操作界面发生相应的变化。Fig点击“Project”按钮,操作界面如下图所示:FigProject title: 所分析数据的名称。Genotypic data:确定输入数据是双倍体基因型数据还是单倍型数据。Gametic phase:确定输入数据中配子片段是否已知。Recessive data:确定输入数据中是否为隐性Data type:输入数据的类型。Missing data:缺失数据用什么字符来表示。“Browse results”按钮可以用来查看计算分析的结果,利用“Edit proje

21、ct”按钮可以编辑数据文件。“Message”栏显示关于分析数据的基本信息。Arlequin软件还能同时处理多个文件,这点类似于,DOS系统下的批处理命令。这样的批处理文件以“*.arb”为扩展名。打开一个批处理文件,其操作界面与普通数据有所不同,如下如图所示: Fig对上述操作界面,阐释如下:Use assocaited settings:对每套数据采用已经准备好的相关设置。Use interface settings: 对每套数据采用事先预订好的同一套计算设置。Results to summarize:这个选项允许从批处理列表中选择出每个文件所要进行的计算分析选项。这些结果会被写进不同的文

22、件中,但这些文件都以“*.sum”为扩展名,而且这些文件与“Batch file”置于同一目录下。点击“Calculation Settings”,可进行具体的计算分析设置,其操作界面如下图所示:Fig“Calculation Settings”对话框被分为三个部分。在操作界面的左上方是一个树形的结构,使用户可以快速的选择进行何种运算。在操作界面的左下方是针对于每项计算任务的具体参数的设置,各种运算参数可以显示在这个区域。在操作界面的右上方会显示,被选中的计算任务的一些基本信息。“Settings”栏基本信息的说明:Load:载入事先确定好的运算设置(保存在以*.ars为扩展名的文件中)。Sa

23、ve:把当前的运算设置保存到以*.ars为扩展名的文件中。Reset:把所有的设置恢复到缺省值。选择主操作界面左上方树形结构中的“General settings”的“Project files”选项,操作界面变为如下图所示:Fig“Project file”:所进行分析的数据文件的路径及名字(多以*.arp为扩张名)。“Result file”:包含Arlequin软件包运行结果的html文件,此文件的名字与数据文件的名字一致,只是扩张名为*.html。“HTML file”:包含结果文件主要结构的html文件。选择主操作界面左上方树形结构中的“General settings”的“Poly

24、morphism control”选项,操作界面变为如下图所示:Fig对上述操作界面的解释如下:Allowed missing level per site :此参数用来确定用来计算分析的任何位点的缺失数据的多少。例如,0.05的水平意味着,一个基因座如果有超过5%的缺失位点,则在计算过程中将不被认可。这个选项在处理不同个体且测序片断不太相同的DNA数据时,尤其有用。如果把此参数设为0,则意味着在所有个体中不能有缺失位点。相反,如果把此参数设为1,则意味着在所有个体中的缺失位点是允许的。Transversion weitght:颠换的权重(处理DNA序列时)。Transition weight

25、:转换的权重(处理DNA序列时)。Deletion weight:位点缺失的权重(处理DNA序列或RFLP数据时)。Infer haplotypes from distance matrix or Use original haplotype definition: 确定用何种数据来确定相似的单倍型,第一个选项的依据是计算所得的遗传距离,第二个选项的依据是数据原始状态的不同。选择主操作界面左上方树形结构中的“General settings”的“Settings for the EM algorithm”选项,操作主界面变为如下图所示:Fig“Settings for the EM algor

26、ithm”:与EM运算程序及输出直接相关的单倍型频率估计的一些设置。“Significant digits for output”:此参数确定在结果输出文件中,单倍型估计频率的有效数字的多少。“Epsilon value”:此参数设定了一个标准,即当估计未知配子片断基因型数据的单倍型频率或连锁不平衡时,到何种程度才停止程序的继续运算。这个标准在不同的个体单倍型中是不一样的,程序的默认缺省值为1.0E-7。选择主操作界面左上方树形结构中的“Diversity indices”的“Molecular diversity”选项,操作主界面变为如下图所示:Fig对此操作界面的解释如下:“Standar

27、d diversity indices”:计算几种常见的分歧度参数,如等位基因的数目、分离位点的数目、杂合的水平等等。“Molecular diversity”:在分子水平上计算遗传分歧度的几个参数的选择框。“Compute minmum spanning network among haplotypes”:利用每个人群的单倍型数据计算最小支撑树和最小支撑扩张网络图。“Molecular distance”:在比较单倍型差异时,选择遗传距离的类型。“Pairweise difference”为配对差异距离,“proportion of difference”为核苷酸差异数的百分比。“Gamma

28、 a value”:当选择位点之间进化速率不同的位点的遗传距离时,设定gamma功能的图形校正的参数值。这个选项只对于计算某些DNA序列间的遗传距离有用。如果选择了“0”,则将会使gamma参数校正失去意义。如果此数值设置为无穷大,也将使gamma参数校正失去意义。“Print distance matrix”:如果选择此选项,则样本之间的分子分歧距离会在结果文件中显示。Theata(Hom):通过估计观测到的纯质性H而得到的一个参数。Theta(S):通过估计观测到的隔离位点S的个数而得到的一个参数。Theta(k):通过观测到的等位基因k的个数而得到的一个参数。Theta():通过平均配对

29、差异数而得到的一个参数。例如,段论文:采用Arlequin群体系统分析软件对克里雅河流域封闭人群6个STR基因座的实验数据进行处理,计算得到平均基因变化(average gene diversity)为0.58350.3354,平均配对差异 (mean number of pairwise differences) 为3.50121.8135。 选择主操作界面左上方树形结构中的“Diversity indices”的“Mismatch distribution”选项,操作主界面变为如下图所示:Fig“Mismatch distribution”:不配对分布或平均配对差异分析,是将一个或多个群体

30、的任两个序列进行两两比较得出的各序列间的配对差异情况。而群体间的配对差异分析(intermatch distribution)是群体间的序列进行两两比较得出的配对差异情况。“Molecular distance”:程序提供了两种分子距离模型,“Pairwise difference”和“Proportion of difference”。“Pairweise difference”为配对差异距离,仅仅是单倍型之间所观测到的不同的核苷酸的数目;“proportion of difference”为核苷酸差异数的百分比。Number of bootstrap replicates: 进行自展的次数

31、,重抽样的序列用重置的样本位点产生。 “Mismatch distribution”的意义:通过考察群体的核苷酸不配对曲线是否单峰型或多峰型、是否偏离中性检验,可以推测过去群体是否发生过扩张。一般群体在过去经受扩张或持续增长,其核苷酸不配对分布曲线(mismatch distribution)会呈现单峰泊松分布,Tajima D中性检验显著偏离中性突变;而群体大小保持稳定时,核苷酸不配对分布曲线则呈现多峰曲线分布, Tajima D值检验不显著。低的Tajimas D值和配对差异的钟型分布,可以作为一个古代群体扩张的证明。根据核苷酸不配对分析还可估算出值,依据T=/2M(为群体扩张发生的时间,

32、多以世代表示;为序列长度;为进化速率)可推算群体发生扩张的年代。过去对群体时代时间多采用20年或25年的估计值,最近tremblay等分析估算的结果表明30年可能是一个更合适的值。例如:段论文,在研究新疆克里雅河封闭人群时,根据群体核苷酸不配对分析进一步估算出此封闭人群的值为6.277,依公式=2T,采用33的进化速率,则克里雅人群体扩张时间约发生在距今5.3万年前。与计算得的新疆维吾尔人群的值(6.952)、新疆哈萨克人群(6.704)、境外的维吾尔人群(5.838)和境外的哈萨克人群(6.296)非常相似。 选择主操作界面左上方树形结构中的“Diversity indices”的“Hapl

33、otype frequencies”选项,操作主界面变为如下图所示:Fig“Haplotype frequencies”:即单倍型频率。如果输入数据的形式属于配子片断已知的单倍型数据或基因型数据,则操作界面如上图所示。“Gene frequency estimation”:从观测到的数据中,估算最大似然的单倍型频率。“Estimate allele frequencies at all loci”:分别估算所有位点的等位基因频率。“Search for shared haplotypes between populations”:在利用上述“Polymorphism control”遗传距离操

34、作设置计算出配对差异距离之后,估计相似的单倍型。对于每个群体,共享的单倍型将在结果文件中显示。在结果文件中,会出现一个包含每组确定单倍型的表格,并且会给出其在每个群体中相对和绝对的频率。这个选项仅对单倍型数据有效。如果输入数据的形式属于配子片断未知的基因型数据,则操作的界面或选项会出现一些改变。选择主操作界面左上方树形结构中的“Linkage disequilibrium”的“Pairwise linkage”选项,操作主界面变为如下图所示:Fig“Linkage disequilibrium”:此选项可以检测基因位点之间存在的明显的连锁现象。这个测定能够处理除基因频率以外的所有数据类型。基因

35、座的数目可以是任意的,但是如果少于两个多态性位点,则检测不是那么有效。此项操作对于不同类型的数据会有不同的操作界面和选项。对于此操作界面的解释如下:“Number of steps in Markov chain”:进行搜索的最大次数,100000及更大的数值都可以。这个数值越大,P值和估计的分离标准系数就越精确,不过会增长运算的时间。“Number of dememorization steps”:在开始比较观测到的可选择的数据同观测到的数据的可能性之前,进行运算的次数。几千次的运算对于达到一个随机的起始点是必须的。“D and Dcoefficients for all pairs of

36、alleles at different loci”:D是从不同基因作等位基因测定随机相关性的经典的连锁不平衡系数,其计算公式为D=Pij-PiPj。D是被给出的等位基因的最大D值(Dmax)标准化之后的连锁不平衡系数。“Generate histogram and table”:产生有关连锁不平衡的基因作的数目的柱状图,以及位点之间连锁相关的S-S图表。S是多态性位点的数目。计算分析的结果可以保存在名为“lk_hist.xl”的文件中。“Significance level”:检验连锁不平衡时的显著性水平。该操作还根据数据类型的不同,还可以有如下操作界面:Fig“Number of perm

37、utations”:产生的随机序列突变的样本的数目。这个数目可以大于几千。16000可以保证会有少于1%的不同。P值标准误的估算可以通过程序批处理的手段实现。“Number of initial conditions”:设置EM程序开始重复估算样本似然值的随机初始状态的数目。此界面其它选项同上述操作。选择主操作界面左上方树形结构中的“Linkage disequilibrium”的“Hardy-weinberg”选项,操作主界面变为如下图所示:Fig“Hardy-weinberg equilibrium”:检测一个随机配子单位产生的倍数基因型的理论。这个检测仅适用于基因型数据。每个基因座分别检

38、验。“Number of steps in Markov chain”:搜索的最大次数,100000或更大的数值是允许的。“Number of dememorization steps”:在开始比较观测到的可选择的数据同观测到的数据的可能性之前,进行运算的次数。几千次的运算对于达到一个随机的起始点是必须的。选择主操作界面左上方树形结构中的“Neutrality test”的“Infinite-allele models”选项,操作主界面变为如下图所示:Fig“Ewens-Watterson neutrality test”:此理论基于一个处于平衡状态的人群的Ewens样本抽样理论。此检测通常限

39、定基因的数目小于2000,等位基因的数目小于1000。“Number of random samples”:产生的随机样本的数目,一般把数值取在几千或更大。“Chakrabortys test of population amalgamation”:检验人群中性选择、同质性、连锁平衡的一种方法。当样本的异质性被怀疑时可采用此方法,它利用观测到的纯质性(纯合基因)来估算人群的突变参数Hom。对于此参数的估计值可以用来计算观测到的k等位基因的可能性,和从一个稳定群体抽出中性样本的可能性。这种方法对人群的融合和异质性不敏感。选择主操作界面左上方树形结构中的“Neutrality test”的“Inf

40、inite-site models”选项,操作主界面变为如下图所示:FigTajimas test of selective neutrality:通过比较人群参数两个估计值的大小而得,一个估计值是基于样本中分离位点的数目,另一个估计值是基于不同单倍型之间平均配对差异的平均值。在无限位点模型中,如果是中性突变,则这两个参数应该相等。自然选择、人群的不稳定、位点之间突变速率的不同都会导致这两个值的差异。低的Tajimas D值(有时是负值)和配对差异的钟型分布,可以作为一个古代群体扩张的证明。 Fus Fs test of selective neutrality :基于一个给定数目的样本中所观

41、察到的k值或更多等位基因的可能性,它以观测到的配对差异的平均数为条件。这个检验对有人群扩张所造成的群体不平衡比较敏感。选择主操作界面左上方树形结构中的“Genetic stucture”的“AMOVA/MSN”选项,操作主界面变为如下图所示:Fig“AMOVA/MSN”:分子差异性分析及最小支撑树的构建。AMOVA(analysis of molecular variance)是指对分子差异性的分析。它通过对所研究群体进行不同层次的归类和划分,可界定不同的遗传结构并进行统计学检验,从而估计出群体间、群体内以及个体间不同层次所表现的差异占总变异的多少。这种方法可以讨论不同海拔高度、不同语系、以及

42、地理群体间是否存在相应的遗传变异。“Locus by locus AMOVA”:每个基因座单独进行分子差异性的分析。“Include in individual level for genotypic data”:包括个体之间基因分歧度协方差组成和相关的固定指数。因此,它计算观测到的基因间的差异。这是检测Hardy-Weinberg平衡失调的另一种途径。选择这个选型仅对配子片断已知的基因型数据有效。“Number of permutations”:用来检测协方差组成和固定指数的置换数的值。如果数值为0,则不会有任何检测结果。一个较为正确的结果至少要进行几千次检验。“Compute minimu

43、m spanning network among haplotypes”:利用分子差异计算并绘制单倍型之间的系统树。“Euclidian square distances”的选择:1)“Use project distance matrix”,利用数据文件中的距离矩阵,如果可能的话。2)“Compute distance matrix”,根据选定的距离模型计算距离矩阵,在数据文件中事先被定义的距离矩阵将会被忽略。单倍型数据和基因型数据都可以产生这样的矩阵。3)“Use conventional F-statistics”,如果激活了这个选项,我们将利用一个下三角矩阵(对角线处是0)来作为非下三

44、角矩阵元素。这意味着所有不确定单倍型之间的距离将会被认作是确定的,这意味着此项将会影响等位基因频率的遗传结构。4)“Distance between haplotype”:选择一种距离模型去计算单倍型之间的遗传距离。不同类型的数据要用不同的Euclidean 距离模型去计算分析。“Gamma value”:当选择允许不同位点之间有不等进化速率时,设置gamma功能的图形参数的值。根据数据类型不同,选择上述选项还可能出现如下图所示的操作界面。FigAMOVA分析应用十分广泛,尤其在比较不同群体之间遗传相关性大小时。例如:崔论文:在吐鲁番古代群体与现代新疆和中亚人群的AMOVA分析中,可以发现99

45、.75%的遗传变异来自于群体内,只有0.25%来自于群体间(P=0.0025,1023 permutations)。而当我们将欧洲(Basque)和东亚(Han)的群体加入,再进行比较,组内的差异变为92.4%,而组间的差异增加为7.6%(P0.05),有显著性差异。这一结果说明吐鲁番古代群体的mtDNA序列与中亚及新疆的现代群体无明显的区别。段论文:按地理位置把境外的维吾尔和哈萨克分为一组,把新疆的维吾尔,哈萨克和克里雅人群分为一组,分成两个组群时,分析结果表明组间的差异为0.34(P0.1188),组内人群之间的差异为-0.21(P0.7181),人群内部的差异为99.87(P0.5454

46、)。最后,按语言划分,这五个群体的语言都属于阿尔泰语系中的突厥语族但分别属于两个不同的语支,因此我们把境外的维吾尔,新疆维吾尔和克里雅分为一组,把境外的哈萨克和新疆哈萨克分为一组,又分成两个组群时,组间差异为-0.25(P0.6182),组内人群间的差异为0.14(P0.5818),人群内部的差异为100.10(P0.4545),这表明讲同种语言的人群之间的差异要比语言不同的组群之间的差异还要大,由此可知mtDNA的差异并不能反映语言划分的范畴。 选择主操作界面左上方树形结构中的“Genetic stucture”的“Population comparisons”选项,操作主界面变为如下图所示

47、:Fig“Population comparisons”:计算人群之间不相似指数(遗传距离)的大小,像统计值FST,经过转换的FST值(能够用于短片段的基因的遗传距离),Neis 人群之间和人群内部的平均配对差异等。这些遗传距离可以利用置换人群之间单倍型或个体来进行检验。“Computation of FST”:计算所有配对人群的FST值。“Renyoldss diatance”:计算Renyoldss等线性化的FST,这适用于分歧时间较短的样本。“Slatkins distance”:计算源于配对间的FST的Slatkins遗传距离。“Pairwise difference”:计算Neis人群内部和人群之间的平均配对差异数。“Compute relative population sizes”:计算所有配对人群之间的相对人群大小,也可以计算人群之间的分析时间。“Number of permutations”:检验推得的遗传距离达到一定置信水平

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1