Mrbayes中文使用说明步骤.doc

上传人:doc321 文档编号:14839399 上传时间:2022-02-20 格式:DOC 页数:7 大小:466KB
返回 下载 相关 举报
Mrbayes中文使用说明步骤.doc_第1页
第1页 / 共7页
Mrbayes中文使用说明步骤.doc_第2页
第2页 / 共7页
Mrbayes中文使用说明步骤.doc_第3页
第3页 / 共7页
Mrbayes中文使用说明步骤.doc_第4页
第4页 / 共7页
Mrbayes中文使用说明步骤.doc_第5页
第5页 / 共7页
点击查看更多>>
资源描述

《Mrbayes中文使用说明步骤.doc》由会员分享,可在线阅读,更多相关《Mrbayes中文使用说明步骤.doc(7页珍藏版)》请在三一文库上搜索。

1、内为需要输入的内容,但不包括括号。所有命令都需要在MrBayes 的提示下才能输入。文件格式:文件输入,输入格式为Nexus file(ASCII,a simple text file,如图):或者还有其他信息:interleave=yes 代表数据矩阵为交叉序列interleaved sequences nexus文件可由MacClade或者Mesquite生成。但Mrbayes并不支持the full Nexus standard。同时,Mrbayes象其它许多系统软件一样允许模糊特点,如:如果一个特点有两个状态2、3,可以表示为:(23),(2,3),23或者2,3。但除了DNAA, C

2、, G, T, R, Y, M, K,S, W, H, B, V, D, N、RNAA, C, G, U, R, Y, M, K, S, W, H, B, V, D, N、Protein A, R, N, D, C, Q, E, G, H, I, L, K, M, F, P, S, T, W, Y, V, X、二进制数据0, 1、标准数据(形态学数据)0, 1, 2, 3, 4, 5, 6, 5, 7, 8, 9外,并不支持其他数据或者符号形式。执行文件:execute 或缩写exe ,注意:文件必须在程序所在的文件夹(或者指明文件具体路径),文件名中不能含有空格,如果执行成功,执行窗口会自动

3、输出文件的简单信息。选定模型:通常至少需要两个命令,lset和prset,lset用于定义模型的结构,prset用于定义模型参数的先验概率分布。在进行分析之前可以执行showmodel命令检查当前矩阵模型的设置。或者执行help lset检查默认设置(如图):略Nucmodel用于指定DNA模型的一般类型。我们通常选取标准的核苷酸替代模型nucleotide substitution model,即默认选项4by4。另外,Doublet选项用于paired stem regions of ribosomal DNA的分析,Codon选项用于DNA sequence in terms of it

4、s codons的分析。替代模型的一般结构一般由Nst设置决定。默认状态下,所有的置换比率相同,对应于F81模型(JC model)。一般我们选用GTR模型,即nst=6。Code设置只有在DNA模型设置为codon的情况下才使用。Ploidy设置也与我们无关。Rates通常设置为invgamma (gamma-shaped rate variation with a proportion of invariable sites),Ngammacat(the number of discrete categories used to approximate the gamma distribu

5、tion)一般采用默认选项4。通常这个设置已经足够,增加该选项设置的数量可能会增加似然计算的精确性,但所花时间也成比例增加,大多数情况下,由增加该数值对结果的影响可以忽略不计。余下的选项中,只有Covarion和 Parsmodel与单核苷酸模型相关,而我们既不会采用parsimony model,也不会采用the covariotide model,故保留默认状态。在对矩阵作了以上修改后,重新输入help lset命令,可以查看变化后的设置。设置先验参数prior:现在可以为模型设置先验参数了。模型有6种类型的参数:the topology, the branch lengths, the

6、four stationary frequencies of the nucleotides, the six different nucleotide substitution rates, the proportion of invariable sites, and the shape parameter of the gamma distribution of rate variation.默认参数在大多数分析中都已足够,通常不许修改,如需立即使用,这部分可以跳过。通过输入help prset可以获得模型的各参数默认设置列表:略,我们只对Revmatpr (for the six su

7、bstitution rates of the GTR rate matrix), Statefreqpr (for the stationary nucleotide frequencies of the GTR rate matrix), Shapepr (for the shape parameter of the gamma distribution of rate variation), Pinvarpr (for the proportion of invariable sites), Topologypr (for the topology), Brlenspr (for the

8、 branch lengths) 这几项设置作简单介绍。Revmatpr and Statefreqpr的默认的先验概率密度prior probability density都是a flat Dirichlet (所有值都为1.0) 。有时可能需要把Statefreqpr设置为equal,比如在JC and SYM模型下,命令prset statefreqpr=fixed(equal)。如果我们要对默认的statefreqpr的flat Dirichlet prior状态加以强调,即equal nucleotide frequencies。可以输入命令prset statefreqpr= Di

9、richlet(10,10,10,10),或者更甚的强调prset statefreqpr=Dirichlet(100,100,100,100)。如果修改了该选项后想改回来,输入prset statefreqpr=Dirichlet(1,1,1,1)或者prsst= Dir(1,1,1,1)。Shapepr参数定义the prior for the (shape) parameter of the gamma distribution of rate variation.Pinvarpr参数定义the prior for the proportion of invariable sites。T

10、opologypr参数默认设置uniform puts equal probability on all distinct, fully resolved topologies.The alternative is to constrain some nodes in the tree to always be present but we will not attempt that in this analysis.Brlenspr参数可以设置为unconstrained或者clock-constrained。默认为unconstrained,对于没有分子钟的树,the branch len

11、gth prior可以设置为指数的exponential或者均一的uniform,默认为指数的,参数为10.0,对大多分析都合适。可以在分析前输入showmodel命令检查模型的设置。分析及设置:由mcmc命令设置参数并开始分析。在设置前可以输入help mcmc命令查看默认设置。Seed是随机数产生器随机输出的一个种子数值。Swapseed是单独的用于产生随机交换序列the chain swapping sequence的随机数产生器。除非特别指定,这两个值由系统时钟生成。Ngen(number of generations)设置分析要跑的代数。通常可以先设置较少的代数以确认分析的各项设置正

12、常,并可以估计一个较长的分析所要花的时间和代数。如果要设置ngen值但不想立即开始分析,可以使用mcmcp命令,如mcmcp ngen=10000。默认状态下,bayes会同时运行两个(Nruns = 2)完全独立的但由不同的随机树开始的分析。一般采取默认设置。检查Mcmcdiagn 参数是否设置为yes,Diagnfreq 是否设置为一个合适的值,如默认的每第1000代(可以更改)。这样bayes会在每第1000代计算各种运行(分析)的诊断,并把它们保存在一个.mcmc的文件中。最重要的诊断,不同分析中树取样the tree samples的相似性的衡量,也会在每1000代输出到屏幕上。每一

13、次诊断完成,一个固定数量(burnin)或者比例(burninfrac)的样品会被丢弃。Relburnin参数定义是使用固定数量(relburnin=no)还是百分比(relburnin=yes)。默认状态为(relburnin=yes and burninfrac=0.25),即每个诊断完成,25的样品被丢弃。默认状态下,bayes会使用Metropolis coupling提高the MCMC sampling of the target distribution。Swapfreq, Nswaps, Nchains和Temp四个参数一起控制Metropolis coupling行为。Nch

14、ains设置为1,不使用heating。设置为n,n-1个热链heated chains被使用。默认n4,表示bayes会使用3个热链和1个cold chain。根据经验,heating对于大于50个类群(序列)的分析是很重要的。增加热链数量对于分析大的困难的数据集可能有帮助。但分析时间也会随着链的增加成比例增加。MPI版本的程序要好些,时间影响较小。Bayes使用一种增值的热方案an incremental heating scheme,该方案下,通过增加其后验概率,链i被heated到the power 1/ (1 + i),其中是由Temp参数控制。Heating的作用是保持后验概率平稳

15、flatten out the posterior probability,以便热链可以轻松找到后验概率中的峰isolated peaks,帮助冷链cold chain快速通过这些峰。每第Swapfreq代,会从两条链中随机抽取并交换它们的状态an attempt is made to swap their states。默认参数对大多数分析已足够,但如果你采用了不止3个热链,你可以增加交换数量(Nswaps) number of swaps ,默认设置为每次链停交换一次that are tried each time the chain stops for swapping。Samplefr

16、eq定义对链取样的频率。默认状态下,每第100代,对链取样一次。如果分析量较小,我们也许想尽快使其收敛,可设置为每10代取样一次。改变该参数mcmcp samplefreq=10. 每次对链取样的参数会被保存在文件中。替代模型参数会保存在filename.p文件中,每个独立的分析有各自的参数文件filename.nex.run1.p和filename.nex.run2.p。拓扑和枝长被保存在filename .t文件中,即filename .run1.t和filename.run2.t中。Printfreq参数定义链的状态输出到屏幕上的频率。默认为每100代输出一次。默认状态下,bayes自动

17、把枝长保存在树文件中filename.t。利用Startingtree命令,可以自定义起始树,默认状态下是随机选择起始树。运行分析:用于分析的各项参数都设置好后(mcmcp),就可以开始分析了。输入mcmc命令,窗口会显示用于本次分析的模型和后验概率的一些设置情况。The proposal probabilities可以用props命令进行修改,但最好默认,不适当的修改可能使分析失败。然后分析就开始运行,窗口会输出每100代链的状态信息。其中第1栏为代数,25为其中一个分析的4个链的log likelihood values,中括号为冷链。如果Metropolis coupling运行良好的话

18、,冷链会不断变动位置,表示冷链成功的和热链交换了位置。如果冷链停滞不动,则Metropolis coupling运行效率低或无,需要延长分析时间或者将热冷链间的温度差值temperature difference降低。最后一栏为运行剩余时间,在运行初始,该值可能偏大,逐渐平稳而代表真实所剩余时间。停止分析:当要求的代数已经运行完毕,窗口会提示询问是否继续运行,如果回答yes,会要求输入继续运行的代数。在回答之前,我们一般要先检查the average standard deviation of split frequencies的值,该值代表两个独立分析当前的相似性程度,越接近0越好。虽然我们

19、推荐聚敛诊断convergence diagnostic,比如上面的分裂频率标准偏差,来决定运行时间,但其实有更简单但可能不是如此有效的方法来决定分析的停止与否。最简单的是检查冷链的the log likelihood values,在分析初始,该值变化较大,当该值逐渐平稳而不变化,而且两个独立的分析中的该值相等或几乎相等时,可以停止分析,但这个方法不如聚敛诊断精确。总结样品替代模型参数Summarizing Samples of Substitution Model Parameters:在运行过程中,每samplefreq 代的Samples of Substitution Model P

20、arameters已经被写入filename.p文件中,如图:方括号中第一个数字,是一个让你可以知道这个取样来源的随机生成的ID号,第2行为标题,从左到右依次为:(1)代数 the generation number (Gen); (2)冷链对数似然值? the log likelihood of the cold chain (LnL); (3)树长 the total tree length (the sum of all branch lengths, TL); (4)6个GTR比率参数the six GTR rate parameters (r(AC), r(AG) etc); (5)

21、4个核苷酸发生频率 the four stationary nucleotide frequencies (pi(A), pi(C) etc); (6) 比率变化伽马分布的形状参数the shape parameter of the gamma distribution of rate variation (alpha); (7)不变位点的比例 the proportion of invariable sites (pinvar). 如果你的数据集使用了一个不同的模型,文件内容也会有所不同。Sump命令用于总结取样参数值summarize the sampled parameter value

22、s,如sump burnin=250,默认状态下,该命令总结filename.p文件中最近形成的25取样参数信息。Sump命令会首先生成一个代数和the log probability of the data (the log likelihood values)的关系图。如果分析已足够的话,图看起来很平稳,没有上升或者下降的趋势:如果有任何上升或者下降的趋势,可能需要延长分析时间以获得充分的后掩盖率分布取样。在下面,有一个总结取样参数值的表,列举了各参数的平均值、variance、95%可靠间区的最高最低值、中间值和PSRF(the Potential Scale Reduction Fac

23、tor)。各参数就是filename.p中的各参数。PSRF也是一种聚敛诊断方式,如果分析较彻底,该值应接近1.0。总结样品树和枝长Summarizing Samples of Trees and Branch Lengths树和枝长输出到filename.t文件中,为nexus格式的树文件:总结树和枝长信息,输入命令sumt,如sumt burnin=250。Sumt命令会输出summary statistics for the taxon bipartitions,一个具有枝长可信度clade credibility (posterior probability) values的树和一个系

24、统演化树 (如果枝长已经保存的话)。summary statistics以“点星”形式描述每一枝the partition,点和枝分别代表两个分枝部分。后面列出了分枝的取样数(#obs),分枝the probability的概率,分枝发生频率标准差the standard deviation of the partition frequency (Stdev(s),枝长的平均值(Mean(v)和变化variance (Var(v)和(PSRF),最后是改枝取样所在的独立分析,即分析1或者分析2。clade credibility tree 给出每一分枝的可信度,系统演化树给出枝长branch

25、lengths measured in expected substitutions per site。系统演化树幕后,sumt命令还产生3个附加文件:filename.parts文件,包含了两分列表the list of taxon bipartitions与其后验概率posterior probability (the proportion of sampled trees containing them),以及与之有关的枝长the branch lengths associated with them。枝长值是基于包含相关两分枝的树的。Filename.con文件包含两棵一致树,第1棵同时包含了枝的后验概率(以内部结点标签的形式)和枝长,可由treeview读取。第2棵仅包含枝长,可由多种软件读取,如MacClade Mesquite等。第3个filename.trprobs文件包含了mcmc搜索过程中找到的树,由后验概率分类。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 社会民生


经营许可证编号:宁ICP备18001539号-1