从人类基因组变异的地图1.doc

上传人:本田雅阁 文档编号:2727641 上传时间:2019-05-08 格式:DOC 页数:75 大小:201.50KB
返回 下载 相关 举报
从人类基因组变异的地图1.doc_第1页
第1页 / 共75页
从人类基因组变异的地图1.doc_第2页
第2页 / 共75页
从人类基因组变异的地图1.doc_第3页
第3页 / 共75页
从人类基因组变异的地图1.doc_第4页
第4页 / 共75页
从人类基因组变异的地图1.doc_第5页
第5页 / 共75页
点击查看更多>>
资源描述

《从人类基因组变异的地图1.doc》由会员分享,可在线阅读,更多相关《从人类基因组变异的地图1.doc(75页珍藏版)》请在三一文库上搜索。

1、从人类基因组变异的地图人口大规模测序千人基因组计划联合体*千人基因组计划的目的是提供了深刻的表征人类基因组序列变异为基础调查,基因型和表型之间的关系。在这里,我们提出了试点阶段的结果项目,旨在开发和高通量全基因组测序,比较不同的策略平台。我们进行了三个项目:低覆盖度全基因组测序的179个人从四个人群;高覆盖测序两个母亲父子三人和外显子目标的697测序个人从七个人口。我们描述的位置,等位基因频率和当地的单体型结构约15万单核苷酸多态性, 100万短的插入和删除,以及20,000结构的变体,其中大部分是以前未描述。我们表明,因为我们已经编目茫茫大多数常见的变化,发现任何个体的当前访问的变体中,有9

2、5以上的是存在于该数据集。平均而言,每个人都被发现携带亏损约250至300的功能变种注明牵连的遗传紊乱的基因和50到100的变种。我们演示了如何使用这些结果可以通知协会和功能研究。我们从两个三人小组,直接估计的速率OFDE novogermline基地替换突变约1028每碱基对每一代。我们探索方面的数据自然选择的签名,并确定附近的基因的遗传变异显着减少,由于选择链接的网站。这些方法和公共数据将支持下一阶段的人类遗传研究。了解基因型和表型之间的关系是在生物学和医学的中心目标之一。参照人类基因组序列1人类研究提供了基础遗传学,但人类基因变异的系统调查需要满DNA序列变异在整个频谱中的知识等位基因频

3、率和类型的DNA之间的差异。取得实质性进展已经作出。到2008年公开目录变异位点( dbSNP数据库129 )包含约11万单核苷酸多态性(SNPs)和3万短吨插入和删除(插入缺失)2-4。数据库的结构变异(例如, dbVAR )索引的大型基因组变异的位置。国际HapMap计划的两个等位基因频率及相关编目附近的变种之间,这种现象称为联动模式不平衡(LD ) ,横跨几个人口为350万个SNPs3,4。这些资源带动疾病基因的发现,在第一新一代的全基因组关联研究( GWAS ) ,其中在几十万的变异位点的基因型,并结合LD的知识结构,让绝大多数的普通变种(这里,那些with.5 的次要等位基因频率(

4、MAF ) )测试协会4与疾病有关。在过去的5年中协会研究已经确定了一千多与疾病易感性和其他常见性状相关的基因组区域5。常见和罕见的结构变异的全基因组的集合同样进行了测试,与疾病相关6。尽管取得了这些成就,很多工作仍然需要实现深了解人类表型的遗传贡献7。一旦一个地区已确定为窝藏的风险轨迹,详细研究所有“遗传变异的轨迹是需要发现的因果变种(次) ,量化疾病易感性的贡献,阐明其角色功能的途径。低频和稀有变体(这里被定义为0.5 至5的MAF ,低于0.5 的MAF ,分别) ,大大超过了常见的变种,也有助于显著的遗传结构ofdisease的,但它尚未被系统研究7-9。同时,先进的DNA测序技术,使

5、个体的测序基因组10-13,照亮的差距,在数据库的第一代主要包含常见的变异位点。一个更完整人类DNA变异的目录是充分了解的前提条件常见和低频变体在人的表型的作用的变化。千人基因组计划的目的是要发现,基因型和提供准确的所有形式的人类DNA单倍型资料在多个人群中的多态性。具体而言,目标是表征的变种,基因组区域的95以上目前高通量测序技术,等位基因频率的1或更高(的经典定义的多态性)每5个主要的人口群体(群体或祖先来自欧洲,东亚,南亚,西非和美洲)。由于功能的等位基因,经常发现在编码地区和等位基因频率已经减少,低频率等位基因(下来,对0.1 )也将被编目等地区。在这里,我们报告的结果,该项目的试点阶

6、段,其目的这是发展和比较不同的策略全基因组测序高通量平台。为此,我们承诺三个项目: 179人的低覆盖度测序;深两个三人小组6个人测序和外显子测序8,140个外显子697人(见专栏1) 。结果给我们一个多更深,更均匀的画面比人类基因变异以前,提供了新的见解到景观功能变异,遗传协会在人类和自然选择。数据生成,对齐方式和变异的发现共4.9兆盐基的DNA序列中产生的9个从DNA测序中心用三个测序技术,*列出的参与者和他们的隶属关系将出现在底纸。2010年10月28日| VOL 467 |自然| 1061麦克米伦出版者有限公司。保留所有权利2010永生化淋巴母细胞系(表1,得到补充表1) 。所有测序的个

7、人提供的通知同意,并明确同意向公众传播他们的变化数据,作为人类基因组单体型图计划的一部分(见补充信息有关详细信息,知情同意和数据发布)。的异质性(读取长度从25到几百个碱基对序列数据( BP) ;单配对结束)反映的多样性和快速发展在项目过程中的相关技术。所有主要序列来自正确的个人数据被证实人类基因组单体型图SNP基因型数据比较。不同的分析检测和基因序列变异不同类型和三个项目,但所有的工作流程共享以下四个特点。 ( 1 )发现:排列顺序读取到参考基因组,并识别候选网站或一个或多个样品的不同区域在从参考序列; (2)过滤:使用的质量控制措施,消除候选场址,很可能是误报; (3)基因分型:估计等位基

8、因存在于每个个体的变异位点,或区域(4)验证:测定新发现的变体的一个子集采用独立的技术,使假的估计发现率( FDR ) 。独立的数据源被用来估计基因型推断的准确性。所有主要序列读取映射读取电话的变种,推断基因型,估计单倍型和新的独立验证数据是公开可通过该项目的网站上(http:/www 。变种,等位基因频率及基因型1000genomes.org ) ;过滤集也被存放在dbSNP数据库( http:/www.ncbi.nlm.nih.gov/snp ) 。对齐和访问基因组对齐NCBI36参考基因组测序结果(补充资料) ,可在BAM文件格式14早期创新项目的存储和高通量测序数据共享。准确识别的遗传

9、变异取决于序列数据对齐正确的基因组位置。我们限制打电话来的大多数变种“可访问的基因组,定义为参考序列中的那部分许多含糊放置后,剩下的地区除外读取或意外的高或低的数字对齐读取(补充资料) 。这种方法平衡需要减少不正确的路线和假阳性的检测变种对最大化的基因组的比例,可以进行讯问。访问基因组对于低覆盖率分析,包含参考序列的约85的和93的编码序列。超过99的基因在第二代网站单体型图( HapMap计划II )4都包括在内。无法访问网站,超过97 的标注为高拷贝重复或重复片段。然而,只有四分之一的以前发现的重复和重复片段是无法访问(补充表2 ) 。多三人项目的数据收集技术改进之前,我们有能力地图序列读

10、取强劲的一些重复的基因组区域(主要是较长的,成对的读取) 。为由于这些原因,严格的对准更加困难,和一个较小的部分基因组三人项目中访问: 80参考, 85的编码序列, HapMap项目II位点(表1)和97 。校准,局部调整和装配变种通话质量受许多因素,包括基站呼叫序列中的错误率的定量读取,本地读取对应的准确性和方法则是由各基因型的定义。该项目引进的关键创新,在每个这些地区(见补充信息)。首先,基本品质分数报告由图像处理软件经验,重新校准理货的比例是不匹配的参考序列(在非dbSNP数据库网站)的报告质量作为一个功能得分,位置在读等特点。其次,在潜在变异位点,进行局部调整的所有读取共同跨越所有样品

11、,允许替代的等位基因,其中包含插入缺失。这调整步骤,大幅减少错误,因为地方不对,特别是围绕插入缺失,可能是一个主要的误差来源BOX 1千人基因组试点项目要制定和评估多个策略检测和基因型不同类型和频率,使用高通量的变体测序,我们进行了三个项目,采用样本扩展人类基因组单体型图收集17。三重奏项目:高覆盖度全基因组鸟枪法测序(平均423)两个家庭(一个Yorubafrom的尼日利亚伊巴丹( YRI ) ;oneofEuropeanancestryinUtah ( CEU ) ) , eachincludingtwoparents和一个女儿。每一个的后代进行测序用三平台和多个中心。低覆盖工程:全基因组

12、鸟枪测序低59 YRI , 60无关无关的个人的覆盖率( 2-63 )CEU从个人, 30例中国汉族人在北京( CHB )和30例日本人在东京( JPT ) 。外显子:有针对性的项目8,140个外显子捕获随机从906选择的基因(共有1.4 MB ) ,其次在高测序697人从7种群覆盖( average.503 )非洲( YRI , Webuye Luhya ,肯尼亚( LWK ), ) ,欧洲(CEU ,托斯卡尼超过120,000多家( TSI ) ) andEastAsian ( CHB , JPT ,科罗拉多州ChineseinDenver( CHD ) )的祖先。无论是在其三个实验设计差

13、别很大能够获得的数据具有不同的类型和频率的变体,和我们在分析方法用于推断个体的基因型。专栏1图中显示项目的内容及不同的示意性表示从每个获得的信息。在左侧区域的颜色显示在个人基因组不同的单倍型,线宽表示深度报道(不按比例) 。阴影区域的右侧给出了一个例如,可产生相同的基因型数据样本下的三大战略(圆点表示丢失数据;破折号表示相位信息,也就是,无论是杂合的变体可以被分配到正确的单倍型) 。在很短的区域的基因组中,每个单独的两个单倍型,通常是共享的其他人口。在三人设计,高的序列覆盖率和多个平台的使用使能准确发现整个基因组的大部分,孟德尔的多个变种类型协助基因型估计,推断单倍型和传输质量控制。低,与此相

14、反,有效coverageproject识别常见的单体型共享变种49,50(红色或蓝色),但具有较低的功率检测罕见的单倍型(浅绿色)和相关变体(表示缺失的等位基因) ,将给出一些不准确的基因型(红色等位基因错误分配G) 。外显子的设计能准确的发现普通,稀有和低的频率变化的基因组中的对象的部分,但缺乏观察能力目标区域以外的变种或分配单倍体阶段。三重奏低覆盖外显子个人单倍体基因组A-C -T - G -C -A -CAG -G -A -A -T -C常见的单体型A- 。 -T -G -C -A -CA- 。 -G -G -A -T -C外显子变异。 。 T G 。 A。 。 G A 。吨分阶段传输统

15、计调相矢志不渝研究文章变种通话。最后,通过初步分析的数据与多个基因型和变异调用算法,然后生成一个共识,这些成果,该项目减少了基因分型错误率那些目前达到的30-50相比,使用的任何一个方法(补充图1和补充表12 ) 。我们还使用了局部调整,以产生候选替代在这个过程中调用短( 1 -50- bp)的插入缺失的单倍型15,以及当地novoassembly解决断点删除更大超过50个基点。后者导致大的数量加倍( 0.1 KB)结构变异碱基对的分辨率划定16。充分基因组的从头组装(补充信息) ,导致3.7百万碱基的识别(MB )全新的序列不匹配的高门槛参考装配质量和新颖性。所有新的序列匹配其他人类和巨猿公

16、共数据库中的序列。价格发现变种在三人项目,平均映射序列覆盖423每跨六个人和2.3 gigabases (GB ) ofaccessible的个人的基因组,我们发现590万个SNPs , 650,000短插入缺失(共长度在1-50个基点) ,超过14,000较大的结构变异。在低覆盖工程,平均映射覆盖3.63per个人跨179个人(补充图2) , 2.4 GB访问基因组,我们确定了1440万个SNP位点,1.3万短吨插入缺失和超过20,000较大的结构变异。外显子的项目,563per个人平均映射的序列覆盖跨越697个人和1.4 MB的目标,我们确定了12,758SNP位点和96个插入缺失。实验验

17、证被用来估计和控制FDR新变种(补充表3 )。每个完整的罗斯福呼叫建立控制为低于5 ,单核苷酸多态性和短插入缺失,和小于10的结构的变体。因为在一个最初的测试几乎所有的网站,我们叫已经dbSNP数据库验证( 285 286 ) ,最后续的验证实验我们只测试了新的变异,获得整体推断罗斯福。这个过程会低估真实的罗斯福,如果有更多的SNPs上市在dbSNP数据库误报一些呼叫套。罗斯福小说变种三人的SNPs为2.6 ,10.9为低覆盖率的SNPs ,1.7 的低覆盖率插入缺失(补充资料补充表3和4A ,B ) 。检测项目的变化不是均匀地分布在基因组:目标区域,如人类白细胞抗原(HLA)和亚端粒区域,显

18、示高利率的变化,而其他的,例如5 - Mb的基因致密且高度保守的3p21的周围区域,显示非常低的水平的变化(补充图3A ) 。在染色体的规模,我们看到很强的相关性不同形式的变化之间,特别是SNP位点和插入缺失(补充图3b ) 。然而,我们也发现异质性特别是结构变异类型,例如结构变异非等位基因同源重组产生明显丰富的HLA和亚端粒区域(补充图。3B,顶部)。变型新奇正如预期的那样,绝大多数的网站在任何给定的个体变种dbSNP数据库已经存在,新发现的比例有很大的不同种群间变异类型和等位基因频率(图1) 。新型SNP位点被发现有一种强烈的倾向只有在一个的分析面板(相关人群设置图1a ) 。为SNP位点

19、也存在在dbSNP数据库版本129 ( 1000之前的最后一个版本基因组计划数据) ,具体到一个单一的低覆盖率只有25分析面板和56 被发现在所有面板。另一方面,84 新发现的SNP位点,具体到一个单一的分析面板而只有4 被发现在所有的分析面板。外显子的项目,表1项目,类型,人口和新奇的发现变种项目数据包括合并外显子人群aSummary统计覆盖率低三重奏外显子(总)跨联盟项目CEU YRI CHB1JPT总CEU YRI样品60 59 60 179 3 3 6 697 742总原料基地(GB) 1,402 874 596 2,872 560 615 1,175 845 4,892总映射基地(G

20、B) 817 596 468 1,881 369 342 711 56 2,648平均深度映射(3) 4.62 3.42 2.65 3.56 43.14 40.05 41.60 55.92 NA基地访问的基因组( )2.43 GB(86)2.39千兆(85)2.41千兆(85)2.42千兆(86.0 )2.26千兆(79)2.21千兆(78)2.24千兆(79)1.4 MB NA号的单核苷酸多态性(小说) 7943827(33)10938130(47)6273441(28)14894361(54)3646764(11)4502439(23)5907699(24)12,758(70)152752

21、56(55)平均每个2918623 3335795 2810573 3019909 2741276 3261036 3001156 763 NA变异的SNP位点插入缺失(小说) 728,075号(39)941567(52)666639(39)1330158(57)411,611(25)502462(37)682148(38)96(74)1480877(57)平均每个354,767 383,200 347,400 361669 322078 382869 352474 3 NA变种的缺失网站缺失(小说) ND ND ND 15,893(60)6,593(41)8,129(50)11,248(51

22、)ND 22,025(61)基因型缺失(小说) ND ND ND 10,742(57)ND提供6,317(48)ND 13,826(58)重复号(小说) 259(90)320(90)280(91)407(89)187(93)192(91)256(92)ND 501(89)移动元素插入号(小说) 3,202(79)3,105(84)1,952(76)4,775(86)1,397(68)1,846(78)2,531(78)ND 5,370(87)ND ND ND ND 111号新型序列的插入(小说)(96)66(86)174(93)ND 174(93)贝克森人群分开统计CEU TSI LWK YR

23、I CHB冠心病JPT样品90 66 108 112 109 107 105总收集到的基地(GB) 151 64 53 147 93 127 211平均深度映射目标(3) 7371 32624762 53号的单核苷酸多态性(小说) 3489 (34) 3281 (34) 5459 (50) 5175 (46) 3415 (47) 3431 (50) 2900 (42)变体SNP位点每个715 727 902 794 713 770 694插入缺失号(号小说) 23(10) 22(11) 24 (16) 38 (21) 30 (16) 26 (13) 25(11)变量的缺失网站每个3 3 3 3

24、 3 1 2 3NA ,不适用, ND ,尚未确定。本文的研究28OCTOBER2010 | VOL467 |自然| 1063麦克米伦出版者有限公司。保留所有权利2010深度增加导致了更高的覆盖范围和样本量低频部分变种发现网站中,96的新的变异只限于从单个样品的分析面板。相比之下,许多新颖的结构变异被确定在所有的分析面板,反映了较低的程度,以前的表征(补充图4 ) 。非洲血统的人群数量最大的贡献变种,并包含新的变异的最高分数,反映了更大的多样性在非洲人群中。例如,新颖的单核苷酸多态性的63,在低覆盖项目外显子和44项目被发现在非洲人群中, 33相比,和22 的欧洲血统的人群。较大的样本量中的外

25、显子和低覆盖项目使我们能够检测大量的低频率变量( MAF ,5,图1b )。相比,预期的分布种群遗传理论(人口规模不变的中性溯祖) ,我们看到了过量的较低频率的变种外显子项目,反映净化选择对弱有害突变和近期的人口增长。有一个类似的迹象多余的低覆盖工程的SNPs ,在5以下的变种截断我们呼吁减少权力的等位基因频率设置为发现在此范围内的变体,如下面所讨论。正如预期的那样,发现这里几乎所有的高频率的SNPdbSNP数据库已经存在,这是特别是在编码区域(图1c) 。人多地少完成公共数据库在低频率的单核苷酸多态性,插入缺失和结构变异(图1d) 。例如,在编码单核苷酸多态性( 91 的普通这里描述的编码单

26、核苷酸多态性存在dbSNP数据库) ,约50 ,在这个项目中观察到的公共短插入缺失小说。预计这些结果用在给定的样本大小测序发现的SNP先前的努力dbSNP数据库,并限定,较低的分辨率,努力来表征插入缺失整个基因组的结构变化较大。结构变异的数量急剧下降,我们观察到增加变长(图1d) ,具有显着的峰值对应的ALU和长期穿插核元素(系) 。结构变异较大的比例,这是小说的依赖明显等位基因的大小,与变体10 bp到5 kb大小的最有可能的是新颖(图1d) 。这是预期的,大的缺失和重复(0.5 KB)先前发现使用基于阵列的方法17,18,而较小的结构变异(除了frompolymorphic的Alu插入)一

27、直少以及在此之前的研究确定。线粒体和Y染色体序列的线粒体基因组的深度覆盖允许我们手动牧师序列163个样本(补充资料) 。虽然被固定在个别的变种,是一致的与已知的线粒体基因组系统发育(补充图5)中,我们发现了相当数量的变化存在于个人(异质性) 。例如,长度异质性中检测到79 的人相比, 52使用毛细管测序19,主要是在控制区域(补充图6a ) 。基取代观察到的异质性在45的样品,七倍,高于单独控制区域报告19,和是传遍分子(补充图6b ) 。在多大程度上这产生异质性仍然不明,但在细胞培养出现低(补充资料) 。Y染色体测序,平均深度为1.83in男77例在低覆盖工程,并15.23depth两三人的

28、父亲。使用自定义的分析方法(补充信息) ,我们确定了2,870个变异位点, 74以上的小说,55出56通过独立验证。 Y染色体来自新变种识别系统发育的小说,很好的支持一些代表之间的12个主要单倍群内的分支样品(例如,在中国和日本的O2B ;补充图7)。指示最近的快速扩张模式的一个显着0.0 0.2 0.4 0.6 0.8 1.0变异等位基因频率观察西塔每MB0.0 0.2 0.4 0.6 0.8 1.00.00.20.40.60.81.0变异等位基因频率分数小说三重奏覆盖率低外显子(不同的比例)CEU1062526CEU475,282AFR1,115AFR3,614ASN194ASN3,175

29、欧元495欧元1,71128013311110018792所有1,491所有60CEU1756583CHB + JPT142,500CHB + JPT9763721872682030914047493614433797273200,745YRI1269625YRI1171040YRI42702632177018623569324,183CEU342734YRI991310 64,486已知小说一b登录10(变体的数量)0123456789100.00.10.20.30.40.50.60.70.80.91.0是新型的变种,比例登录10(大小)删除插入的SNPs-100 KB-10 KB-1 KB

30、-100个基点-10个基点10个基点100个基点1 KB10 KB100 KBALU铝LINELINE0.1101,000LC的SNPsEX的SNPsLC大的缺失LC插入缺失图1 |属性的变异。 ,维恩图在每个试点项目确定的SNP位点数目在每个人口或分析面板细分根据是否SNP在dbSNP数据库发布129 (已知)或(小说) 。 ASN是外显子分析面板AFR是YRI1LWK的的,CHB1CHD1JPT欧元CEU1TSI的。需要注意的是外显子分项目栏是远远大于为的其他pilots.b Thenumberofvariants每兆碱基(MB)除以期望在不同的等位基因频率在中性条件下成膜助剂( 1 /

31、I , whereiis的变异等位基因数) ,从而估计每兆碱基THETA 。蓝,低覆盖率的SNPs ,红色,低覆盖率插入缺失;黑色,低覆盖度大的缺失基因型;绿色,外显子的SNPs 。该线右端尖峰对应所有变种过剩样品(约1每30 kb的)从参考不同,符合参考sequence.c ,变种分数在每个等位基因频率的错误类小说。新颖性是比较确定的dbSNP数据库发布129个SNP位点和小的插入缺失, dbVar缺失, 2010年( 6月)和两个公布的基因组10,11较大的插入缺失。 LC ,覆盖率低; EX , exon.d分销和新奇的发现在低覆盖工程的变种。单核苷酸多态性显示为蓝色,删除相对于红色中的

32、参考序列,并且插入或重复,相对于绿色参考。的小数部分变种在每个大小斌认为小说中所表现出的紫线,定义相对于dbSNP数据库( SNP和插入缺失) , dbVar (删除,复制,移动元素插入) ,的dbRIP和其他研究47(移动元素插入) ,J.C.文特尔和J.沃森基因组10,11(的短插入缺失和大片段缺失) ,以及短期从拆分插入缺失毛细管读取48。为了解释许多暧昧安置如果他们是内插入缺失,发现插入缺失被视为匹配已知的插入缺失25 bp的公知的插入缺失的大小相同。为了解释不精确的知识大部分缺失和重复的位置,发现变种被视为匹配已知变种,如果他们倒数had.50 重叠。研究文章1064 |自然| VO

33、L467 | 28OCTOBER2010麦克米伦出版者有限公司。保留所有权利2010特定类群R1B观察,推测新石器时代欧洲这一类群的起源相一致20。电源检测变种的能力测序检测在分离的站点的人口主要是由两个因素:是否非参考等位基因进行测序选择的个体中存在,并高品质,以及映射的读取重叠的变种网站在个人谁携带数量。简单的模型表明,对于总量测序,发现变量的数目最大化许多样本低覆盖度测序21,22。这是因为几个基因组覆盖率高,虽然提供最高的灵敏度和精度,在一个单一的个体基因型,涉及大量的冗余和错过的变化并不代表这些样本。低覆盖项目为我们提供了一个经验低覆盖度测序的力量查看检测变种不同类型和频率。图2a示

34、出的变体中的CEU的发现率(见这和其他人群的定义框1 )样品所评估的外部数据相比低覆盖项目来源:人类基因组单体型图和外显子项目SNP和阵列CGH数据18大的缺失。我们估计,虽然低覆盖率项目只有25 的功率检测独居的SNPs ,电源检测单核苷酸多态性五次120采样染色体是, 90 (这取决于比较器) ,和电源基本上是完成在场的人的十倍以上。类似的结果为在YRI CHB1JPT的分析面板在高等位基因数,但性能略差变种目前的五倍( 85分别有75 ,在人类基因组单体型图II站点,补充图。 8)。这些结果表明, SNP发现的程度的影响较小LD ( YRI最低)比测序覆盖(这是最低的CHB和JPT面板的

35、) 。对于功率大于500 bp的缺失,约40单身人士及变种达到90 ,目前10倍或以上样本集。我们使用的几种算法结构变种发现确保所有主要机械子缺失被发现在我们的分析(补充图9) 。短插入缺失和较大的结构性缺乏适当的比较数据集变种缺失以外阻止了详细的评估功率检测这些类型的变种。但是,电源检测短目前约70 的变种插入缺失至少五次样品,样品中重叠的基础上的再发现插入缺失与SeattleSNPs项目23。推断比较Alu插入JC Venter基因组的发现24表示有常见的移动元素插入约平均灵敏度高达75。一组重复的分析18表明,只有30至40的常见的重复在这里被发现,大多缺失尊重的参考。能够发现倒置的方法

36、在低覆盖度相媲美的数据和新的序列的插入特异性仍有待开发。综上所述,低覆盖率鸟枪法测序提供了适度的单身每个样本中,25- 40 的电源,很不错的电源为变种在测序的样品中看到了五次或更多次。我们估计,有大约95 的电力寻找单核苷酸多态性与5 的等位基因频率在测序的样本,和近90 的电力单核苷酸多态性相关的1的人群中,用5的等位基因频率分歧(图2b) 。因此,我们认为该项目发现,几乎所有可访问的测序人群和常见的变异常见的变异密切相关的人口的绝大多数。基因型的准确性最推断基因型,在可能的情况下,单倍型,在每个项目中的变种(见补充信息表1 ) 。对于低覆盖率数据,统计分阶段SNP基因型通过使用LD结构除

37、了序列信息来自每个站点,引导部分的人类基因组单体型图3阶段性的单倍型。 SNP基因型项目(三人,低精度的差别相当大覆盖面和外显子),并作为覆盖和等位基因频率的函数。在低覆盖项目中,整体的基因型错误率多个方法的基础上达成共识是1-3 (图2c和补充图。 10)。使用HapMap计划数据的大力协助逐步CEU和YRI样品的HapMap的3种基因型分阶段传输,但有一个更加适度的影响,20 40 60 8000.20.40.60.81检测电源在LC变异等位基因数变异等位基因数基因型的准确性坎。参考杂合子坎。变种错误率020406080 051015变异等位基因数基因型计数( 105)AB0 1,000

38、2,000 3,000 4,000 5,00001020304050数变异基因型调用不正确的数变异基因型调用01234571015202512345710152025303540455060 708090 10020.10.51外显子工程低覆盖项目0.00.20.40.60.81.0变异等位基因频率()分数发现0864 210FST = 112345678910 10 0.00.20.40.60.81.0人类基因组单体型图II单核苷酸多态性项目外显子的SNPs大缺失图2 |变体的发现率和基因型精度在lowcoverage项目。 ,价格低覆盖率变异检测等位基因频率CEU 。线显示了小部分重叠的样

39、品中看到的变体独立的研究,还发现在的lowcoverage项目(在同一个重叠的样品)是多态的,作为一个功能的等位基因计数在60低覆盖率样本。请注意,我们绘制权力对预期的等位基因算在60个样品,例如,一个变种呈现,也就是说, 2份在重叠的30个样品,预计本在60个样品中的4次。该在右边的十字架代表的所有变种的发现平均分数有超过10份样品中。人类基因组单体型图二红,网站,排除网站在人类基因组单体型图3 (43重叠的样本) ;蓝色,外显子项目网站(57重叠的样本) ,绿色,从文献的缺失。 18( 60个重叠的样本;缺失被列为发现 ,如果有任何重叠) 。错误条显示95 的信心interval.b ,估

40、计发现的变种率在不同频率中的CEU (蓝色),有关CEU withFst51 人口(绿色),并在整个欧洲作为一个整体(淡蓝色) 。卡通插图:人口历史和统计模型,从而在相关的等位基因频率人群中引起了许多同样相关人口祖传人群中,其中一个(蓝圈) , SNP基因型有样品sequenced.c等位基因频率精度测量CEU低覆盖工程,人类基因组单体型图II基因型网站相比呈现在两个呼叫套,不包括网站也分别在人类基因组单体型图3 。线代表的平均精度纯合子参考(红色),杂合子(绿色)和纯合子替代的作为替代等位基因计数的函数调用(蓝色)的重叠组43样品,和整体的基因型错误率(灰色,在情节的底部) 。插图:每种基因

41、型的数量的一个函数类作为替代等位基因计数。D,作为函数的低覆盖率和外显子项目的覆盖面和准确性深度阈值。 41 CEU的测序样品在两个外显子和lowcoverage项目,示出上thexaxis的非参考的SNP的数量人类基因组单体型图二网站的基因型电话不被称为人类基因组单体型图3外显子项目目标区域,和theyaxis上显示这些调用的次数不是变体(即,参考纯合子,因此不正确被称为变体)根据第二单体型图。绘制的每个点对应于一个最小深度阈值称为网站。灰色线显示错误率不变。外显子项目电话(红色) ,而每个样本均系独立做出低覆盖率电话(蓝色) ,这是只略低于准确,使用LD信息,样本之间的合并部分信息网站归集

42、算法。增加的附加数据从点指向1到0(图中的右上方)的低覆盖率项目完全归咎于。本文的研究28OCTOBER2010 | VOL467 |自然| 1065麦克米伦出版者有限公司。保留所有权利2010基因型精度远离人类基因组单体型图3网站(详情请参阅,补充资料) 。精度在杂合子网站,更敏感的措施比整体精度,约90的最低频率变种,中间频率增加95以上,下降到70-80的最高频率的变体(也就是那些参考等位基因是罕见的等位基因) 。我们注意到,这些数字均来自网站,可以使用阵列技术进行基因分型,性能可能会较低,难以进入地区的基因组中。我们发现,只有细微的差别基因型精度种群之间,反映覆盖以及差异单倍型多样程度

43、LD 。大片段缺失基因型的准确性评估先前的阵列为基础的分析18(补充图11 ) 。在所有等位基因频率及基因型的基因型错误率,1,在低的杂合基因型( MAF , 3)的准确性,中间体( MAF ,50)和高频率的( MAF.97 )估计为86 ,97 和83的变体。更大的表观基因结构变异的准确性相比,单核苷酸多态性低覆盖率的项目反映了翔实的数量增加在已知的用于大尺寸的变体和一个偏置读取每个个体大片段缺失基因型较大,容易基因型变异。对于调用基因型在低覆盖率样本,效用除了序列数据在每个站点使用LD信息证明了比较,基因型的外显子的项目,这独立衍生为每个站点使用高覆盖数据。图2d示出的SNP基因型错误率作为深度的函数基因型CEU网站。类似的变种数量,被称为具有相当的精度,利用最小43depth在lowcoverage项目如以最小的153depth获得在外显子工程。网站需要这两个项目基因型高分数覆盖率低的网站,拨打电话和LD -基于呼叫使用策略,低覆盖工程归集到拨打电话只有适度增加错误率近15以上的网站。准确性和

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1