连锁关联分析在疾病研究中的探讨.ppt

上传人:本田雅阁 文档编号:2278086 上传时间:2019-03-15 格式:PPT 页数:69 大小:5.79MB
返回 下载 相关 举报
连锁关联分析在疾病研究中的探讨.ppt_第1页
第1页 / 共69页
连锁关联分析在疾病研究中的探讨.ppt_第2页
第2页 / 共69页
连锁关联分析在疾病研究中的探讨.ppt_第3页
第3页 / 共69页
亲,该文档总共69页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《连锁关联分析在疾病研究中的探讨.ppt》由会员分享,可在线阅读,更多相关《连锁关联分析在疾病研究中的探讨.ppt(69页珍藏版)》请在三一文库上搜索。

1、晶能生物技术(上海)有限公司 Hanson Zheng 郑汉城 ,连锁、关联分析在疾病研究中的探讨,Life is the translation of the information in the genome into the phenotype of the organism The organism ,computes this phenotype from its genotype , given a specific environment,Genotype,Methylation,CNV,Phenotype,Environment,1.24%,0.1%,DNA序列的差异影响。,C

2、ystic fibrosis,Coronary heart disease,基因,环境,Infection,Radiation injury,Bipolar disorder,Cancer,Huntingtons disease,少数单基因疾病,大多数疾病是多基因疾病多种基因和环境共同作用的,疾病复杂的机制,2019年3月,单基因疾病,疾病的发生是由“单”基因的突变所致(一对主基因):致病基因 单基因疾病不多见,但由于其遗传性,危害很大 单基因疾病如:囊性纤维肿瘤,血友病,血色沉着病等,多基因疾病,多基因疾病是由两对以上基因突变所致,且环境因素在这类疾病的发生中起不同程度作用的一类疾病:易感基

3、因。 如:肿瘤,高血压、动脉粥样硬化、糖尿病、哮喘、自身免疫性疾病、老年痴呆、癫痫、精神分裂症、类风湿关节炎、智能发育障碍等,2019年3月,人基因组包含了3x109个碱基 AGTCCTAGCCTGTGATATAGGGCCCTAGATCA.,如何从茫茫基因组中找出致病或易感基因?,2019年3月,遗传标记 是在染色体上有可以确定的物理位置的DNA片段,它有一定的遗传特征。标记可以是一个基因,也可以是未知功能的DNA片段。因为DNA片段在染色体上相互 接近因而能同时遗传,标记通常被用作跟踪未被确定但大致位置已知的基因。,2019年3月,遗传标记发展,第一代遗传标记: RFLP restrict

4、fragment length polymorphism 限制性片段长度多态性 第二代遗传标记: STRs short tandem repeats 短串联重复序列 第三代遗传标记: SNP single nucleotide polymorphism 单核苷酸多态性,2019年3月,第一代:限制性片段长度多态性 RFLPs ( restriction fragment length polymorphisms),1980年,Botstein首次提出。 1987年,第一张较完整的人基因连锁图,包含393个RFLP位点。 亨廷顿舞蹈症(Huntington)成为第一个使用RFLP定位的遗传病。

5、缺点:数目少,信息量小;成本昂贵,操作繁琐,不易发展到自动化水平。,2019年3月,STR广泛存在于人基因组,占约5%,基本单位是2bp-6bp的串联重复,其中以(CA)n ,(GT)n常见。 1996年,建立了以6000多个STR为主体的遗传图谱,两个标记之间的平均距离为0.7cM。 特点:数目比第一代标记多一些,多态性多。,第二代:短串联重复序列 STRs (short tandem repeats),2019年3月,第三代:SNP最普遍的遗传变异标记,单核苷酸多态性(SNPs):在基因组中,不同个体的DNA序列上的单个碱基的差异,SNP是目前进行疾病研究最为有效的遗传标记,SNPs: 最

6、普遍的遗传变异标记,1/1000: 任何两个个体具有99.9% 的序列同源性 1/300: 每300bp出现一个SNP位点 90% 变异: SNP是最普遍的序列变异 不均匀分布: SNP在基因组中不均匀分布 10,000,000 SNP: 人类基因组中约有一千万个SNP位点,任何两个个体约有几百万的差异,单体型(haplotype):相邻SNPs的等位位点倾向于以一个整体遗传给后代; 位于染色体上某一区域的一组相关联的SNP等位位点 标签SNP(tagSNP):一个染色体区域可以有很多SNP位点,能代表其他位点信息的SNP位点称为标签SNP ;用少数几个标签SNPs,就能够提供该区域内大多数的

7、遗传多态模式; 50万个较常见的SNP,基本上代表了1000万个SNP,SNPs: 最普遍的遗传变异标记,遗传学分析方法,方法一:关联分析(Associated Studies) 在大人群中进行,不考虑家族遗传的方式,分析观察的遗传标记位点等位基因和易感基因位点间存在连锁不平衡(Linkage Disequilibrium Analysis, LD)。连锁不平衡表示两位点是紧密连锁的,两位点越靠近则LD程度越强。因此,标记位点与致病基因越近,突变率越低,杂合度越高,用遗传标记检出致病基因位点的机率越高。 连锁不平衡分析需要高密度的遗传标记,可用于基因的精细定位。,2019年3月,2019年3月

8、,全基因组扫描,无需实验假设/遗传模式支持 无需依赖少数位点 同时发现和疾病或某性状相关的多个位点 检出率高 定位精确,2019年3月,全基因组分型扫描解决方案一:一步法,对大人群样品进行全基因组扫描扫描,费用?,对所有样品进行全基因组扫描,2019年3月,全基因组分型扫描方案二:两步法,1. 对小数量样品进行全基因组分型扫描 (100-200样品) 2. 设定 p-值(0.01)筛选出下一步要研究的位点 3.进行大样品数的检测,2019年3月,1,2,3,N,1,2,3,M,SNPs,样品,一步法,Stage 1,Stage 2,样品,标记,两步法,1,2,3,M,SNPs,Samples,

9、1,2,3,N,一步法和两步法全基因组分型扫描比较,2019年3月,多步设计降低实验成本 -illumina提供完整平台,Infinium,GoldenGate,GoldenGate,疾病,对照,1,22,要研究的SNP位点,疾病对照的关联分析,疾病标记SNP位点,在大人群中进行遗传分析,+,= 2,000 人,病例对照的关联分析,病例-对照的关联分析有很多的优点: 无亲缘关系的样本比较容易收集; 是一种非参数分析,无需设定疾病的遗传模式; 检出率较高,尤其适于定位微效基因; 定位精确,检出的遗传标记位点与致病基因的距离通常在1cM之内; 可以提示相关位点或基因的传递方式及效应性质,并可由亚组

10、分析发现疾病的遗传异质性。 基于病例-对照的关联分析在近几年的研究中逐渐占领了主导地位,成功的将一系列复杂疾病的易感基因定位到染色体的相对较精确的位置。,检验遗传标记(等位基因、基因频率或是单体型)在病例组的频率是否显著异于对照组。如果得到阳性关联的结果,排除各种混杂因素(如人群分层)之后,可以推断该遗传标记存在于疾病易感基因基因座内或者与易感基因座连锁不平衡。,关联分析的原理,GWAS关联分析成功的关键(Biological Factors),Population stratification Minor Allele Frequency Effect Size of Variants Pr

11、evalence of phenotype Phenotypic heterogeneity,GWAS关联分析成功的关键 (Technical Factors),Sample Size: Affects power to detect an association LD/ Genomic coverage: Global Coverage Local Coverage Gene Coverage Data Quality: Call Rate Accuracy Random errors,Sample Size:,It is important to differentiate between

12、: Required and Effective Sample Size Required sample size: Sample size needed to achieve statistical significance at a desired power Effective sample size: r2 x required sample size Sample size based on the genomic coverage of the genotyping product used (LD/Correlation),TagSNPs provide optimized Po

13、wer for WGA studies,DSL: disease susceptibility locus,Disease Phenotype,Test for genetic association between the phenotype and the DSL,Marker,Linkage Disequilibrium,Test for association between phenotype and marker locus,Required Sample Size,DNA,Phenotype,Genomic Coverage,Effective Sample Size,Sampl

14、e Size: “Required” versus “Effective” Sample Size,Required sample sizes to achieve 80% power in a case/control study for a significance level of 10-7 with a disease relative risk of 1.3. This calculation assumes that the disease allele is typed directly (Required Sample Size = Effective Sample Size)

15、.,The interpretation of r2,r2 x sample size is the “effective sample size” A study with 1000 cases and controls and an r2 of 0.8 has an effective sample size of 800 cases and controls (N x r2) (as if typing the disease causing SNP directly) Goal: The markers that are genotyped should be selected so

16、that they have high r2-values (preferable 80%) with the marker that are not genotyped. The higher the r2 the better your power A good SNPs selection will be key for the success of GWAs,LD/Genomic coverage: Not all SNPs are equally informative Need to select a panel with adequate LD coverage for stud

17、y population,Frequency,MAF 0.05: Common SNP,0.05,Disease SNP,Non Tag SNP: Limited proxy,LD / genomic coverage,Increase sample size to maintain 80% power,94% genomic coverage,Hap 550 vs Random 500K in Europeans,0,200,250,150,100,50,Position (Mb),22,21,20,19,18,17,16,15,14,13,12,11,10,9,8,7,6,5,4,3,2,

18、1,Chromosome,Red indicates regions with higher Power in HumanHap550 versus Random 500K SNPs,Power Histogram for Tag versus Random SNPs,1,0,-1,POWER DIFFERENCES,3000,2000,1000,NUMBER OF REGIONS WITH MORE POWER,1,0,-1,1,0,-1,0,3000,2000,1000,0,3000,2000,1000,0,CEU,JPT+CHB,YRI,650k Tag,550k Tag,300k Ta

19、g,RANDOM TAG,500k,500k,500k,CIDR quality report for Illumina data http:/www.cidr.jhmi.edu/human_gwa.html#table1,CIDR quality report for Illumina data http:/www.cidr.jhmi.edu/human_gwa.html#table1,Data Quality: Call rate Dependence of the power of a GWA on the call rate,Case/control study: 1,500 case

20、s & controls Odds-ratio: 1.5 Overall significance level: 5% Adjustment for multiple comparisons: Bonferroni 5%/500,000 = 10-7 Power as a function of allele frequency and call rates,Power levels and avg number of false positives: Avg call rate by genotype: AA: 100% AB: 100% BB: 100%,Power levels and

21、avg number of false positives: Avg call rate by genotype: AA: 98% AB: 98% BB: 98%,Gene Coverage,重复性,Illumina芯片产品高质量,Illuminas platform generates the highest data quality on the market: High target selectivity through 50-mer oligonucleotides High allele specificity through single base extension react

22、ion High probe redundancy for the allele position (30 fold avg.) 2 color read out Stable and proven calling algorithm in Genomestudio,Allele Detection Through Single-Base Extension,BEAD,50mer OLIGO SEQUENCE,DNA SAMPLE,1. SELECTIVITY,2. SPECIFICITY, 30x,探针设计,推荐产品,530 GWAS Publications, 2351 Associati

23、ons,2006,2007,2008,2009,8,89,151,222,The GWAS Approach is Successful in Human Genetics,Year,# of Pubs,国内发表的关于疾病基因关联分析的五篇大文章全部用illumina芯片技术,银屑病,系统性红斑狼疮,麻风病,GoldenGate检测技术 针对疾病选择SNP位点定制芯片,A,G,illumiCode 地址,Allele Specific Extension & Ligation,Universal PCR Sequence 1 Universal PCR Sequence 2,Universal

24、 PCR Sequence 3,GoldenGate 检测 等位基因特异性延伸和连接,Genomic DNA,T/C,Ligase,T/A,Polymerase,/,/,/,illumiCode #561,illumiCode #217,illumiCode #1024,GoldenGate 检测 和独特的带 IllumiCodeTM 编码序列的芯片杂交,/,/,A/A,G/G,C/T,SNP #561,SNP #217,SNP #1024,可根据客户需求设计SNP位点,SNP位点设计,1536 位点 384 DNA样品 实验数据,GoldenGate 检测 Hapmap项目的主要实验平台,总

25、结,通过等位基因特异性延伸进行精确地SNP定位 高准确度和成功率CALL RATE(0.99) 根据研究需要可同时研究 96,384, 768 或 1536 个SNP位点 仅需全基因组 DNA而无需扩增 250ng 全基因组DNA 即可完成1536 位点的研究 可接受质量较差的样品如全基因组中扩增出的DNA,GoldenGate检测芯片,Veracode已获美国FDA认证,可用于临床检测,BeadXpress扫描系统为激光扫描系统,它提供两类光束,一类光束对微柱进行扫描并通过软件解读,另一类光束对不同应用发出的荧光进行检测。 可检测1-384。,连锁分析,连锁分析是基因定位中的主要策略之一,也

26、是进行致病基因定位的第一步。通常,在进行基因定位时先收集出现病患的家系,应用一系列遗传标记位点对他们进行全基因组扫描,将候选致病基因定位到染色体上10-20Mb左右的位置。连锁分析最适于有多个患者的大家系研究,通常要求致病基因有强效作用,诊断明确,并且要求了解疾病可能的遗传模式。,连锁分析是建立在遗传家系的基础上,遗传标记位点与致病基因位点同时在家系中进行传递,通过计算它们在家系传递过程中的重组率变化,来估算这两点间的距离以及连锁程度。,连锁分析的样本选择,尽量明确的疾病背景,是否伴性遗传、显隐性遗传 尽量多的家族成员,男女均等、疾病正常均等、几代人都有。,HumanLinkage V Panel Set 6056位点 Mouse LD LINKAGE 377位点 Mouse MD Linkage 1449位点 精心挑选出信息含量最大的SNP,连锁分析推荐产品:,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1