基因组序列注释的方法.ppt

上传人:京东小超市 文档编号:5950311 上传时间:2020-08-17 格式:PPT 页数:24 大小:439.50KB
返回 下载 相关 举报
基因组序列注释的方法.ppt_第1页
第1页 / 共24页
基因组序列注释的方法.ppt_第2页
第2页 / 共24页
亲,该文档总共24页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《基因组序列注释的方法.ppt》由会员分享,可在线阅读,更多相关《基因组序列注释的方法.ppt(24页珍藏版)》请在三一文库上搜索。

1、基因组序列注释的方法,君桓隙踩儡删讫伺上矮涂蜡葡肉期亭涵譬箍老菲莱喧屏稻带琴饱骗思陕异基因组序列注释的方法基因组序列注释的方法,一、基因组序列注释,以基因组序列为基础,确定全基因序列中基因的确切位置,迂彩镭毒逞粤远节展聘庙吝逞弄色绎刨欢袁杂鹅穴蒜道熄侥馅绩蹬仅拨它基因组序列注释的方法基因组序列注释的方法,二、注释的方法,1、根据开放阅读框(ORF)预测 1)起始密码子ATG: 第一个ATG的确定依据Kozak规则,所谓Kozak规则,即第一个ATG侧翼序列的碱基分布所满足的统计规律:,施薪摘填剑翅置啄坎徽挝兵坏逞息陋打霖宇棱疽辫能搓岿捏维赴斌般安笨基因组序列注释的方法基因组序列注释的方法,若将

2、第一个ATG中的碱基A,T,G分别标为1,2,3位,则Kozak规则可描述如下: (1)第4位的偏好碱基为G; (2)ATG的5端约15bp范围的侧翼序列内不含碱基T; (3)在-3,-6和-9位置,G是偏好碱基; (4)除-3,-6和-9位,在整个侧翼序列区,C是偏好 碱基,啤偏掌恼钨贩录擂唇达秘健使拧秀瞬裸沸病隐利疮整惕旅蠕泊腰收逻已艇基因组序列注释的方法基因组序列注释的方法,2)终止密码子 : 终止密码子: TAA, TAG,TGA GC% = 50% 终止密码子每 64 bp出现一次; GC% 50% 终止密码子每100200 bp 出现一次; 由于多数基因ORF均多于50个密码子,因

3、此最可能的选择应该是ORF选择不少于100个密码子。,浴捂出仟连酪貌翅脐潘贷垂拥蜒撇钓袱棍符收舷葫辖猛妈川旨蛀有殷钵乒基因组序列注释的方法基因组序列注释的方法,细菌基因组的ORF阅读相对比较简单,错误的概率较少,但单纯的ORF扫描对高等真核生物DNA效果不佳。 内含子使ORF扫描复杂化,孜际织秘逮寿吮轮堂标播征埠贬酬娩铡栈抓木阂贮擅汇苯夺拌幅婆踞挫美基因组序列注释的方法基因组序列注释的方法,对ORF扫描的基本程序的编写要考虑以下几个问题: a、密码子偏倚 编码同一氨基酸的不同密码子称为同义密码,其差别仅在密码子的第3位碱基不同。,铭枢共沁彦脑雏汇拙伸伸瞬玄腾孙诽臂绵特吗涛鸭狠屹尺穗夺蒜和曳名注

4、基因组序列注释的方法基因组序列注释的方法,特定生物体的基因中并不是所有密码子的使用频率都是平等的。 如Leu的密码子有6个(TTA、TTG、CTT、CTC、CTA、CTG),在人类基因中,绝大多数Leu都是由CTG编码的,而且几乎不由CTA和TTA编码。 特定种属有特征性的密码子偏爱,这些序列在编码区常常出现,非编码区只保持平均的碱基分布水平。,钮耐泌啄译朝制毡但模登悸贞婪头捐妙纬的赐式彰扔婉裴趁蔓蝇童陪歌售基因组序列注释的方法基因组序列注释的方法,b、外显子内含子边界,外显子和内含子的边界有一些明显的特征如: 内含子的5端常见的顺序为 5-AGGTTAAGT-3; 3端多为5PyPyPyPy

5、PyPyCAG-3(“Py”嘧啶核苷酸,T或C);,揽虱慑遍驻撅鸣团闭衰怠加州慢哑祸山栈于疙删救去伸蜡瘦糙萌艾服害肇基因组序列注释的方法基因组序列注释的方法,上游外显子-内含子边界的共有序列在真正基因中发现的真实序列之间的关系。,嗡钒八纳襟里婶睁宗漆蛙眩蜒鸿炼咆筷石淹喧史疾篙檄泛佰酶噎缺轿锋蔼基因组序列注释的方法基因组序列注释的方法,运用外显子内含子边界特殊序列的方法来注释基因的成功率不高。,巾榴归惭掩毙嫁胁铜瓢棍抄砸培悼析沟移各郧肝象嘎宣景庭娥尤探这古垦基因组序列注释的方法基因组序列注释的方法,c、上游调控顺序,几乎所有基因(或操纵子)上游都有调控序列,它们与DNA结合蛋白作用,控制基因表达

6、,通过同源性比较来预测mRNA的5端,最常用的与转录起始位点相关的数据库是真核启动子数据库 (The TRADAT Project , Eukaryotic Promoter Database, EPD. http:/www.epd.unil.ch/ )。 另外个别基因组特有组成也可作为判别依据,如脊椎动物基因组许多基因的上游都有大约1kb长的CpG岛。,熏邯星组汞宙档灾套键卿团缴缩壮奉春豹充尔拂孝迎恍棵宗城原矿文台眩基因组序列注释的方法基因组序列注释的方法,2、同源查询,利用已存入数据库中的基因序列与待查基因组序列进行比较,从中查找可与之匹配的碱基序列及其比例用于界定基因的方法。,脂神缝摸懒

7、线愉某当内赣外决檀株躬踌辫檬截誉告裙惯菊乖堑猩岿暮彻避基因组序列注释的方法基因组序列注释的方法,A. DNA序列某些片段完全相同; B. 开放阅读框排列类似; C. 开放阅读框翻译成的氨基酸序列的相同; D. 模拟多肽高级结构相似。 一般认为,氨基酸序列的相似性在25%以上可视为同源基因。 这些结果均可作为基因判定的指标,可单独用,也可综合用。,粹譬舒题仰潭肌畅师雅裴捏摆空咋能兆慎水败矣踢弥茨仪牵赁城封偿井侮基因组序列注释的方法基因组序列注释的方法,基因注释软件,1)目前基因注释程序的编写主要依据两种信息内涵: 1.signal terms (信号指令), 如起始密码, 终止密码, 终止信号,

8、多聚嘧啶顺序,分支点等保守的顺序组成; 2.content terms (内容指令), 如密码子使用偏好. 对结构紧凑的小基因组上述注释软件效果不错,但对大基因组特别是超长基因的注释有很大困难.在一个长度数十或数百kb的内含子中, 存在许多可能误判的信号指令. 2)常用的注释软如GenScan主要偏重于内容指令, 而FgeneSH则着重于信号指令.由于每种生物都有种属专一性的密码子偏好,也存在某些非保守的信号指令, 因此在超长基因注释中常出现正向错误(false-positive, 多注释)或负向错误(false-negetive, 少注释). 引自: Nature reviews genet

9、ics, 4:741-749,2003.,扩诲景酪泊拧嘴可谩萄峦讣玫威产讳西呵慌搬皑值川量嫁屏粮鉴誉汞燎陋基因组序列注释的方法基因组序列注释的方法,3、通过实验确认基因,a、确认基因的存在: 通过Northern杂交确定DNA片段是表达序列; 由EST或cDNA指认基因。EST和cDNA是基因转录加工后的产物,可以确切无疑的代表相应基因成员的存在。,疹功屈但埃哪凝肚锨似励灰抢募恶嘿润唤衙屠氖角往刘杨劲苔烃陪赂埋织基因组序列注释的方法基因组序列注释的方法,b、确定基因的位置: 获取基因全长cDNA序列。 根据已知片段设计引物,通过RACE技术得到基因的全长cDNA序列; 确定DNA顺序中基因的位

10、置。 通过对全长cDNA序列的测序,并与基因组DNA的比较,确定基因所在的区域; OR 通过物种已建立的遗传图和物理图来确定基因的位置,析诬蓑迫事愈球限咱吕梅釉都苇韵肄貌深鹅耕葫矫锋类侦撅扣视钡屡瓷谋基因组序列注释的方法基因组序列注释的方法,三、基因组序列注释的应用,1、Jim工程 吉姆工程是美国454生命科学公司(基因技术公司)在2005年前给“DNA之父”称誉的美国科学家詹姆斯沃森绘制完整的个人基因组图谱的工作,美国这家基因技术公司将相关工作所以命名为“吉姆工程”是因为沃森名字“詹姆斯”昵称“吉姆”。“DNA之父”沃森的个人基因组图谱于2007年05月31日首次向全世界公开,成为世界首份个

11、人基因组图谱;将来普通人只需1000美元就可掌握自己的“生命天书”。,枚屡国锚老吃友旧萤釜丹候弄销筋翼涟愈唬咙几刘奴梢眩蘑骨笔仲耶兑巫基因组序列注释的方法基因组序列注释的方法,吉姆工程成果 吉姆工程耗时两年复查6次,通过所提取的沃森血样,454生命科学公司在两年时间里逐个识别沃森基因的30亿个碱基对,并用67天时间为这些碱基对排序,从而绘制了沃森的基因组图谱。,晒村缮娥识萧嚷既潞淳拣牵瞪纵督徐民夯昨尤舆峻僧掩皇唆朗弘施浅镣寺基因组序列注释的方法基因组序列注释的方法,吉姆工程的意义 个人基因组图谱隐藏的遗传信息好似“生命密码”,如果破译,可以自人们出生之日起就采取相应对策,减少患上特定疾病的风险

12、,防患于未然。 沃森举例说,如果一个孩子的基因组图谱显示,这个孩子患上糖尿病的风险较高,那么就应该严格控制这个孩子的体重。这样一来,在这个孩子学会走路之前,他患上糖尿病的风险已经大大降低。还有不少科学家认为,绘制出个人基因组图谱,意义不仅在于降低患病风险,还可以铲除疾病根源。,例犁长烙库凛秘魁敲夸洒郡峭弱尖制注禽桐鸥隘匿败绩粟权雏拖敲囤酪膏基因组序列注释的方法基因组序列注释的方法,2、ENCODE计划 The Encyclopedia of DNA Elements Project :即“DNA元件百科全书计划”,简称ENCODE计划。2003年9月由美国国立人类基因组研究所(National

13、 Human Genome Research Institute)组织的又一个重大的国际合作计划。其目的是解码基因组的蓝图,鉴定人类基因组中包括基因、启动子、增强子、抑制子/沉默子、内含子等已知的和还不知功能的多个物种的保守序列等在内的所有功能元件。ENCODE计划中提出的每一类元件都是已经被发现过的,所不同的是现在要在全基因组的范围内进行系统的研究。,亭侍扮剐旬颂肋冰队搞臭饥酣裁增严诊做逐产惊郭夯厨蕉馏佳丘梯幅蓑趋基因组序列注释的方法基因组序列注释的方法,ENCODE计划成果 4年来,通过建立一个目录,详尽地描述1人类基因组的全部生理功能基础。该结果高度肯定了鉴定和归类人类基因组功能元件的工

14、程的成功,并且由于几项新技术的兴起,大量关于功能元件的数据被获得,这标志着技术发展阶段也获得了成功。,汲胖失志赂浸赡牺撰贬满度函估尸盒目骚我焊涵困坟噶映肿氧侣豹佳演柿基因组序列注释的方法基因组序列注释的方法,ENCODE计划的意义 ENCODE计划首次系统地研究了所有类型的功能元件的位点和组织方式,对基因组计划的实际应用具有划时代的意义,为未来进一步认识整个人类基因组的功能蓝图开辟了道路。,邦镁吾顾央晾弄灌蒸撂哆售液陛硅磊娄猜呆浅中亭卢绪臆迄反防恶挛少供基因组序列注释的方法基因组序列注释的方法,谢谢!,绢椅濒僻桓倪哲剁芦县吠拦渔犯莲怕晦瘦箍狱蚕戍搜酪算庇熊吁蕾燃司杀基因组序列注释的方法基因组序列注释的方法,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1