参数连锁分析方法.doc

上传人:办公号 文档编号:8708259 上传时间:2021-01-03 格式:DOC 页数:4 大小:299KB
返回 下载 相关 举报
参数连锁分析方法.doc_第1页
第1页 / 共4页
参数连锁分析方法.doc_第2页
第2页 / 共4页
参数连锁分析方法.doc_第3页
第3页 / 共4页
参数连锁分析方法.doc_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

《参数连锁分析方法.doc》由会员分享,可在线阅读,更多相关《参数连锁分析方法.doc(4页珍藏版)》请在三一文库上搜索。

1、参数连锁分析方法倪鹏生 ,崔静 ,沈福民( 上海医科大学流行病学教研室 ,200032)摘 要 :通过拟合的数据资料 ,对目前最常用的参数型连锁分析方法进行了比较 ,为有针对性地选择连锁分析方法提供了依据 。关键词 :参数连锁分析 ;遗传距离中图分类号 : R181 . 3 + 3文献标识码 :A文章编号 :0253 - 9772 (2001) 01 - 0007 - 04Para metric L inkage Analysis MethodsN I Peng2sheng ,CU I J ing ,SH EN Fu2min( Dep . of Epi de m iology , S ha n

2、 ghai Medical U ni versi t y , 200032 Chi na)Abstract :We p resent here t wo paramet ric statistics for linkage analysis ( linkage and genehunter) . U sing t he simulated pedigrees , we int roduced t he usage of t he t wo met hods.Key words :paramet ric linkage analysis ;genetic distance连锁分析是遗传流行病学的

3、重要组成部分 ,在绘制遗传图谱和进行疾病的遗传定位时都需要进行 连锁分析 。经典的连锁分析方法 ( 又称为参数连锁分析方法 ,一般用于遗传模型已知的性状 ,如某些单基因遗传病) ;近年来 ,随着统计分析方法的发展 ,对 于某些遗传模型不明的疾病 ( 如复杂性疾病) ,通过 使用不同的策略 ,也可以用传统连锁分析方法进行 分析 ,因此掌握基本的连锁分析方法是十分必要的 ,为此本文选取最常用的两种连 锁 分 析 方 法 进 行 对 比 ,为方法的选择提供依据 。genehunter 是 较 新 的 一 种 用 于 连 锁 分 析 的 软件 ,它是 Kruglyak 等编制的 , 目前有较为广泛的应

4、 用 。由于改进了算法 ,此软件可用于多点的连锁分析 ,而且对家系资料的要求较低 (即使存在环及缺失值的基础上也可进行连锁分析) 。它的主要分析程 序包括计算多点的 L O D 值 、非参数分析方法 ( 同胞对方法等) 和目前流行的传递不平衡 ( TD T ) 的分析 方法等 ,并且可以进行遗传作图 。掌握两种方法均具有重要意义 。2连锁分析的策略一般来说 、研究的过程如下 :通过针对某一性状1方 法 介 绍本文所选择的两种连锁分析方法分别是 gene2(如疾病) 收集一定的家系资料 ,运用分离分析的方法 (简单分离分析和复合分离分析) 确定可能的遗传 模式 ;通过文献检索确定决定这一性状的基

5、因座可 能的染色体区域 ,选取这一区域的遗传标记物 (微卫星/ S N P) ,确定家系 成 员 遗 传 标 记 物 的 基 因 型 , 通 过连锁分析估计某种表型与遗传标记物在子代中重hunter1 和 linkage2 软件 ,这两个软件均可从因特网(internet) 3 上免费下载 。linkage 软件是使用最为广 泛的一种连锁分析软件 ,在 J urg Ott 等人的帮助下由 Mark Lat hrop 编制的 ,可以进行两基因座或多基因座 的连锁分析 ,并可以在各种操作系统上运行 。收稿日期 :2000 - 01 - 31 ;修回日期 :2000 - 03 - 15作者简介 :倪

6、鹏生 ( 19692) ,男 ,上海医科大学在职硕士研究生 ,专业 :遗传流行病 。Tel :021 - 64174172 , E2mail : ni- p s hot mail . co m传模式 (用 SL IN K2 软件实现) 。对拟合的数据 ,分别使用 linkage 和 genehunter 软件 ,进行数据分析 。 共使用了 4 个 2 等位基因的标记基因座 ( 等位基因频率为 0 . 5) ,标记基因座与可能的疾病基因座在染色体上的遗传距离如图 2 : M : Mar ker ; T : Trait遗传距离以重组率表示 , 按 Haldane 公式可进行重组率 () 和厘摩 (

7、 X Hald) 的换算 , X Hald () = - 0 . 5ln ( 1组的发生率 ,通过计算 L OD 值 ,确定重组率 ( 1 %重组率近似等于 1cM) 及相应的遗传距离 。这种计算 方法在 linkage 和 genehunter 软件中均可实现 ,并在 孟德尔遗传模式已知的疾病中广泛应用 ,成功地对 许多疾病进行了遗传定位 。3事 例 分 析下面通过具体数据来进一步说明 ,家系结构如图 1 ,以这一个家系的患病情况为基础 ,拟合包含 20个家系的数据资料 ,使得疾病符合常染色体隐性遗- 2) ,从上述公式可知 , T 距 M1 大约是 16 . 25cM 。经 Slink 拟

8、合的家系数据见表 1 (共 20 个家系) :图 1 模拟的家系发病情况Fig. 1 Simulated pedigree图 2Fig. 2模拟的标记基因座与性状基因座( 疾病基因座) 的遗传距离The genetic dietance bet ween the disease locus and marker loci表 1 拟合的家系数据Ta ble 1 The data of simulated pedigrees家系号个体号父亲号母亲号性别患病M1M2M3M411111111111234567891000111111110022222222122121121211212121211/

9、21/ 21/ 21/ 11/ 21/ 21/ 22/ 21/ 21/ 12/ 22/ 12/ 22/ 22/ 22/ 22/ 21/ 22/ 22/ 22/ 21/ 11/ 21/ 21/ 21/ 21/ 21/ 21/ 22/ 11/ 12/ 12/ 11/ 12/ 11/ 12/ 11/ 12/ 11/ 2注 :性别 ( 1 :男性 ,2 :女性) 和患病情况 ( 1 :未患病 ,2 :患病) ,后 8 列是 4 个标记基因座的基因型 。现 ,分别选取 4 个标记物 ,相邻标记物间和两端标记物向两侧延伸 8cM ,各标记物间间距均分 9 点 ,共计 算 51 个 L O D 值 。gen

10、ehunter 的运算过程需要 2 个文件 ( 家系文 件和位点文件) ,其中的家系文件如表 1 ,基因座文件由 linkage 软 件 的 p relink 过 程 实 现 。在 gene23对 上 述 数 据 分 别 用li nkage 进行分析基因搜索分析( genehunter)genehunter和311genehunter 是结合了参数和非参数分析的一种通用连锁分析软件 ,本次结果在 linux 操作系统中实hunter 环境中键入如下命令p hoto run . o ut load linkloci . dat scan linkped. p re off end 8i ncre

11、ment step 10上述命令的意义是 : 将结果存入 run . o ut 文件 ,装入 基 因 座 参 数 文 件 linkloci . dat , 对 家 系 文 件 linkped. p re 进行分析 ,分析的距离是从第一个标记 基因座前 8cM 开始 ,到最后一标记基因座后 8cM 结 束 ,相邻基因座间平均分为 10 等分进行分析 ,结果见表 2 :表 2 genehunter 的计算结果( 以 M1 为中心 , 距离为 cM) Ta ble 2 The result of genehunter , genetic distance :cMM1M1M2M2M3M3M4M4距离L

12、 OD 值距离L OD 值距离L OD 值距离L OD 值距离L OD 值- 8- 7 . 2- 6 . 4- 5 . 6- 4 . 8- 4- 3 . 2- 2 . 4- 1 . 6- 0 . 813 . 899213 . 802413 . 645213 . 410813 . 074812 . 599911 . 923910 . 93139 . 364716 . 408570 . 811 . 632 . 443 . 254 . 064 . 885 . 696 . 57 . 318 . 138 . 5109911 . 787213 . 633614 . 848915 . 665416 . 15

13、8516 . 316616 . 013314 . 7543- 9 . 7511 . 381314 . 6316 . 2517 . 8819 . 521 . 1322 . 7524 . 3824 . 165525 . 898826 . 615526 . 863826 . 80626 . 492325 . 907724 . 95123 . 2517- 25 . 192626 . 8227 . 6328 . 4429 . 2530 . 0730 . 8831 . 6932 . 516 . 715017 . 504817 . 579917 . 283516 . 690915 . 785614 . 46

14、8712 . 47418 . 9183- 33 . 334 . 134 . 935 . 736 . 537 . 338 . 138 . 939 . 740 . 52 . 727176 . 075887 . 900129 . 0929 . 9335110 . 551511 . 014311 . 363111 . 624811 . 8180 0 - 从表 2 可见 L O D 值 最 大 出 现 在 14 . 63cM 和16 . 25cM 之间 , 与实际 数 据 相 吻 合 ( 其 中 的 遗 传 距 离是以检测点离 M1 点的距离表示的 ,M1 上游的距 离表示为负值) 。从图 3 中也可以

15、很清楚的展示计算结果与实际 疾病基因座在遗传图谱上的关系 。图 4 的横坐标是 图距 (以厘摩表示) ,纵坐标是多基因座 L O D 值 ,箭 头表示实际的疾病基因座在遗传图谱上的位置 ( 距端标记物向两侧延伸至 0 . 5 重组率的位置均分的 9点 ,计算 51 个 L O D 值 。linkage 的运算过程需要 2 个文件 ( 家系文件和 基因座文件) ,其中的家系文件和基因座文件分别是 由 linkage 软 件 中 的 makeped 和 p relink 过 程 实 现 的 ,再运行 lcp 过程选择 linkmap 程序 ,设定标记基因座间的遗传距离及计算的间距 , 通过 lcp

16、 过程形 成 pedin 批处理程序 ,运行 pedin ,经过 lrp 对结果进 行处理形成如表 3 的结果 。从表 3 可 以 发 现 , L O D 值 最 大 出 现 在 14 .063cM 和 17 . 202cM 之间 , 与实际数据相吻合 。通 过图 4 可以更直观发现结果与实际情况是相符的 。图 4 的横坐标是图距 ( 以摩根表示) ,纵坐标是多基因座 L O D 值 ,箭头表示实际的疾病在遗传图 谱上的位置 。可见结果与实际情况是相符 ( 注 : 图 4 的横坐标单位比图 3 扩大了 100 倍) 。离 M1 为 16 . 25cM) 。实 际 基 因 座 落 在 最 高值的

17、区域内 。3 . 2连锁分析( l in kage)linkage 是在 linux 中实现的 ( 在 DO S 环境中也 可实现) ,分别选取 4 个标记物 ,相邻标记物间和两L O D4结 果 与 讨 论连锁分析的目的是利用家系中一切可能的遗传信息 ,检测某一染色体区域是否与一性状连锁 。一般情况下 ,对于性状的遗传模式清楚的连锁分析 ,称 之为参数连锁分析 , 反之为非参 数 的 连 锁 分 析 ( 如ap m ,同胞对方法等) 。图 3 genehunter 多基因座 L OD 值结果图Fig. 3 The multi - point l inkage lod result of ge

18、nehunter表 3 l inkage 的计算结果( 以 M1 为中心 , 距离为 M)Ta ble 3 The result of l inkage , genetic distance :MM1M1M2M2M3M3M4M4距离L OD 值距离L OD 值距离L OD 值距离L OD 值距离L OD 值- - 1 . 1513- 0 . 8047- 0 . 602- 0 . 4581- 0 . 3466- 0 . 2554- 0 . 1783- 0 . 1116- 0 . 0527000 . 521151 . 997754 . 082376 . 470998 . 8596111 . 052

19、812 . 833413 . 875713 . 2894- 0 . 007050 . 015230 . 022500 . 030940 . 038440 . 047160 . 054910 . 063920 . 073090 . 081268 . 1647411 . 487113 . 376314 . 635715 . 526016 . 068916 . 307816 . 090614 . 9180- 0 . 095460 . 110070 . 125130 . 140650 . 155510 . 172020 . 18910 . 206770 . 22510 . 2441323 . 7559

20、25 . 601726 . 448526 . 79626 . 861126 . 64426 . 144525 . 254223 . 6039- 0 . 251180 . 259360 . 266630 . 275070 . 282570 . 291290 . 299040 . 308050 . 317220 . 3253916 . 59017 . 458617 . 588917 . 350116 . 828915 . 982014 . 722612 . 79009 . 29390- 0 . 378070 . 436960 . 503730 . 580800 . 671960 . 783540

21、. 927381 . 130111 . 47668+ 10 . 835612 . 116811 . 573910 . 18428 . 316746 . 188703 . 995511 . 997750 . 542870系) ,家系中奠基者 ( f ) 和非奠基者 ( n ) 的数量应满足如下关系 (1) :2 n - f 16 或 n 不大于 12 。因此 ,针对上述情况 ,在进行连锁分析时要有一 定的策略 ,对于家系结构大 ,致病基因座在遗传图谱 上的位置较为明确的数据 ,可运用 linkage 软件进行 分析 ;而对于家系结构相对较小 ,准备进行全基因组(或部分基因组) 扫描的数据 ,运用

22、 genehunter 较为 合适 ;当然也可以对某些符合 vitesse 要求的数据运 用 vitesse 进行分析 ; 在通常情况 下 , 这 几 种 方 法 是 联合使用的 ,相互比对 ,以期获得更高的效能 。本文 通过对两种参数连锁分析方法的介绍和对比 ,提出 了不同连锁分析方法的适用范围 ,为今后有针对性地选择方法提供了依据 。图 4l inkage 实现多基因座连锁分析 L OD 值Fig. 4 the multi - point l inkage lod result of l inkageL IN KA GE 软件由于算法上的限制对于标记基因座的数量较为敏感 ,随着基因座数量的

23、增多 ,其计 算的效能在下降 ( 计算所需时间随着基因座的增多 呈指数上升 ,而非奠基者对于计算时间的影响呈线 性关系 ,非奠基者 ( no n - fo under ) 指 的 是 父 母 均 在收集的数据中的家系成员1 ) ,因此 ,一般来说 ,link2 age 应用于大家系检测基因座较 少 的 数 据 资 料 , 一 般用于两基因座的连锁分析 。近年来 ,由于算法的 更新使得在某些特定的家系结构中 ,也可以进行多 基因座的连锁分析 ,这一方法可在 vitesse4 中实现 。genehunter 是进行多基因座连锁分析十分有用的工 具 ,其对基因座点数量不敏感 ,但对非奠基者的数量 有

24、所限制 (计算所需时间随着非奠基者的增多呈指 数上 升 , 而 基 因 座 对 于 计 算 时 间 的 影 响 呈 线 性 关参 考 文 献( Ref erences) :1L eo nid Kruglyak , et al . Paramet ric and no nparamet ric linkage analysis : A unified multipoint app roach J . Am J Hum Genet ,1996 ,58 :13471363 .Terwillger J D , J urg Ot t . Handboo k of Human Genetic Linkag

25、eM . The Jo hns Ho p kins U niversit y Press ,1994 ,pp . 255345 . ht tp :/ / waldo . wi . mit . edu/ f tp/ dist ributio n/ sof t ware/ gene2 hunter/ gh2 CP ;f tp :/ / co ro na . med. utah . edu/ p ub/ linkage CP .OCo nnell J R , et al . The V I T ESSE algo rit hm fo r rapid exact multilocus linkage analysis via genot ype set reco ding and f uzzy in2 heritance J . Nat Genet ,1995 , 11 :402 408 .234

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1