一种具有高度可验证性的微阵列片间校准算法.pdf

上传人:土8路 文档编号:10129512 上传时间:2021-04-22 格式:PDF 页数:3 大小:205.51KB
返回 下载 相关 举报
一种具有高度可验证性的微阵列片间校准算法.pdf_第1页
第1页 / 共3页
一种具有高度可验证性的微阵列片间校准算法.pdf_第2页
第2页 / 共3页
一种具有高度可验证性的微阵列片间校准算法.pdf_第3页
第3页 / 共3页
亲,该文档总共3页,全部预览完了,如果喜欢就下载吧!
资源描述

《一种具有高度可验证性的微阵列片间校准算法.pdf》由会员分享,可在线阅读,更多相关《一种具有高度可验证性的微阵列片间校准算法.pdf(3页珍藏版)》请在三一文库上搜索。

1、? CN43 ?1258/T P ? ISSN 1007 ?130X ? ? ? 计算机工程与科学 COMPUTER ENGINEERING 2. 军事医学科学院放射与辐射医学研究所, 北京 100850) (1. National Laboratory for Parallel and Distributed Processing, Changsha 410073; 2. Beijing Institute of Radiation Medicine, Beijing100850, China) 摘? 要: 由于系统偏差的存在, 多微阵列数据之间在进行差异比较分析前, 首先需要进行片间校准,

2、 使不同微阵列的探 针数据处于同一可比较的水平。目前片间校准算法的准确性依赖于看家基因表达水平的不变性, 或者探针数据统计分布 的稳定性。这些假设条件并非在所有条件下成立, 如需要进一步实验验证, 其算法的正确性又难以进行实验验证。本文提 出一种具有高度实验可验证性的多微阵列数据校准的遗传选择优化方法。基于该方法所得到的优化校准基准子集, 可以 在仅假设少数看家基因表达水平不变的情况下, 在不牺牲校准精度的前提下, 完成多微阵列数据的片间校准, 从而使得通 过实验验证片间校准算法的正确性成为可能。 Abstract: Due to the existence of systematic bia

3、s in the measurements, inter ?microarray normalization is required before the integration data analysis of multiple microarray datasets. The current inter ?microarray normalization methods rely on some assumptions, which rarely can be verified by experiments, such as the invariant expression level o

4、f housekeeping genes or the stability of statistical data distribution. In this paper, we present a highly verifiable inter?microarray normalization method using a genetic optimization algorithm, through which only a small number of housekeeping genes are selected as the normalization markers to fac

5、ilitate experiment validation without any precision lost. 关键词: 片间校准; 遗传算法; 看家基因 Key words: inter ?microarray normalization; genetic algorithm; housekeeping gene doi:10. 3969/ j. issn. 1007?130X. 2010. 08. 033 中图分类号: T P391文献标识码: A 1 ? 引言 微阵列基于核酸的特异性互补杂交原理, 可以在一次 实验中同时检测成千上万基因的表达, 是一种高通量的转 录组学研究工具。随着

6、商业化微阵列技术的成熟和广泛应 用, 国际上先后建立了几个大规模的基因表达谱数据库, 如 GEO 1、 ArrayExpress 2等。基因表达谱数据的不断积累 为其整合使用创造了条件, 但由于在样品制备、 微阵列杂 交、 数据获取等过程中的不确定因素, 在使用不同来源的表 达谱数据之前, 除了进行针对微阵列图像背景校正的片内 校准以外, 必须进行精确的片间校准, 以消除系统性的片间 数据误差, 将不同来源的微阵列数据归一化到同一水平, 便 于后续的比较处理或整合使用 3。 早期的片间校准算法简单地将各芯片数据线性归一化 至同一均值, 这一方法使用广泛, 但存在的主要问题是无法 处理片间数 据

7、的非线性 误差4。针对这个 问题, Affy? metrix 公司提出使用关键细胞过程所必须的 100 个看家 ( House Keeping)基因作为片间校准的基准 5, 通常认为这 些基因在不同组织细胞或条件下基本保持恒定转录水平。 然而, 由于生命系统的复杂性, 其实在生物学上并不存在严 格意义上的普适的看家基因。即便是公认的看家基因, 其 124 * 收稿日期: 2009?03 ?04; 修订日期: 2009?06 ?19 基金项目: 国家 973 计划资助项目( 2005CB321801) 作者简介: 李非( 1981?) , 男, 内蒙古呼和浩特人, 博士生, 研究方向为分布式计算

8、和生物信息学; 伯晓晨, 副研究员, 研究方向为生物 信息学; 王升启, 教授, 博士生导师, 研究方向为生物技术; 彭宇行, 教授, 博士生导师, 研究方向为分布式计算。 通讯地址: 410073 湖南省长沙市并行与分布处理国家重点实验室; T el: ( 0731) 4574888; E ?mail: pengyuxing1963 yahoo. com. cn Address:National Laboratory for Parallel and Distributed Processing, Changsha, Hunan 410073, P. R. China 转录水平在不同组织的细

9、胞和细胞的不同状态下也存在相 当程度的波动6。因此, 可靠的片间校准必须以具体微阵 列实验中可验证的恒定表达基因集合为基础, 这就需要在 片间校准前能够提供多组规模较小的用于高精度片间校准 的候选基因组合。 虽然现有不变集校准算法( Invariant Set Normaliza ? tion)实现了基于芯片数据动态确定校准基准子集 7, 但该 算法选取的典型校准基准子集包含多达数千基因, 几乎无 法通过表达谱芯片以外的实验来验证基准子集选取的正确 性。另一种广泛应用的片间校准算法将不同芯片数据的统 计分布归一化, 其合理性基于如下假设: 即在不同实验条件 下, 大多数基因维持相对恒定的表达水

10、平, 仅少数基因差异 表达。由于该方法更多地基于统计假设, 在具体实验中很 难被实验验证, 校准误差较大。 在不变集校准算法的基础上, 本文提出一种具有高度 可验证性的多微阵列表达谱数据校准方法。该方法可以在 仅选取少数看家基因作为校准基准子集的情况下, 获得与 现有方法相当的校准精度, 同时使得看家基因表达恒定性 的实验验证成为可能。 2 ? 多芯片表达谱数据的片间校准问题 采用向量度量的方法建立多芯片表达谱数据片间距离 指标, 为避免个别奇异样本点对指标的影响, 使用中值和四 分位距作为评价表达谱数据片间距离的指标。 使用二维数值矩阵M= aij = pj表示待校准的多 芯片表达谱数据,

11、其中 i 用于表示不同探针, j 表示不同的 表达谱芯片, aij表示基因 i 在第j 张微阵列上的表达谱数 据, pj为参与校准的芯片 j 的所有表达谱数据。则芯片 i 和j 的表达谱数据 pi和pj的片间距离定义为: distance pi, pj= medianpi- median pj medianpi+ median pj + quartile pi- quartilepj quartile pi+ quartilepj 其 中,medianp表 示 表 达 谱 数 据 的 中 值, quartilep表示表达谱数据的四分位距。 在获得多芯片表达谱矩阵 M 后, 片间校准算法通过调

12、整各芯片的表达谱数据, 使得校准基准基因对应的各芯片 表达谱归一化至同一水平, 从而校准非线性系统偏差。具 体算法流程如下: For EachpjinM (1) 根据校准基准子集得到映射函数 f , 使得对每个 校准基因, f aij= ai0。 (2) 对 pj中每个探针应用 f , 得到校准后探针数据 p j= f ( pj) 。 End For 其中, 假设在多芯片数据中选定 p0=ai0作为基准 芯片探针数据, 拟合映射函数的方法可选择分段线性或者 样条拟合。 3 ? 校准基准子集的选取 极端情况下, 若仅使用单个看家基因, 只能完成线性归 一化, 在大多数情况下不能满足校准精度, 而

13、采用多个看家 基因能够对非线性偏差进行有效校准。考虑到实验验证的 可能性, 作为校准基准的看家基因子集规模应越小越好, 但 同时不能过多地牺牲校准精度。大量的实验分析表明, 至 少需要 9 个看家基因才能够较好地满足多芯片数据校准的 要求 8。 目前经常使用的大规模基因微阵列包含探针数多达数 十万, 以 Dulition 数据为例, 其探针集合总数为 201 800。 假设从中选取包含 10 个看家基因的校准基准子集, 所有可 能的组合数 C10 201800 3? 1046, 即使通过不变集方法初步选 取部分探针作为候选看家基因集合, 可能的组合数也相当 巨大。对于如此高维的搜索空间, 传统

14、优化算法难以在可 行的时间内搜索到最优的校准基准子集。最优校准基准子 集搜索的本质是大规模的组合优化问题, 实践中只能寻求 有效的近似优化算法。 遗传算法( GA) 属于随机进化算法, 具有高度并行、 自 适应的优点, 能够在极度复杂的非连续空间中搜索到满意 解, 并以一定概率搜索到全局最优解。本文利用遗传算法 搜索近优子集, 解决校准基准优化选取的组合优化问题。 假设候选看家基因集合为G = gk , G =m, 目 标看家基因集合为 Gopt G ,Gopt= n , 通常要求 n 9, 则个体采用长度为 m , 包含 n个 1, m- n个 0的二进制位 串c编码。若c中第k位为 1,

15、则表示gk!Gopt, 否则表示 gk!Gopt。为了在校准精度和校准基准子集规模之间取 得平衡, 可以定义适应度函数为: f itnessc =1- ? n m + ? for each j distance pj, p0 其中, p0表示参考芯片数据, pj表示第 j 组芯片数据, pj 表示校准后的芯片数据, 通过对比例因子 ? !0, 1的调 节, 使得算法具有良好的适应性。 4 ? 实验计算 为测试优化选择的校准子集的有效性, 我们选取被广 泛使用的 Dulition 芯片数据9进行计算分析。该实验采用 人类全基因组芯片 HGU95 分析 cRNA 实验样本, 探针规 模为 201

16、800, 组织样本来源于人类肝组织和中枢神经细胞 系, 在不同实验条件下共完成 4 次实验 。 在实验中, 我们首先通过不变集算法初步筛选出候选 看家基因集合, 其中包含 3 356 个探针, 即G =m = 3356; GA 的初始种群个体数为 20, 迭代次数为 30, 交叉概 率为 0. 8, 变异概率为 0. 01, 采用随机全局选择算子, 多点 交叉算子和基于适应度的最优保持策略, 如图 1 所示, 算法 从第 10 代开始逐渐收敛, 平均适应度趋于平稳。 为研究适应度函数中比例因子 ? 的取值对算法的影 响, 分别设置 ?=0. 1, 0. 3, 0. 5, 0. 7, 0. 9,

17、 统计迭代结束时 种群中最优个体的适应度、 校准基准子集规模和校准后偏 差分别如表 1所示。 从表 1 中可以看出, 随着比例因子?的增大, 优化校准 基准子集包含的基因数逐渐增加, 同时校准偏差随之减小。 若设 ?= 0. 5 , 则可在仅使用 14 个看家基因为基准进行片 间校准的情况下, 达到 0. 8 ? 10- 3的校准精度。相比之下, 125 表1? 比例因子?的选择对算法性能的影响 ?适应度 ? 10- 3优化子集规模校准后偏差 ? 10- 3 0. 13. 0103. 4 0. 32. 7111. 4 0. 52. 1140. 8 0. 71. 8170. 5 0. 90. 8

18、230. 1 图 1? GA 前 30 代种群的平均适应度和最优适应度 如果直接应用不变集算法, 仅达到 1. 1 ? 10- 3的校准精度, 并且相比之下所需要的校准基准子集规模为 3 356, 难以被 实验所验证。 在 ?= 0. 5 的参数下, 使用改进片间校准算法得到的 结果如图 2 所示, 与初始看家基因集合相比, 仅使用 14 个 看家基因, 校准精度略有提高。 图 2? 用 M?A 图表示的 Dilution 芯片数据片间校准结果 5 ? 结束语 系统生物学的兴起使得整合不同来源的表达谱数据进 行分析成为常规的推断方法。在进行实验结果推断时, 应 尽可能少地减小芯片校准过程中引入

19、的偏差。现有的多芯 片数据片间校准算法需要对芯片数据做先验假设或者统计 假设, 这些假设是在大量的实验数据上综合出来的, 针对具 体的中小规模实验很难成立。而另一些校准方法依赖于较 大规模的基因表达不变集合, 不适合实验检验。本文提出 基于优化校准基准子集的片间校准算法, 仅假设少数基因 为看家基因, 易于被实验所检验。和现有校准算法相比, 该 方法能够通过进一步实验确保校准过程的正确性。 采用 GA 优化校准基准子集的选取收敛速度较快, 算 法稳定, 能够搜索到较优基准子集, 其校准效果满足要求。 如果对收敛速度有进一步要求, 可以通过并行化处理或者 优化初始种群设置的方法加速算法收敛, 但

20、也会有可能得 到较差的结果。原则上为避免优化结果陷入局部极小点, 初始种群的设置应尽量随机化。 在实验中我们发现, 采用现有约束条件搜索出的校准 基准子集可能包含一些功能研究不清楚的基因。在进一步 的工作中, 我们将考虑基因的实验偏好性, 优先选取实验易 于验证的基因作为校准基准。另外, 在 GA 搜索中加入生 物学背景知识的约束, 结合基因的功能注释, 优先选择在给 定表达谱实验中表达恒定的基因作为校准基因。 参考文献: 1 ? Edgar R, Domrachev M, L ash A E. Gene Expression Omni ? bus: NCBI Gene Expression

21、and Hybridization Array Data Repository J . Nucl Acids Res, 2002, 30( 1) : 207 ?210. 2 ? Brazma A, Parkinson H, Sarkans U, et al. ArrayEx press# A Public Repository for Microarray Gene Expression Data at the EBI J . Nucl Acids Res, 2003, 31( 1) : 68 ?71. 3 ? Gentleman R, Carey V, Huber W, et al. Bio

22、informatics and Computational Biology Solutions U sing R and Bioconductor M . Springer, 2005. 4 ? Bolstad B, Irizarry R, A strand M, et al. A Comparison of Normalization Methods for High Density Oligonucleotide Ar ? ray Data Based on Variance and Bias J . Bioinformatics, 2003, 19( 2) : 185 ?193. 5 ?

23、 Schadt E E, Li C, Ellis B, et al. Feature Extraction and Nor ? malization Alg orithms for High?Density Oligonucleotide Gene Ex pression Array Data J. Journal of Cellular Biochemistry, 2001, 84( S37) : 120 ?125. 6 ? Zakrajsek B A, Schmittgen T D. Effect of Ex perimental T reatment on Housekeeping Ge

24、ne Expression: Validation by Real ?Time, Quantitative RT?PCR J . Journal of Biochem Biophys Methods, 2000, 46( 1 ?2) : 69?81. 7 ? Li C, Hung Wong W. Model?Based Analysis of Oligonucle? otide Arrays: M odel Validation, Design Issues and Standard ErrorApplication J . Genome Biol, 2001, 2 ( 8 ) : RE ?

25、SEARCH0032. 8 ? St?rzenbaum S R, Kille P. Control Genes in Quantitative Molecular Biological T echniques: the Variability of Invariance J . Comparative Biochemistry and Physiology, Part B, 2001, 130( 3) : 281 ?289. 9 ? Irizarry R A, Parmigiani G, Guo M, et al. A Statistical A? nalysis of Radiolabeled Gene Expression Data C Proc of the Symp on the Interface, 2001: 26 ?49. 126

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 社会民生


经营许可证编号:宁ICP备18001539号-1