R语言在基因芯片数据处理中的应用要点.pdf

上传人:tbuqq 文档编号:5198040 上传时间:2020-02-19 格式:PDF 页数:16 大小:1.09MB
返回 下载 相关 举报
R语言在基因芯片数据处理中的应用要点.pdf_第1页
第1页 / 共16页
R语言在基因芯片数据处理中的应用要点.pdf_第2页
第2页 / 共16页
R语言在基因芯片数据处理中的应用要点.pdf_第3页
第3页 / 共16页
R语言在基因芯片数据处理中的应用要点.pdf_第4页
第4页 / 共16页
R语言在基因芯片数据处理中的应用要点.pdf_第5页
第5页 / 共16页
点击查看更多>>
资源描述

《R语言在基因芯片数据处理中的应用要点.pdf》由会员分享,可在线阅读,更多相关《R语言在基因芯片数据处理中的应用要点.pdf(16页珍藏版)》请在三一文库上搜索。

1、1.R 语言安装:官方网站http:/www.r-project.org/安装软件。 2. 所需要的软件包: 2.1 affy 数据处理相关的程序包 在 R 中复制 source(“http:/bioconductor.org/biocLite.R“) biocLite(“affy“) 2.2 热度图相关程序包 Gplots () :install.packages(“gplots“) 3. 获取基因表达数据 3.1 读取基因芯片数据(cel.files) the.filter source(“http:/bioconductor.org/biocLite.R“) biocLite(“impu

2、te“) impute是专门用 KNN 法进行缺失值填充的R package: 设置好当前工作目录( Windows是在 R 的菜单栏 - 文件 - 改变工作目录 设置, Linux下用 setwd()函数) 然后在 R 控制台输入以下代码: library(impute) # 导入 impute package raw dim(imputeddata) 1 11571 20 dim(mediandata) 1 3857 20 from: http:/ 用 R 和 BioConductor进行基因芯片数据分析( 三) :计算 median 接前一篇:http:/ 我们已经知道要分析的数据对每个

3、基因有3 个重复测定值,经过缺失值填充后,每个基因都有3 个可用值。 这一步很简单,就是取这3 个值的中位数,即median。 方法很多,在excel中可以用 median函数 ; 在 R 中以下代码进行操作: get_median dim(imputeddata) 1 11571 20 dim(mediandata) 1 3857 20 from: http:/ 用 R 和 BioConductor进行基因芯片数据分析( 五) :芯片间归一化 接前一篇: 用 R 和 BioConductor进行基因芯片数据分析(四) :芯片内归一化 上次进行了芯片内的归一化,但是我们的数据来自于10 张芯片

4、,为了让这10 张芯片之间有可比性,需要进行芯 片间归一化。 具体原理就不介绍了。 这里用到 Bioconductor的一个 package,叫做 limma ,以及其中的函数normalizeBetweenArrays() 由于 normalizeBetweenArrays()需要 log intensity或 log ratio作为输入,于是先进行log 转化: #log transformation norm_logsort(rawppp)170 1 0.0493 sort(rawppp)171 1 0.0502 170个 raw p小于 0.05 abline(h=0.05,col=b

5、lue) text(1000,c(0.6,0.7),labels=c(raw p-value,adjusted p-value),col=c(black,red) text(1000,0.08,labels=p=0.05,col=blue) 可见调整后只有一个基因的p value小于 0.05 ,而未调整的有170 个基因的p value小于 0.05 ,可以说虽然此 方法降低了错误发现率,但是也导致了很高的False negative. 此外可以考虑使用multtest package的 mt.rawp2adjp()函数,这个函数可以通过”Bonferroni ”, “Holm ”, “ H

6、ochberg” , “ SidakSS ” , “ SidakSD ” , “ BH” , “ BY”等方法调整p value ,不过对我们的数据来说都过于严格了。 procsPackages-“Install package from local zip file” 选择 package.zip文件 Linux上安装R包(离线安装): 下载 package.tar.gz文件 在 Shell终端(注意不是R)输入 : sudo R CMD INSTALL package.tar.gz 注意 :需要 sudo权限才能安装。否则提示: username is not in the sudoers

7、 file. This incident will be reported 如何把 sra格式转成fastq格式 (fq格式 ) sra 是 NCBI 推出的存储高通量数据的格式,而平常我们工作用得多是fastq格式。如果需要把sra 转成 fastq , 从 http:/trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?cmd=show&f=software&m=software&s=softwar e 下载相应的软件。 或者下载最新的source code,在服务器上用make 编译。 然后使用如下命令行: sra_sdk-2.0.0rc1/linux/r

8、el/gcc/x86_64/bin/fastq-dump -A SRR034580 -D SRR034580.sra 这样就可以很简单的把sra 格式转成 fastq格式了。 REF: http:/ http:/ http:/trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software http:/ 一、R 语言相关资料 1、R 语言 http:/ 2、R 语言课件(复旦大学) http:/ 3、上传: GLM 课件( R 语言) http:/ 4、利用 R 语言实现微阵列数据分析-聚类分析 http:/ 5、Medline 文献挖掘的开放资源

9、库-MedlineR http:/ 二、 R 语言相关问题 1、R 语言 ,请帮忙 http:/ D4 2、请教 :有用过 R 语言和 fbioconductor的吗 http:/ 3、求助: perl 程序(加一点统计知识) http:/ 4、请教诸位高手关于单倍型分析的一些问题 http:/ 5、perl 求助一程序。 http:/ 6、求助 关于 SAM 谁能帮我讲解一下SAM 方法?我不是很懂 http:/ D4 R 语言相关网站 (超有用资源 !): R-FAQ 的版本在CRAN 网站定期更新: http:/cran.r-project.org/doc/FAQ/R-FAQ.html 有关 R 或者统计方法的出版物: http:/cran.r-project.org/other-docs.html R 网站地址清单 : http:/cran.r-project.org/search.html 提交问题 “公告指南 “ http:/www.r-project.org/posting-guide.html 电子杂志R News: http:/cran.r-project.org/doc/Rnews/ R Graphical Manuals: http:/cged.genes.nig.ac.jp/RGM2/index.php

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1