千变万化网

您现在的位置: 首页 > 滴水成冰 > 正文内容

【基因分析】差异表达基因识别算法性能比较与分析

来源:千变万化网   时间: 2019-03-17

作文「差异表达基因识别算法性能比较与分析」共有 5398 个字,其中有 3851 个汉字,473 个英文,416 个数字,658 个标点符号。作者佚名,请您欣赏。玛雅作文网荟萃众多优秀学生作文,如果想要浏览更多相关作文,请使用网站顶部的作文搜索引擎进行搜索。本站作文虽然不乏优秀之作,但仅为同学们学习交流的习作,不能当作范文使用,希望对同学们有所帮助。

摘 要 生物信息学研究的一项重要课题就是对芯片上成千上万个基因点的杂交信息进行解读,从而揭示生命特征及规律。不同的数据分析处理方法会得到截然不同的分析结果。本文简述了三种不同类型的差异表达基因识别算法,并采用Java语言进行实现,最后结合模拟基因表达数据计算结果,对三种算法计算准确度和运算速度进行了详细的比较与分析。
【关键词】基因芯片 差异表达基因 算法
1 引言
Microarray技术,亦称生物芯片技术。作为一种高通量检测技术,它可以同时检测几十万个大分子生物表达水平,大规模的提高了检测效率,是生物信息学领域具有里程碑式意义的一项重大技术革新。生物信息学研究的一项重要课题就是对芯片上成千上万个基因点的杂交信息进行解读,从而揭示生命特征及规律[1]。差异表达基因识别是一项重要的基因芯片数据的分析方法。通过该技术可以找到疾病中表达水平发生显著变化的基因,进而对疾病的预后有着极为重要的意义。 癫痫病吃的药r> 2 差异表达基因分析算法
在研究中,我们需要在两种完全不同的实验条件下(例如癌症与非癌症患者)处理生物样本,主要目的就是要得到不同条件下的基因表达值。其中,处理后的样本被称为实验组样本;未被处理的样本被称为对照组样本。下面我们简述SAM、t-test和RSDM三种不同类型的差异表达基因识别算法。
2.1 SAM算法
2001年由Tusher提出的基因芯片显著性分析算法SAM是一种基于统计分析理论的差异表达基因识别算法。
检验统计量如公式2.1所示:
……………(2.1)
式中代表实验组基因样本均值,代表对照组基因样本均值,为标准差,是的调整常量。
估算的期望,如公式2.2所示:
……………(2.2)
SAM算法流程如下:构造检验统计量并排序;计算期望值;识别差异表达基因(统计量与其期望的差别超过门限值);计算错误发现率FDR(即在多重检验中,错误的拒绝原假设数与拒绝原假设总数的比值的期望)。
2.2 T-test算法
T-test算法主要用于计算样本量小的正态分布数据。该算法是一种简单的、基于统计分析理论的差异表达基因识别方法。
Global T检验统计量如公式2.3所示:
…………(2.3)
Gene-specific T检验统计量如公式2.4所示:
…………(2.4)
上式中,代表基因表达值平均对数比,代表合并数据集的哪看癫痫病最好标准误差,代表标准误差对数比。Gene-specific方法的主要特点是不受异质性数据的影响。
2.3 RSDM算法
RSDM是一种具备标准差过滤技术的元分析差异表达基因识别算法。该算法可以处理异质性数据集,通过对多组同质芯片数据进行整合分析,计算差异表达基因,并通过标准差分析,滤除计算结果中存在的部分伪差异表达基因[3]。
算法流程如下:计算实验组与对照组数据的差异度量值;形成差异度矩阵,并对矩阵数据排序;使用统计量判断差异表达基因;计算每个基因的标准差,进行B次随机扰动,计算P-value。
3 差异表达基因识别系统
为了比较三种算法的性能,我们采用Java语言设计并实现了一款集成了三种差异基因识别算法的软件系统。软件主要具备数据导入、算法选择、差异表达基因识别以及结果读取等主要功能。软件功能流程如图3.1所示。
4 实验与分析
采用上述系统对包含3000个基因的模拟数据集进行实验与分析。模拟数据中预置了30个差异表达基因,其中上调基因20个,下调基因10个。对原始数据进行标准化处理,然后分别采用三种差异表达基因识别算法SAM、T-test和RSDM进行计算,最终得到三组不同的数据,我们对其进行比较与分析,结果如表4.1所示。
上表中,伪差异表达基因代表算法所识别的结果中所包含的非差异表达基因个数,识别率代表算法发现的正确的差异表达基因占总差异表达基因数量的比率。
SAM算法共发现24个差异表大连癫痫病治疗最好的医院达基因,其中伪差异表达基因5个,识别率为63%;T-test算法共发现26个差异表达基因,其中伪差异表达基因3个,识别率为77%;RSDM算法共发现了全部30个差异表达基因,其中伪差异表达基因为0,识别率为100%。通过实验结果可以发现,RSDM算法的准确度最高,其次是T-test,SAM的准确度相对最低;对于算法运算处理速度,SAM最快,其次是T-test,RSDM相对较慢。
5 结论
差异表达基因的识别是微阵列基因表达谱数据分析的一项重要任务。通过比较正常和非正常状态下基因表达的差异,对于生物疾病的发生机理及预后预测都有极为重要意义。我们对SAM、T-test、RSDM三种不同类型的差异表达基因识别算法进行了简要的描述,并结合实验数据对三种算法计算准确度和运算速度进行比较与分析。希望本文的工作能为从事生物数据分析的科研工作者提供一定的帮助。
参考文献
[1]CandesEJ,etl. An Introduction to Compressive Sampling [J].Signal Processing Magazine. 2008.
[2]Cui X, etl. Statistical tests for differential expression in cDNA microarray experiments[J].Genome Biol,2003.
[3]吴佳楠,周春光.基于元分析的差异表达基因识别[J].吉林大癫病如何医治学学报,2012(5).
作者单位
1.吉林交通职业技术学院 吉林省长春市 130012
2.吉林农业工程职业技术学院 吉林省四平市 136001

手机客户端打开本文

【摘要】:生物信息学研究的一项重要课题就是对芯片上成千上万个基因点的杂交信息进行解读,从而揭示生命特征及规律。不同的数据分析处理方法会得到截然不同的分析结果。本文简述了三种不同类型的差异表达基因识别算法,并采用Java语言进行实现,最后结合模拟基因表达数据计算结果,对三种算法计算准确度和运算速度进行了详细的比较与分析。

1引言Microarray技术,亦称生物芯片技术。作为一种高通量检测技术,它可以同时检测几十万个大分子生物表达水平,大规模的提高了检测效率,是生物信息学领域具有里程碑式意义的一项重大技术革新。生物信息学研究的一项重要课题就是对芯片上成千上万个基因点的杂交信息进行解读,从

( 欢迎:、、)

支持CAJ、PDF文件格式,仅支持PDF格式

差异表达基因识别算法性能比较与分析相关推荐:

北京军海癫痫医院
推荐阅读
本类最新

© zw.lgilb.com  千变万化网    版权所有  京ICP备12007688号