网站首页科技 > 正文

帮助找到人类基因组中缺失和重复的新方法

2022-09-29 14:16:14 科技来源：

导读一种新的机器学习方法可以准确地识别已被复制或删除的人类基因组区域 - 称为拷贝数变异 - 通常与自闭症和其他神经发育障碍有关。这项由

一种新的机器学习方法可以准确地识别已被复制或删除的人类基因组区域 - 称为拷贝数变异 - 通常与自闭症和其他神经发育障碍有关。这项由宾夕法尼亚州立大学研究人员开发的新方法整合了几种算法的数据，这些算法试图从外显子组测序数据中鉴定拷贝数变异 - 仅对人类基因组的蛋白质编码区进行高通量DNA测序。一篇描述该方法的论文，可以帮助临床医生提供更准确的遗传性疾病诊断，发表在Genome Research期刊上。

“外显子组测序正迅速成为鉴定临床环境中遗传变异的黄金标准，因为它比其他方法更快，更便宜，”宾夕法尼亚州立大学生物化学和分子生物学副教授，该论文的第一作者Santhosh Girirajan说。“然而，目前用于从外显子组测序数据中鉴定拷贝数变异的算法具有非常高的假阳性率 - 它们识别的许多变体实际上并不真实。使用我们称为“CN-Learn”的新方法，我们报告的大约90%的拷贝数变种是真实的。“

一种随机森林机器学习方法，用于从外显子组测序数据中识别拷贝数变异。在经验证的一组遗传缺失和重复上训练了数百个决策树的森林，然后可以使用从这些树建立的模型来准确地识别样本外显子组测序数据中的拷贝数变异。图片来源：宾夕法尼亚州Girirajan实验室

人类基因组通常包含每个基因的两个拷贝，一个在染色体对的每个成员上。当一个细胞分成两个时，基因组被复制，以便每个子细胞获得完整的基因补充，但偶尔会在基因组复制过程中发生错误，当存在于精子或卵细胞中时，会导致个体获得更多或少于两个基因拷贝。

为了从外显子组测序数据中鉴定拷贝数变异，研究人员研究了从每个基因产生的DNA序列的相对数量。如果个体中只存在一个基因拷贝，那么他们希望看到的测序读数比有两个拷贝时更少，而且三个拷贝的基因会导致更多的读数。但它并不那么简单，因为许多其他因素可以影响从每个基因产生多少测序读数。因此，研究人员开发了几种算法，试图从外显子组测序数据中正确识别拷贝数变异。然而，单独地，这些算法不是特别可靠。

“通常，复制数变量算法的大量误报已经通过使用多种算法来处理，并且只计算所有方法所确定的变体 - 如维恩图，”Vijay Kumar Pounraja说，他是研究生。宾夕法尼亚州立大学和论文的第一作者。“这种方法有许多缺点和局限，因此我们决定开发一种新的机器学习方法。”

CN-Learn整合来自四种不同拷贝数变异算法的数据，并使用一小组经过生物学验证的缺失和重复来学习这些基因组事件的特征。这种学习过程由称为“随机森林”的机器学习算法促进，该算法使用数百个决策树来模拟删除和重复的遗传背景与它们被验证的可能性之间的关系。然后，CN-Learn使用此模型预测其他样本中的删除和重复，而无需验证。

“关于患者的诊断和最终治疗的决定是基于这些信息做出的，因此将它们弄好是非常重要的，”Girirajan说。“正因为如此，我们已经将CN-Learn和所有必要的支持程序提供给一个简单的软件包下载。”

版权说明： 本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。

标签：

上一篇: ESA SpaceBok机器人将在低重力世界中翱翔

下一篇: GE的智能灯泡重置过程是现代技术疯狂的杰作

网站首页科技 > 正文

帮助找到人类基因组中缺失和重复的新方法

猜你喜欢：

最新文章：

网站首页 科技 > 正文

帮助找到人类基因组中缺失和重复的新方法

猜你喜欢：

最新文章：

网站首页科技 > 正文