一种新的机器学习方法可以准确识别人类基因组中被复制或删除的区域——称为拷贝数变异——这通常与自闭症和其他神经发育障碍有关。这种由宾夕法尼亚州立大学研究人员开发的新方法整合了几种算法的数据,这些算法试图从外显子测序数据中识别拷贝数变异——人类基因组蛋白质编码区的高通量DNA测序。描述这种方法的论文发表在《基因组研究》杂志上,该方法可以帮助临床医生提供更准确的遗传病诊断。
“外显子组测序正迅速成为在临床环境中识别遗传变异的黄金标准,因为它比其他方法更快、更便宜,”宾夕法尼亚州立大学生物化学和分子生物学副教授、论文第一作者Santhosh Girirajan说。“然而,目前用于从外显子测序数据中识别拷贝数变异的算法具有非常高的假阳性率——它们识别的许多变异实际上并不真实。使用我们称为“CN-Learn”的新方法,我们报告的大约90%的拷贝数变体是真实的。”
随机森林机器学习方法用于从外显子测序数据中识别拷贝数变异。数百个决策树的森林在一组验证的遗传缺失和重复上进行训练,然后从这些树建立的模型可以用于准确识别样本外显子测序数据中的拷贝数变异。图片来源:宾夕法尼亚州吉里拉詹实验室
人类基因组通常包含每个基因的两个副本,染色体对的每个成员都有一个。当一个细胞一分为二时,基因组被复制,这样每个子细胞都能得到完整的基因补充。但是,在基因组复制的过程中,偶尔也会出现错误。当它存在于精子或卵细胞中时,会导致个体获得多于或少于两个的基因拷贝。
为了从外显子测序数据中识别拷贝数变异,研究人员研究了每个基因产生的DNA序列的相对数量。如果个体中只有一个基因拷贝,那么他们希望看到的测序读数比有两个拷贝时要少,而三个基因拷贝会导致更多的读数。但事情没那么简单,因为许多其他因素会影响每个基因产生多少测序读数。因此,研究人员开发了几种算法来正确识别外显子测序数据中的拷贝数变异。但是,单个来说,这些算法都不是特别靠谱。
研究生Vijay Kumar Pounraja说:“通常,复制数字变量的算法中的大量假阳性已经通过使用各种算法进行了处理,只有通过所有方法确定的变量——如维恩图——才被计算出来。”宾夕法尼亚州立大学,论文第一作者。“这种方法有很多缺点和局限性,所以我们决定开发一种新的机器学习方法。”
CN-Learn整合了来自四种不同拷贝数突变算法的数据,并使用一小组经过生物学验证的删除和重复来学习这些基因组事件的特征。这个学习过程是由一种叫做“随机森林”的机器学习算法来促进的,这种算法使用数百棵决策树来模拟删除和复制的遗传背景与它们被验证的可能性之间的关系。然后,CN-Learn使用该模型预测其他样本中的缺失和重复,而无需验证。
Girirajan说:“关于患者诊断和最终治疗的决定是基于这些信息做出的,所以正确对待这些信息非常重要。”“因此,我们提供了CN-Learn和所有必要的支持程序,以一个简单的软件包下载。”
标签:
免责声明:本文由用户上传,如有侵权请联系删除!