论文笔记|用于microRNA分类的半监督机器学习框架
A semi-supervised machine learning framework for microRNA classification
摘要
本文探讨了半监督机器学习在miRNA分类中的应用,以最大限度地利用标记数据和未标记数据。我们在这里提出了两种半监督方法的新组合:主动学习和多视角联合训练。在6个不同物种上的结果表明,这阶段半监督方法能够使用非常少的标记实例来提高分类性能,有效地利用了可用的未标记数据。
提出的半监督miRNA分类管道有潜力以高查全率和精度识别新的miRNA,同时需要非常少量的已知miRNA。这种方法在研究小生境物种新测序基因组中的miRNA时非常有益,因为已知的miRNA例子很少。
背景
虽然使用不同于目标物种的物种数据来训练miRNA分类器是可能的,但我们之前已经表明,随着训练物种和测试物种之间的进化距离增加[21],分类精度会降低。
miRNA预测的问题可以从两种不同的角度进行检查,基于序列的或基于表达式的,导致两个独立的特征集描述相同的分类问题。
问题的两种独立观点的可用性使得多视角联合训练(MVCT)方法能够应用于半监督的ML[24]。在这种方法中,使用可用的训练数据分别为每个视图创建miRNA分类器。然后将分类器应用于所有可用的未标记数据,并将置信度最高的预测添加到备选视图的训练集。这样,每个视图都加强了另一个视图的分类器。这已被证明是一种有效的方法,以避免简单地加强单一分类器的偏见。MVCT在生物信息学中的应用主要集中在预测蛋白功能[25]、预测乳腺癌存活能力[26]、检测人类癌症[27]中的错误定位蛋白、基因表达分类[28]、癌症样本分类[29]和表型预测[30]。我们最近研究了使用MVCT来提高miRNA分类器[31]的准确性。在该研究中,分类器分别针对每个视图进行训练。然后通过对两种观点进行信任加权投票来达成共识预测。在本文中,我们转而研究使用MVCT来增强起始标记训练集,用于使用集成特征集进行第二阶段的半监督学习。
MVCT试图在不需要任何昂贵的湿实验室验证的情况下扩展现有的训练数据,而主动学习则试图识别那些最有利于标记的未标记样本,假设有有限的预算用于湿实验室验证实验。主动学习是一种迭代的方法,首先使用所有可用的训练数据训练分类器。分类器然后应用于所有未标记的数据,并且那些落在最接近决策边界的点被识别为后续实验验证的候选点。通过聚焦于分类器对其真实类别最不确定的点,可以在最小化湿实验室验证实验的同时为分类器收集最大的信息。我们先前已经证明了在miRNA分类[32]中主动学习的潜力。在生物信息学的其他领域,主动学习已被应用于药物发现[33,34]、癌症活组织检查[35]和组织病理学图像的基因表达谱[36,37]、蛋白质-蛋白质相互作用预测[38,39]和酶[40]的新底物识别。
虽然这两种半监督的ML方法已经被证明是有效的隔离,据我们所知,他们还没有探索联合。事实上,MVCT关注的是将无标记点添加到分类器最自信的训练集中,而主动学习关注的是分类器最不自信的无标记点,我们假设这两种方法是互补的。在此,我们提出了一种新的半监督的miRNA分类方法,该方法结合了主动学习和多视图联合训练来提高分类性能。
我们在这里进行重复交叉验证实验,以证明我们提出的双阶段半监督方法减少了训练过程中需要的标记实例的数量,从而最大限度地降低了开发miRNA预测器的总成本。从六个不同的物种中提取特征来训练和测试预测因子。学习过程包括两个阶段,首先是MVCT阶段,然后是主动学习。对于每个物种,每个阶段的个体贡献被量化,并且联合管道被证明比单独应用MVCT或主动学习更有效。在只使用32个标记训练样本的约束下,集成半监督管道的最终分类性能优于使用无约束数据集训练的先进分类器。
本研究首次将MVCT和主动学习结合到集成的半监督学习语言学习框架中。虽然它被证明对miRNA分类非常有效,但它可能会有更广泛的应用。源代码可以在GitHub上免费获得。
Results
阶段1 使用MVCT增强标记集
集成半监督miRNA分类管道的第一阶段将MVCT应用于可用的训练数据。如图1的上半部分所示。这个步骤的目的是在不进行任何昂贵的湿实验室实验的情况下最大限度地增加代表问题两种观点的数据集。对于这六个测试物种(见“方法”部分),我们评估了应用MVCT进行miRNA分类的有效性。虽然阶段1的目标是为阶段2增加训练集,但我们在每次学习迭代中都评估序列和基于表达式的视图的性能,以表明不断增长的训练数据集的价值在增加。在这里,以及整个研究中,性能是通过使用保持测试集的精度-召回曲线(AUPRC)下的面积来衡量的(参见“方法”部分)。结果如表1所示,代表了每个视图分类器在100次随机选择的种子训练集(5个正训练样本和5个负训练样本)的平均性能。在MVCT的每次迭代中,最自信的正预测和负预测都被添加到备选视图的训练集中。
从表1可以看出,每个物种的两种观点的AUPRC都有明显的改善在11次迭代学习完成之后。人类(hsa)和牛(bta)数据集表现出最大的性能增长。例如,基于人类序列的分类器发现AUPRC增加了121%。MVCT对鸡(gga)和马(eca)数据集的效果最差。应该注意的是,在应用MVCT之前,这两个物种的初始分类器是非常有效的(AUPRC > 0.87),没有多少改进的空间。分类器性能的增加是非单调的,但对所有物种都是积极的趋势。这说明在MVCT过程中加入训练集的样本在大多数情况下都是正确标记的。
MVCT阶段对每个物种进行11次迭代。虽然在文献中描述了动态停止标准,但这一选择是基于我们在[31]中之前的分析,该分析表明,在人的11次迭代后,MVCT性能趋于渐进。图2中的学习曲线证实了牛(bta)的性能,其中绘制了15次MVCT迭代的性能。结果代表了100次重复的平均AUPRC,每次重复都选择不同的种子训练集(5+/5个样本)。11次迭代后,两个视图的性能渐近线,证明了这个参数的选择是合理的。
阶段2-Active学习
第二步,对第一阶段MVCT得到的增广标记集进行主动学习。增强训练集由阶段1中每个视图的训练集并集形成。通过这样做,主动学习被应用于包含最多54个标记实例的初始训练集(种子集由5个+/5个−范例组成,加上11个正范例和11个负范例在MVCT期间添加到每个视图)。采用11次基于不确定性的主动学习迭代,每次迭代的AUPRC结果如表2所示。这些结果代表了阶段1和阶段2的100次重复,其中阶段1的起始数据集(MVCT)在每次重复中随机绘制。从表2中可以观察到,与第一轮相比,所有6个实验都表明,随着主动学习的应用,性能有所提高。除鸡(gga)为第二小数据集外,其余所有种属均有统计学意义(ttest,α< 0.05)。最显著的性能提高是在人类物种中,经过11次主动学习,性能比初始分类器提高了15.9%。奶牛和果蝇miRNA分类器的性能也有了显著提高,分别提高了9.6%和2.2%。
流程:
阶段一:
未标记数据集(在本实验中是人为将已知标签数据集的部分设为未标记数据集,这样就不用进行人工专家验证)
标记数据集中选择5个正集和5个负集,
对数据集的处理同时两种形式进行,Seq形式和氨基酸形式
基于当前标记数据集训练生成分类器和训练模型,
Seq分类器中未标记数据集放入分类器中预测
更新标记数据集的正负集用另一个view预测的top结果(正集1个,负集1个)
更新未标记数据集将预测后选择中的top数据从未标记数据集中摘除
重复迭代11次
最终选择出基于seq(11个正集,11个负集)基于氨基酸(11个正集,11个负集)初始(5个正集,5个负集)的并集,作为下一阶段active learn的种子训练集
2个view中的未标记数据集的交集作为下一阶段的无标签数据集
阶段二:
利用标签数据集训练分类器
使用分类器对无标签数据集进行预测,
基于不确定性主动学习,选择最不确定样本,通过数据库找到其标签放入训练集
重复迭代11次
Methods
Data set selection
本文利用5个数据源为每个物种创建测试和训练集:NGS表达数据、基因组数据、已知miRNAs、已知编码区域和其他已知功能性非编码RNA。表达数据来自NCBI GEO数据库[45]的小RNA NGS实验数据集。所有已知的“高可信度”miRNA的基因组序列从miRbase(第22版)[20]下载。每个动物物种的完整基因组从UCSC基因组浏览器数据库[46]下载。六种不同的物种被调查:人类,老鼠,果蝇,牛,马和鸡。数据汇总在表4中。
每个样品的真实类别在[32]中确定。简单地说,miRDeep2的“mapper.pl”预处理脚本[41]将每个读取堆栈从NGS数据映射到物种的参考基因组。这将产生一组候选pre-miRNA,包括它们的序列、二级结构、与参考基因组的比对,以及与候选pre-miRNA匹配的NGS reads的收集。与已知miRNA序列匹配的候选miRBase[20]注释为真阳性。其他候选前mirna形成候选负集。如果候选负序列与已知编码区(来自Ensembl[47]或NCBI GEO数据库[45])的外显子序列匹配,则证实其为负序列。这种阴性序列的定义是合理的,因为已知是mRNA片段的序列不可能也形成miRNA。许多非编码RNA(来自mrfam[48]),已知的功能,而不是miRNA,被添加到负数据集,以确保预测器不会简单地学习识别编码区域为负。使用cd - hit[49]程序,以90%的序列识别阈值从正负数据集中去除冗余和高度相似的序列。表4总结了每个物种的最终数据集组成。最后,对于每个物种,数据被分割成80%的训练集和20%的保持测试集。
Feature set selection
MVCT的特征集选择方法与多阶段方法的主动学习阶段略有不同。基于序列的特征从HeteroMiRPred[50]中获得,包括基于序列的、基于二级结构的、基于碱基对的、基于三元序列-结构的和与结构稳健性相关的特征。八个基于表达的特征,由[22]导出,也包括在两个学习者,包括以下:(1)成熟的microrna的nt的比例搭配,(2)的配对nt低杆,(3)pre-miRNA地区RNA-seq读取的百分比(%)读取与帽子不一致处理,(4)%读取映射到循环区域,(5)%读取映射到成熟的microrna的地区,(6)%读取地图的microrna的*,(7) %从匹配Dicer处理的前体区域读取,(8)在前体区域读取的总次数,归一化为实验大小。
在协同训练分类器中,将所有8个基于表达式的特征作为基于表达式分类器的特征集。为了创建基于序列的特征集,将Weka包[51]中的基于相关性的特征子集选择方法应用于6种动物的所有训练数据,选择来自HeteroMiRPred[50]中信息量最大的序列特征集。只使用了所有6个物种中用于特征选择的数据的训练部分(占总数据的80%)。该算法寻求最小化所选特征之间的相关性,同时最大限度地提高其预测能力。这导致了32个基于序列的特征向量,包括最小自由能衍生特征、序列/结构三重体特征、二核苷酸序列基序和结构稳健性特征。
对于主动学习分类器,将Weka基于相关性的特征选择方法应用于所有6个物种训练数据集中的223个特征,选择一个集成的特征集。算法共得到19个特征,其中6个是基于表达式的特征,13个是基于序列的特征。所选特征为MEF3、dH、Tm、Tm/loop、Sc x zG、Sc /(1-dP)、Probpair1-4、4个三元基序、CG、GA、#pb mature、% reads mature和% reads miRNA*。在[22]中详细描述了每个特性。
Classification pipeline
本次实验的所有主动学习阶段和联合训练阶段的分类器都是使用SKLearn随机森林库[52]构建的;所有参数都被设置为默认值,除了树的数量被设置为500。与其他分类器相比,随机森林分类器在miRNA分类方面表现出了优异的性能[21,43]。
由于半监督的ML方法需要一个小的标记数据集和一个大的未标记数据集,我们通过选择一个小的“种子”标记训练集(包含5个阳性样本和5个阴性样本)来模拟这个场景。所有剩余的样品被认为是没有标签的。在主动学习阶段,神谕只是检查已知的保留标签,因此不需要实际的湿实验室验证实验。
我们的半监督方法包括两个学习阶段。该方法的第一步是实现一个MVCT学习算法。多视图联合训练利用问题的多个视图创建不同的分类器——每个视图一个。在miRNA分类的情况下,这两种观点是基于识别miRNA的典型特征:基于序列的从头预测或基于表达式的NGS预测。每个基于序列和表达式的分类器最初都训练在一个小的种子训练集上,该种子训练集包含5个正标记样本和5个负标记样本。然后将这些分类器应用于更大的无标签数据集。在没有实验验证的情况下,从这些视图中最可信地预测为正或负的样本被添加到备用视图的训练集中。可选地,可以在每次迭代中添加更多的样本,这可能会加快收敛。我们限制了MVCT算法在每次迭代中只选择两个样本,以确保后续训练集中只包含高置信的预测。对于每个数据集,使用多次学习迭代的联合训练,以增加该实验的标记集的大小,然后在具有较大标记集的问题上执行主动学习。本研究共进行了11次MVCT迭代;动态停止标准也可用[31,44]。因此,每个视图的最终标记集包含32个标记实例。
在MVCT阶段结束时,通过从每个视图获取最终标记数据集的并集,创建主动学习分类器的种子训练集。因此,种子训练集包含54个标记样本(10个来自种子,22个来自协同训练的每个视图)。两个MVCT无标签数据集的交集形成了后续主动学习的无标签数据集。
在主动学习阶段,采用基于不确定性的查询策略。因此,在每次迭代学习时,oracle将从未标记数据中选择最不自信的正预测和负预测进行注释。这些将是最接近决策边界的实例。一旦确定样本的真实类别,它们将从未标记集中删除,并添加到训练集中。这个过程在整个迭代过程中重复。每次迭代后,模型在新的训练集上重新训练,分类器的性能在分类器的学习曲线上记录。与MVCT阶段一样,共完成了11次主动学习。使用20%保持测试集计算每次迭代的性能。主动学习分类器的性能代表了我们方法的最终性能。为了计算性能指标的标准差,我们模拟了整个双阶段流水线100次,每次都从5个正样本和5个负样本的种子训练集的不同随机选择开始。所述方法的流程图如图1所示。