论文笔记|用于microRNA预测的主动学习

Active Learning for microRNA Prediction

摘要

MicroRNA (miRNA)是一种短的非编码RNA,在转录后和翻译水平上参与细胞调控。预测miRNA的湿实验室实验验证是一个资源密集型的过程。因此,人们开发了各种计算方法来提高预测精度并降低验证成本。虽然这些方法非常有效,但它们需要大量的带标签的训练数据集,而这往往是许多物种无法获得的。同时,新兴的高通量湿实验室实验程序产生了大量未标记的基因组序列数据集和RNA表达谱。现有的方法无法利用这些未标记的数据。本文首次探索了主动学习在microRNA预测中的应用,以最大限度地利用标记和未标记训练数据。在6个不同物种上的结果表明,我们的主动学习方法能够使用少量的标记实例大大提高分类性能,在等效训练数据约束下优于目前最先进的方法。

INTRODUCTION

miRNA的计算预测是基于纯粹的序列特征(即从头)或从下一代测序(NGS)实验数据中提取的基于表达的特征。感兴趣的读者可以参考最近对[18]领域的评论。这些技术检测形成mirna样发夹的premiRNA序列,并根据是否存在序列或基于表达的特征对其进行分类。从头预测方法具有只需基因组序列作为输入的显著优势;然而,它们受到大类不平衡的困扰,并且没有利用表达式分析信息。基于ngs的预测方法除了需要基因组序列外,还需要转录组数据,但反过来又改善了类别不平衡,只需要评估表达区域,而不是所有假定的基因组区域。大多数目前的miRNA分类工具只使用一行证据,要么是基于序列的,要么是基于表达的前miRNA序列的质量。尽管这些特征将为正确分类premiRNA序列提供有价值的信息,但由于只关注一行证据,它们的性能受到限制。摘要本文采用一个集成的特征集来表示表达式特征和序列特征的组合,用于预测[19]。

新兴的NGS实验技术使快速和廉价地收集基因组和表达数据成为可能。然而,这些数据是未标记的,因为miRNA没有显式注释。现有的依赖监督机器学习的预测器无法利用这些大型、无标签的数据集。对特定样本进行昂贵的湿实验室验证可能会逐渐增加带标签的训练集的大小。因此,我们寻求验证实例,将导致最大的性能提高的计算预测器。为了创建最有效的预测因子,同时最小化总湿实验室验证成本,需要采用迭代的方法来选择信息量最大的标签实例。

因此,我们建议使用主动学习来创建miRNA预测因子。主动学习是一种半监督的机器学习方法,它可以利用标签和未标签数据。因此,它不需要像目前使用的监督学习方法那样多的标签数据。主动学习已经成功地应用于生物信息学领域的其他问题,包括优化药物发现[22,23],癌症活检和组织病理学图像的基因表达谱[24-26],蛋白质-蛋白质相互作用预测[27,28],以及酶[29]的新底物鉴定。据我们所知,该研究首次将主动学习应用于miRNA预测因子的开发。

主动学习在这里被用来减少训练过程中需要的标记实例的数量,从而最小化开发miRNA预测器的总成本。从六个不同的物种中提取综合特征来训练和测试预测因子。研究了两种不同的主动学习策略,基于不确定性和确定性的主动学习,并与自我标记和被动学习基准方法进行了比较。当约束到只使用32个带标签的训练样本时,最终的分类性能显示超过了使用无约束数据集训练的最先进的分类器。

Methods

​ 为了创建训练和测试集,我们需要为每个物种提供5个数据源:NGS表达数据、基因组数据、已知的miRNAs、已知的编码区域和其他已知的功能性非编码RNA。表达数据来自NCBI GEO数据库[30]的小RNA NGS实验数据集。所有已知miRNA的基因组序列从miRbase (release 22)[20]下载,每个物种的完整基因组从UCSC基因组浏览器数据库[31]下载。从miRbase中只筛选出高置信度的已知miRNA。六种不同的物种被调查:人类,老鼠,果蝇,牛,马和鸡。数据汇总在表1中。

​ 为了集成不同的证据行来创建一个更健壮的特征集,我们使用了由基于表达式和基于序列的特征组成的集成特征集。基于序列的特征是从HeteroMiRPred[37]中获得的,它从先前的研究和它们自己的特征中开发了一个大的特征向量。它们的特征向量包括基于序列的、基于二级结构的、基于碱基对的、基于三元序列结构的和与结构鲁棒性相关的特征。使用这个特征向量为我们提供了215个基于序列的特征。我们还包括了[19]衍生的8个基于表达的特征,这些特征包含了成熟和下茎区域的信息以及miRNA区域的表达模式。将这些特性组合起来创建一个包含223个特性的集成集。将Weka包[38]中基于相关性的特征子集选择方法应用于6个物种的所有训练数据,参数和阈值设置为默认值。该算法基于特征之间缺乏相关性和预测能力来选择特征。为了获得对所有物种具有良好泛化能力的单一特征集,我们使用了所有6个物种的整个训练集(代表总数据的80%)。该算法的结果是,总共有19个特征被识别为最强的预测因子,它们之间的相关性最低。从19个特征中选择6个基于表达式的特征和13个基于序列的特征。所选特征为MEF3、dH、Tm、Tm/loop、Sc x zG、Sc /(1-dP)、Probpair 1-4、4个三元基序、CG、GA、#pb mature、% reads mature和% reads miRNA*。在[19]中详细描述了每个特性。

​ 本实验中的所有分类器均使用SKLearn随机森林库[39]构建;所有参数都被设置为默认值,除了树的数量被设置为500。之前的研究已经证明,随机森林分类在miRNA预测方面优于竞争分类器类型[21,40],并在miRNA预测的敏感性和特异性之间实现了更好的平衡[41-43]。由于进行实际的湿实验室实验来验证新的miRNA预测超出了本文的范围,这里使用高置信度的标签数据来模拟主动学习的过程。我们从一大批带标签的数据开始。然后我们模拟只有一小部分数据被标记(形成我们的种子训练集和独立测试集),而大多数数据被模拟为未标记(形成我们的活动集)的情况。在主动学习过程中,当湿实验室实验选择一个样品进行标记时,我们通过简单地查找该样品的真实已知标签来模拟这些实验。

我们实现了两种主动学习查询策略,以寻找最有效的方法来提高分类器的性能:基于不确定性的查询策略和基于确定性的查询策略。在不确定性查询策略中,查询分类器对其预测最不自信的实例。在这种策略中,将在每次迭代时从80%的未标记数据中选择两个最不确定的点进行注释。这些点将最接近决策边界。在基于确定性的查询策略中,将从80%的未标记数据集中选择最自信的两个点(一个正面,一个负面)进行注释。这些实例将是分类器最自信的预测,理想情况下其中一个类的预测得分接近100%。为了确定哪种查询策略更有效,在所有的实验中对这两种策略都进行了测试。对于这两种主动学习策略,我们遵循Lewis和Gale[44]的建议来确定停止标准。在这种策略中,一旦确定分类器已经达到其最大性能效果,标记将停止。该分类器的有效性是通过测试其性能在每次迭代的独立标签数据集保留标签。该数据集由数据的20%分割中的所有实例组成。该数据集中的所有标签都被保留下来,只用于评估。我们在每次迭代中记录精度召回曲线(AUPRC)下的面积来构造分类器的学习曲线。一旦达到了最大的效率,并且新的迭代没有显著地提高性能,学习和注释过程就会停止。通过在所有6个数据集上运行这个实验,11次迭代证明足够达到大多数数据集的最大有效性。因此,我们为所有6次实验设置了11次学习迭代的静态阈值。

Results

为了评估主动学习的有效性,我们将两种主动学习策略与三种不同的基线方法进行比较:不学习、被动学习和自主学习。在这些实验中使用的自主学习策略是使用与主动学习策略相同的设置来构建的。我们使用相同的随机森林分类器,集成了特征集、训练集和测试集作为主动学习分类器。在这种方法中,在每次迭代时,将训练好的随机森林应用于80%的未标记集。分类器最自信地预测为正数和负数的两个实例将根据预测进行标记,并直接添加到训练集中,而不检查它们的真实标签。这个过程与主动学习策略重复相同的迭代次数,以比较使用相同数量的训练实例对最终训练集的性能。被动学习分类器也是按照几乎相同的方法构造的。被动分类器的唯一区别是,在每次迭代时,从未标记的数据中随机选择两个实例,由oracle标记并添加到训练数据中。“不学习”分类器表示最初训练的分类器,其中只使用了10个实例的初始种子。图1根据平均AUPRC说明了所有四种策略在每个迭代中对六个数据集的性能。从图中可以明显看出,两种主动学习策略在六组数据中的五组中都明显优于其他两种分类器。只有在牛(bta)数据集上,被动学习表现得非常好,在所有迭代中几乎与主动学习的性能相匹配。

表2比较了所有6个物种使用基于确定性和不确定性的主动学习策略,以及被动、自学习和最初训练的分类器(“不学习”)的最终分类结果。这些结果代表了100次重复的最终学习迭代的平均AUPRC。将“无学习”分类器作为基准性能,基于不确定性的分类器在4种分类器中表现出最好的性能提高,所有6种分类器的平均性能提高了8.72%。基于确定性的分类器排名第二,平均提高5.23%,其次是被动学习分类器和自我训练分类器,分别比“不学习”分类器提高2.86%和2.83%。基于不确定性的分类器的最大性能提高幅度为25.7% (hsa),而基于确定性的分类器、被动学习分类器和自学习分类器的最大性能提高幅度分别为14.4%、13.24%和13.11%。除了在所有数据集上表现比两种主动学习策略差之外,自训练分类器在小鼠和果蝇数据集上的表现实际上比原始的“不学习”分类器差,平均AUPRC分别降低了0.50%和1.68%。同样的情况也发生在鸡数据集的被动学习分类器上。表2所示的方法在个体数据集和平均水平上的表现表明,基于不确定性的主动学习策略是本文评价的所有方法中最有效的miRNA分类方法。这些结果代表了超过100次重复实验的平均性能。为了清晰起见,没有显示标准差,对于不同的实验,标准差在0.001到0.003之间。

到目前为止,我们已经确定,与基线方法相比,使用基于不确定性的查询策略的主动学习可以提高性能。我们在这里检查使用集成的特征集与使用严格的序列或基于表达式的特征训练的分类器的好处。使用32个随机选择的训练样本构建了3个分类器:仅基于序列特征的分类器、仅基于表达式特征的分类器、基于序列特征和基于表达式特征的分类器。注意,这相当于上面描述的被动学习策略,在11次迭代之后。还请注意,当限制为32个训练范例时,集成分类器等价于miPIE[19]方法。我们将相同的标签预算用于所有其他方法进行公平的比较,所有测试重复100次。在每一次重复中,将数据分解为种子训练集、无标签集和测试集。此外,还与流行的miRNA预测工具miRDeep2[32]进行了比较。我们选择将我们的方法与miRDeep2进行比较,因为通过对7个数据集的独立评估,它被确定为最有效的最先进的方法之一[45]。必须注意的是,miRDeep2代表了一个保守的基准,因为该方法已经在完全的、不受限制的训练集上进行了训练。这种预先训练的方法只对测试集应用一次,因此不能计算标准差。

图2展示了所有方法在6个物种上的平均精度-召回曲线,表3比较了每种方法在每个数据集上的平均AUPRC。从结果中可以看出,集成分类器优于所有数据集上的每个单独视图。当观察所有6个物种的平均值时,集成分类器显示,与基于序列和基于表达的分类器相比,集成分类器的平均增幅分别为3.3%和2.5%。这种改进的性能演示了将两个视图集成为一个组合特性集的价值,正如[19]所建议的那样。

Discussion

在我们的实验中,我们创建了框架来测试基于确定性和不确定性的查询方法,以比较它们的性能。从表2的结果可以看出,基于不确定性的查询策略在所有6个数据集上的表现都优于基于确定性的查询策略,在所有数据集上的平均性能提高了3.49%。当查看图1时,可以观察到在大多数数据集中,基于确定性的策略在达到平稳期之前的第一次迭代中显示了性能的提高;从这一点开始,进一步的迭代不会提高性能。这表明,与基于不确定性的主动学习策略相比,基于确定性的分类器在更早的阶段就达到了最大的有效性。

在果蝇这样的物种中,平均AUPRC一开始就很高,基于确定性的分类器只提高了0.66%的性能,而基于不确定性的分类器提高了两倍多。基于确定性的分类器在性能已经很高的情况下以如此小的速度提高了性能,并且分类器在早期阶段就达到了最大的有效性,这都是使用基于确定性的查询策略的可以理解的结果。当分类器自信地预测一个实例属于其中一个类时,这意味着它有足够的关于该实例的信息,这些信息是从训练集中已经提取的样本中提取的。因此,通过将强预测实例添加到训练集中,我们只是重新确认分类器已经从类似实例中获得的信息。考虑到这一解释,分类器在早期达到最大有效性的原因就很明显了,因为新增加的实例并没有进一步加强分类器。这可能会增加弱分类器的性能,但是,如果性能已经足够高,分类器将不会从添加的实例中学习太多。

这两个问题都可以通过使用基于不确定性的查询方法来克服。通过使用基于不确定性的方法,我们不断地向分类器添加包含新信息的实例。这些实例将是分类器难以预测的,这意味着它没有关于它们特征的充分信息。通过将这些实例添加到分类器中,我们帮助它学习它们的特征,并能够通过更好的知识预测未来类似的实例。通过这种方式,基于不确定性的方法可以在更多的学习迭代之后继续改进性能,而不会在早期阶段停滞不前。

在本研究实施的自我训练方法中,我们在每次迭代中直接将预测排名靠前的正负实例加入训练集,而不检查真实标签。这种方法与基于确定性的方法相同,即添加自信点。该方法不检查实例的真实标签,这一点使它与之前的方法不同。正如预期的那样,这种方法被证明在每个数据集上都比两种主动学习策略要弱,如表2所示。事实上,在小鼠和果蝇的实验中,自我训练方法比初始分类器的表现分别差0.50%和1.68%。换句话说,在分类器的训练集中增加了22个实例,使其性能下降,这是很出乎意料的。这些结果可能与向训练集添加未经验证的标记实例有关,在某些情况下,这导致一个错误的标记实例被添加到训练集,从而降低了分类器的性能。特别是在学习的早期迭代过程中,由于训练集由如此少的实例组成,出现一个自信的错误预测的实例将是非常不利的。当我们在表2中比较自我训练分类器与基于确定性的主动学习分类器的最终平均AUPRC时,后者的平均性能提高了2.40%。考虑到这两种方法都使用了类似的基于确定性的方法,只是在加入训练集之前对所选实例的真实类别进行了查询,对每个实例的真实类别进行验证的价值就很明显。

通过比较我们的主动学习策略和表2中的被动学习方法,我们证明了增加高信息量实例的价值。与主动学习一样,被动学习分类器也能够在每次迭代中查询两个选定的实例,进行11次学习迭代。唯一的区别是,这些实例是随机选择的。在这个方法的最后一次学习迭代中,我们使用了与主动学习方法相同的标签预算,但没有得到类似的好结果。这表明了选择信息量大的点加入训练集的重要性。通过随机选择点,尽管扩大了训练集的规模,但我们并没有使性能最大化。结果表明,主动学习在大多数迭代(不包括最后的迭代)中的五次学习表现都优于被动学习。目前还不清楚为什么被动学习对这个物种如此有效。因此,通过进行这种比较,我们证明了主动学习并不是简单地通过增加训练集的大小来提高分类性能,而是在确定的标签预算下使分类性能最大化。

在确定了不确定性查询方法的优越性之后,我们进一步研究了使用集成特征集的好处。我们进行了实验,比较了集成分类器与基于序列、基于表达的预测器。在主动学习分类器的最后迭代中,所有分类器都使用与训练集大小相同的实例数进行训练。必须承认,在图2中的某些曲线中,从表3中报告的AUC改善从PR曲线本身来看并不明显。这与低召回时的更高精度有关(曲线在低召回时表现更好)。对于高等级的不平衡,通常需要在非常高的精度水平上操作,甚至以召回为代价,以避免被错误的积极预测淹没。事实上,我们的主动学习方法大大优于单独构建在每个视图上的分类器,这表明了使用集成的特征集的优势,它利用了所有的证据行。我们的主动学习方法也与一个集成分类器相比较,类似于在[19]中提出的分类器,其中分类器具有与我们的主动学习分类器相同的特征集。这两种方法的不同之处在于主动学习只能应用于一种方法而不能应用于另一种方法。主动学习导致性能提高的事实证明了它在选择被标记的实例的出众能力,最大限度地提高分类器预测精度。

最后,我们证明了我们的主动学习方法可以在严格限制训练集的情况下产生高效的分类器。在这里,我们使用32个标记样本训练的分类器与广泛使用的miRNA分类工具miRDeep2进行了比较。虽然这种方法始于2011年,但它仍然是该领域事实上的标准。需要强调的是,miRDeep2是在无约束训练集上训练的,而我们的方法仅限于32个带标签的训练样本。我们的方法优于miRDeep2的事实表明,在有限的训练数据面前,主动学习是一种训练新的miRNA预测因子的有效方法。事实上,这里描述的主动学习方法适用于任何miRNA预测因子,应该与其他先进的预测因子结合研究。

主动学习的有效性与特定物种的训练数据的大小之间似乎存在微弱的相关性。使用Spearman秩相关检验对6个物种按表2(经过11次迭代)的性能增加百分比排序,与按训练集大小排序(如表1所示)。p值为0.886,表明相关性相对较强,值得进一步研究。

结论

在本研究中,我们提出了一种新的主动学习方法来分类miRNA。该方法利用了基于序列和基于表达式的特性来最大化预测性能。研究了基于确定性和不确定性的主动学习查询方法,以找到查询实例的最佳方法,使性能提高最大化。不确定性方法平均优于3.49% (AUPRC)。然后,将基于不确定性的主动学习方法与各种不应用主动学习的分类器进行比较,并与所有分类器的性能进行比较。主动学习方法也与最先进的方法miRDeep2进行了比较,并显示了7.91%的改进性能,尽管miRDeep2受益于无约束的训练集。总的来说,研究结果表明,主动学习通过选择要标记的样本,最大限度地提高分类器预测精度,能够在有限的标记实例数量下,极大地提高分类性能。因此,本文收集的证据表明,主动学习是一种非常有效的miRNA分类方法。