0%

csORF-finder: an effective ensemble learning framework for accurate identification of multi-species coding short open reading frames

摘要

短开放阅读框(sORFs)是指长度不超过303 nt的小核片段,可能编码小肽。迄今为止,在信使核糖核酸(RNAs;mRNAs)的非翻译区和长非编码RNAs(lncRNAs)中都发现了可翻译的sORFs,在无数的生物过程中发挥着重要作用。由于并非所有的sORFs都被翻译或基本可被翻译,因此开发一个高度精确的计算工具来描述sORFs的编码潜力是非常重要的,从而促进发现新的功能性肽类。有鉴于此,我们通过整合EfficientCapsNet和LightGBM设计了一系列集合模型,统称为csORF-finder,以区分智人、小鼠和黑腹果蝇中的编码sORFs(csORFs)与非编码sORFs。为了提高csORF-finder的性能,我们引入了一种新的特征编码方案,即三核苷酸偏离预期平均值(TDE),并计算了所有类型的基于框内序列的特征,如i-framed-3mer、i-framed-CKSNAP和i-framed-TDE。基准测试结果表明,与原始的3-mer、CKSNAP和TDE特征相比,这些特征可以显著提高性能。我们的性能比较表明,csORF-finder在多物种和非ATG启动的独立测试数据集上取得了比最先进的csORF预测方法更好的性能。此外,我们应用csORF-finder筛选lncRNA数据集,以确定潜在的csORFs。所得数据作为一个重要的计算资源库,用于进一步的实验验证。我们希望csORFfinder可以作为一个强大的平台,用于高通量识别csORFs和对这些csORFs编码的肽进行功能鉴定。

阅读全文 »

1. 目前有没有结合生物特征做不平衡数据处理的相关文献

1.作者利用GAN设计编码蛋白的人工DNA序列:以服从低维正态分布的向量作为生成器的输入,生成器产生的DNA序列与来自Uniprot数据库中超过3655条的天然蛋白编码序列共同作为判别器的输入,训练GAN生成编码蛋白的人工DNA序列。

2.基于VAE的生成式模型引入小分子药物序列的设计中。2018年Lim等使用化合物的油水分配系数、氢键供体性质等性质作为条件向量输入,利用分子序列与条件向量成对输入到VAE中,最终生成了分别达到5类不同理化性能指标的人工化合物分子。

3.利用基于LSTM的模型形成通用的蛋白序列表示空间,并利用该表示空间与绿色荧光蛋白的荧光强度模型相结合,进行绿色荧光蛋白序列的人工设计。

目前多用于化合物分子团等单元数目较多的生物序列的生成。

针对小开放阅读框的样本生成,即生成的样本之间相似度过高,影响人工生物序列的多样性。循环神经网络可灵活处理不定长的生物序列,但通常模型规模大,所需训练时间长,且生物分子序列相比于自然语言生成的场景,缺乏成熟的语义嵌入网络。

2.目前也有很多文献做不平衡数据的主动学习 问我这个有什么改进优势

目前的一些针对不平衡数据的主动学习没有考虑到生物序列特征方面的相关特性,针对sorf 正集分布在较长区间,负集分布在较短区间。

3.然后建议我用结合生物序列结构的方式,不一定非用p-nts编码 那种方式

p-nts 不能生成长度一致的向量必须用“n”或“0”填充以获得长度一致的向量。

k-mer频率,作为输入向量

基于主动学习SMOTE的非均衡数据分类

张永 2012 计算机应用与软件

阅读全文 »

Predicting Coding Potential of RNA Sequences by Solving Local Data Imbalance

摘要

非编码RNA(ncRNAs)在多种生物学过程中发挥重要作用,并与疾病相关。区分编码RNA和ncRNAs,也就是预测RNA序列的编码潜力,是进行下游生物功能分析的关键。已经提出了许多基于机器学习的方法来预测RNA序列的编码潜力。最近的研究表明,现有的大多数方法对开放阅读框架较短的RNA序列(sORF,ORF长度<303nt)的处理效果不佳。在本工作中,我们分析了RNA序列的ORF长度分布,发现具有sORF的编码RNA的数量不足,并且具有sORF的编码RNA的数量远远少于具有sORF的ncRNAs。因此,在含有sORF的RNA序列中存在局部数据不平衡的问题。我们提出了一种编码潜力预测方法CPE-SLDI,该方法使用数据过采样技术来增加带有sORF的编码RNA的样本,以缓解局部数据的不平衡。与现有方法相比,CPE-SLDI具有更好的性能,研究表明,通过各种数据过采样技术进行数据增强可以提高编码潜力预测的性能,特别是对于含有sORF的RNA序列。建议的方法的实施可在https://github.com/chenxgscuec/CPESLDI上获得。

关键字:非编码RNA、编码潜力预测、本地数据不平衡、过采样

阅读全文 »

RSG: A Simple but Effective Module for Learning Imbalanced Datasets

摘要

不平衡数据集在实际中广泛存在,对于训练具有较好泛化能力的非频繁类的深层神经模型是一个巨大的挑战。在这项工作中,我们提出了一个新的稀有类样本生成器(RSG)来解决这个问题。RSG的目标是在训练过程中为稀有类生成一些新的样本,特别是它具有以下优点:(1)使用方便,通用性强,因为它可以很容易地集成到任何一种卷积神经网络中,并且在结合不同的损失函数时效果很好,(2)它只在训练阶段使用,因此在测试阶段不会给深层神经网络带来额外的负担。在广泛的实验评估中,我们验证了RSG的有效性。此外,通过利用RSG,我们在不平衡的CIFAR上获得了有竞争力的结果,并在Places-LT、ImageNet-LT和iNaturalist 2018上获得了最新的结果。源代码可在https://github.com/Jianf-Wang/RSG.上找到

阅读全文 »

Alipy使用(一)

官网:http://parnec.nuaa.edu.cn/huangsj/alipy/

博客文档讲解:https://blog.csdn.net/weixin_44575152/article/details/100783835

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
import alipy as ap
import numpy as np
from alipy.metrics import *
from sklearn.datasets import load_iris
np.random.seed(1) # 保证你我的结果一直


def test():
X, Y = load_iris(return_X_y=True)
tool = ap.ToolBox(X=X, y=Y)
idx_tr, idx_te, idx_lab, idx_unlab = tool.split_AL(test_ratio=0.1, initial_label_rate=0.1, split_count=1)
"""============================================="""
model = tool.get_default_model()
model.fit(X[idx_lab[0]], Y[idx_lab[0]])
Y_pre = model.predict(X=X[idx_unlab[0]])
# 这里测试一下准确率
print(accuracy_score(Y_pre, Y[idx_unlab[0]]))
"""============================================="""


if __name__ == '__main__':
test()
阅读全文 »

Multi-Level Gene/MiRNA Feature Selection using Deep Belief Nets and Active Learning

摘要

选择最具鉴别性的基因/miRNAs已被提出作为生物信息学的一项重要任务,以增强疾病分类器和缓解维度诅咒问题。原始的特征选择方法是根据基因/miRNAs的个体特征来选择它们,而不考虑它们如何共同表现。考虑群体特征而不是个体特征为选择信息量最大的基因/miRNAs提供了一个更好的视角。最近,深度学习已经证明了它在多个抽象层次上表示数据的能力,允许更好地区分不同的类。然而,利用深度学习进行特征选择的思想在生物信息学领域还没有得到广泛的应用。本文提出了一种基于表达谱选择基因/miRNAs的多层次特征选择方法MLFS。这种方法基于深度学习和主动学习。此外,通过考虑miRNAs和基因之间的生物学关系,提出了将该技术用于miRNAs的扩展。实验结果表明,该方法对肝癌(HCC)、肺癌和乳腺癌的f1指标均优于传统特征选择方法,分别提高9%、6%和10%左右。结果也显示了我们的方法在f1 -测度中比最近在[1]和[2]中相关工作的增强。

阅读全文 »

Active Learning for microRNA Prediction

摘要

MicroRNA (miRNA)是一种短的非编码RNA,在转录后和翻译水平上参与细胞调控。预测miRNA的湿实验室实验验证是一个资源密集型的过程。因此,人们开发了各种计算方法来提高预测精度并降低验证成本。虽然这些方法非常有效,但它们需要大量的带标签的训练数据集,而这往往是许多物种无法获得的。同时,新兴的高通量湿实验室实验程序产生了大量未标记的基因组序列数据集和RNA表达谱。现有的方法无法利用这些未标记的数据。本文首次探索了主动学习在microRNA预测中的应用,以最大限度地利用标记和未标记训练数据。在6个不同物种上的结果表明,我们的主动学习方法能够使用少量的标记实例大大提高分类性能,在等效训练数据约束下优于目前最先进的方法。

阅读全文 »

DeepCPP: a deep neural network based on nucleotide bias information and minimum distribution similarity feature selection for RNA coding potential prediction

现有方法在区分大多数长非编码 RNA (lncRNA) 和编码 RNA (mRNA) 方面表现良好,但在具有小开放阅读框 (sORF) 的 RNA 方面表现不佳。

一种用于RNA编码潜在预测的深度学习方法

目标是建立一个有效的模型来预测RNA编码潜能,特别是具有sorf的RNA。

在该文章中,将含有可编码潜能sORF的RNA都视为mRNA,ncRNA为非编码RNA。

在普通数据集中为,mRNA为含有ORF的mRNA

在sORF数据集中,mRNA为只含有sORF的mRNA

阅读全文 »