论文笔记|基于表示学习和深度森林的 lncRNA 编码短肽预测模型

基于表示学习和深度森林的 lncRNA 编码短肽预测模型

深度神经网络DNN,同分布取样,筛选起始密码子为ATG,去冗余,

针对短肽预测研究中 lncRNA 中 sORFs 特征不鲜明且高可信度数据尚不充分的问题,提出一种基于表示学习的深度森林模型

提出一种自动编码器(AE)与深度森林结合的方法,实现lncRNA编码短肽的识别预测。

本文的主要贡献如下:

1)使用多个生物信息学软件获取拟南芥中的 sORFs,对结果取交集以提高结果可信度。

2)提取 CDS 与 NCDS 候选 sORFs 序列在多种特征编码方式下的特征表达结果,对特征进行融合,并通过机器学习算法分析二者的差异。

3)结合自动编码器非监督表示学习思想,提出一种深度森林预测模型,实现 sORFs 编码短肽的识别预测。

数据集

与胡鹤还师兄类似,采用拟南芥CDS和NCDS数据,作为正集和负集的数据源。

特征提取

序列长度L

(G+C)碱基含量 GC_content

G与C的比例 GC_ratio

融合后,Feature1=[L,GC_content,GC_ratio]

k-mer 取1,2,3

Feature2=[f1,…,f84]

短序列模体,(不连续碱基)SSM

Feature3=[SSM1,…,SSM48]

信噪比R

最终

Feature=(Feature1,Feature2,Feature3,R)

模型

自动编码器

编码器,解码器

深度森林

多粒度扫描,最终选取2,4滑动窗口进行采样。

级联森林,

模型实现

模型由特征编码、自动编码器和深度森林三部分组成。首先通过提取sORFs相关特征完成编码; 紧接着将结果输入到自动编码器中,经过RELU函数激活,完成表示学习过程;最后将表示学习得到的特征向量输入到深度森林中,经过自适应的层数完成训练,获得每一维增强特征对应的分类概率,通过argmax函数得到最终的分类结果,完成预测。