论文笔记|基于表示学习和深度森林的 lncRNA 编码短肽预测模型

发表于 2021-11-18 分类于论文笔记阅读次数：

基于表示学习和深度森林的 lncRNA 编码短肽预测模型

深度神经网络DNN，同分布取样，筛选起始密码子为ATG，去冗余，

针对短肽预测研究中 lncRNA 中 sORFs 特征不鲜明且高可信度数据尚不充分的问题，提出一种基于表示学习的深度森林模型

提出一种自动编码器（AE）与深度森林结合的方法，实现lncRNA编码短肽的识别预测。

本文的主要贡献如下:

1)使用多个生物信息学软件获取拟南芥中的 sORFs，对结果取交集以提高结果可信度。

2)提取 CDS 与 NCDS 候选 sORFs 序列在多种特征编码方式下的特征表达结果，对特征进行融合，并通过机器学习算法分析二者的差异。

3)结合自动编码器非监督表示学习思想，提出一种深度森林预测模型，实现 sORFs 编码短肽的识别预测。

数据集

与胡鹤还师兄类似，采用拟南芥CDS和NCDS数据，作为正集和负集的数据源。

特征提取

序列长度L

（G+C）碱基含量 GC_content

G与C的比例 GC_ratio

融合后，Feature1=[L,GC_content,GC_ratio]

k-mer 取1，2，3

Feature2=[f1,…,f84]

短序列模体,（不连续碱基）SSM

Feature3=[SSM1,…,SSM48]

信噪比R

最终

Feature=(Feature1,Feature2,Feature3,R)

模型

自动编码器

编码器，解码器

深度森林

多粒度扫描，最终选取2，4滑动窗口进行采样。

级联森林，

模型实现

模型由特征编码、自动编码器和深度森林三部分组成。首先通过提取sORFs相关特征完成编码; 紧接着将结果输入到自动编码器中，经过RELU函数激活，完成表示学习过程;最后将表示学习得到的特征向量输入到深度森林中，经过自适应的层数完成训练，获得每一维增强特征对应的分类概率，通过argmax函数得到最终的分类结果，完成预测。