论文笔记|基于表示学习和深度森林的 lncRNA 编码短肽预测模型
基于表示学习和深度森林的 lncRNA 编码短肽预测模型
深度神经网络DNN,同分布取样,筛选起始密码子为ATG,去冗余,
针对短肽预测研究中 lncRNA 中 sORFs 特征不鲜明且高可信度数据尚不充分的问题,提出一种基于表示学习的深度森林模型
提出一种自动编码器(AE)与深度森林结合的方法,实现lncRNA编码短肽的识别预测。
本文的主要贡献如下:
1)使用多个生物信息学软件获取拟南芥中的 sORFs,对结果取交集以提高结果可信度。
2)提取 CDS 与 NCDS 候选 sORFs 序列在多种特征编码方式下的特征表达结果,对特征进行融合,并通过机器学习算法分析二者的差异。
3)结合自动编码器非监督表示学习思想,提出一种深度森林预测模型,实现 sORFs 编码短肽的识别预测。
数据集
与胡鹤还师兄类似,采用拟南芥CDS和NCDS数据,作为正集和负集的数据源。
特征提取
序列长度L
(G+C)碱基含量 GC_content
G与C的比例 GC_ratio
融合后,Feature1=[L,GC_content,GC_ratio]
k-mer 取1,2,3
Feature2=[f1,…,f84]
短序列模体,(不连续碱基)SSM
Feature3=[SSM1,…,SSM48]
信噪比R
最终
Feature=(Feature1,Feature2,Feature3,R)
模型
自动编码器
编码器,解码器
深度森林
多粒度扫描,最终选取2,4滑动窗口进行采样。
级联森林,
模型实现
模型由特征编码、自动编码器和深度森林三部分组成。首先通过提取sORFs相关特征完成编码; 紧接着将结果输入到自动编码器中,经过RELU函数激活,完成表示学习过程;最后将表示学习得到的特征向量输入到深度森林中,经过自适应的层数完成训练,获得每一维增强特征对应的分类概率,通过argmax函数得到最终的分类结果,完成预测。