论文笔记|多尺度卷积胶囊网络的植物lncRNA 编码小肽预测

本文提出一种结合多尺度卷积胶囊网络的深度学习模型,既能够充分提取序列特征,又通过胶囊间的连接进行特征聚类。

对lncRNA序列中的sORF是否具有编码能力进行预测

数据集

从 GreeNC(http://greenc.sciencedesigners.com/wiki/)数据库下载拟南芥(Arabidopsis thaliana)、大豆(Glycine max)以及苔藓(Physcomitrella patens)的 lncRNA 数据。

采用生物信息学软件 sORF finder 和 ORF finder 挖掘植物 lncRNA 中的 sORFs

基于逻辑推理的思想,将生物信息学软件挖掘出的 sORFs 进一步筛选,提升数据的可信度

取两种工具识别结果的交集与差集,通过 CD-HIT本地化工具,以 0.8 作为阈值,进行去冗余处理,得到候选 sORFs 序列,其中两种工具结果的交集作为正集,差集作为负集。

序列编码

将sORFs序列 每三个连续碱基视为1个单词,也就是有4^3 = 64 单词表,按照单词出现频率,从大到小编码 。例如:GAG - > 8 ,最终将sORFs嵌入到100维向量中,如

S=(GAGGCCGTT……ACTCTATGT) => SC=(8,55,11,…,37,58,14)

特征提取

特征分析

为了探究 CDS 与候选正集、NCDS 中 sORFs 与候选负集在序列组成和理化特性方面存在的差异性,针对 sORFs 序列和氨基酸序列分别采用不同的特征编码方式进行分析

对于 sORFs 序列,提取其 k-mer 特征;

对于氨基酸序列,分别提取其 188D、DPC 特征,然后基于奇异值分解、主成分分析、t 分布随机相邻嵌入、核主成分分析,四种特征降维方法,将特征降为二维

逻辑推理

将候选正集与 CDS 的特征、候选负集与 NCDS 中 sORFs 的特征进行比对。
获取 CDS、NCDS 中 sORFs 的特征的横纵坐标范围,然后将其视为知识库,筛选掉不在CDS 特征坐标范围内的候选正集、不在 NCDS 特征坐标范围内的候选负集。

模型

嵌入阶段

嵌入层的作用是将输入序列映射成卷积层易于处理的矩阵向量的形式,将输入序列的每个数字映射成一个 1×n 维的向量

输入序列被映射成m×n 维.m 代表序列长度,n 代表嵌入维度。序列长度 m 为 100,嵌入维度 n 为 64,即嵌入阶段每条序列可映射为 100×64 的矩阵。

嵌入层使用Keras 库的 Embedding()方法,参数 output_dim 设置为 64,input_length 设置为 100。

多尺度卷积胶囊阶段

三个不同尺度的卷积核,胶囊网络将其转换为三个胶囊矩阵,最后将胶囊矩阵进行串联作为多尺度卷积胶囊层的输出。

动态路由阶段

胶囊之间通过动态路由算法进行连接,低一级胶囊转换成更高一级的胶囊,从而自动进行特征聚类,更好地表达高级特征。

结果

本文提出一种多尺度卷积胶囊网络的深度学习模型,使用多尺度卷积核捕捉不同局部特征,然后使用多层胶囊网络捕捉深层次特征并自动进行特征聚类,从而实现 lncRNA 编码小肽的分类预测。实验结果表明,提出模型与传统深度学习和单尺度模型对比,取得了最好的分类效果;此外,模型在多物种独立测试集上也取得了良好的分类效果,验证了提出模型具有健壮的泛化能力。