笔记|日常笔记

日常随笔的一些想法

2021.12.1

对这段lncrna上的sORF预测 这个sORF是否具有编码能力

分析 编码的肽是否具有蛋白功能

目标:给一段 序列 分析这条序列上从哪个点开始到哪个点结束 是可能的一个具有编码能力的sORF

2021.12.5

是根据这个物种的数据 然后预测 这个物种的其他序列的sORF 是否有可能具有编码能力

还是根据这个物种的数据 预测 另外物种的序列?

2021.12.10

1.怎么找小开放阅读框?起始?结束?
ATG开始 TGA TAA TAG结束
2.给一段序列 -》找到小开放阅读框-》判断这个小开发阅读框是不是能编码蛋白

ORFfinder 搜索开放阅读框存在的问题

1.只能选择最小密码子个数,不能选择最大密码子个数

2021.12.24

基于主动学习的lncRNA编码短肽预测

最终的实现效果是

给点一个LncRNA序列->寻找到小开放阅读框(可能有多个小开放阅读框)->判断这个小开放阅读框是否能编码短肽->若能,输出预测的短肽序列,这个小开发阅读框的在LncRNA序列上的起始位置,末尾位置,小开放阅读框的序列

2021.12.27

在GreeNC上找到lncRNA的基因序列ID

在NCBI上根据ID查找到基因

下载下来基因,RNA,蛋白质序列

找到RNA序列的所有小开放阅读框->翻译成蛋白质序列->与下载下来的蛋白质序列匹配成功的作为正集,失败的作为负集

2022.1.2

数据集的,1,2,3位置都有相应可编码小开放阅读框

2022.4.13

利用知识推理 来 处理不平衡数据集?

2022.6.8

拟南芥负集

用GAN/Transformer/BERT做稀有类生成,放入主动学习池

主动学习做查询策略,选择最有价值一批生成样本,选择相同数量负集,加入训练集,将选择的生成样本反向传播至生成模型,优化生成模型。