笔记|日常笔记
日常随笔的一些想法
2021.12.1
对这段lncrna上的sORF预测 这个sORF是否具有编码能力
分析 编码的肽是否具有蛋白功能
目标:给一段 序列 分析这条序列上从哪个点开始到哪个点结束 是可能的一个具有编码能力的sORF
2021.12.5
是根据这个物种的数据 然后预测 这个物种的其他序列的sORF 是否有可能具有编码能力
还是根据这个物种的数据 预测 另外物种的序列?
2021.12.10
1.怎么找小开放阅读框?起始?结束?
ATG开始 TGA TAA TAG结束
2.给一段序列 -》找到小开放阅读框-》判断这个小开发阅读框是不是能编码蛋白
ORFfinder 搜索开放阅读框存在的问题
1.只能选择最小密码子个数,不能选择最大密码子个数
2021.12.24
基于主动学习的lncRNA编码短肽预测
最终的实现效果是
给点一个LncRNA序列->寻找到小开放阅读框(可能有多个小开放阅读框)->判断这个小开放阅读框是否能编码短肽->若能,输出预测的短肽序列,这个小开发阅读框的在LncRNA序列上的起始位置,末尾位置,小开放阅读框的序列
2021.12.27
在GreeNC上找到lncRNA的基因序列ID
在NCBI上根据ID查找到基因
下载下来基因,RNA,蛋白质序列
找到RNA序列的所有小开放阅读框->翻译成蛋白质序列->与下载下来的蛋白质序列匹配成功的作为正集,失败的作为负集
2022.1.2
数据集的,1,2,3位置都有相应可编码小开放阅读框
2022.4.13
利用知识推理 来 处理不平衡数据集?
2022.6.8
拟南芥负集
用GAN/Transformer/BERT做稀有类生成,放入主动学习池
主动学习做查询策略,选择最有价值一批生成样本,选择相同数量负集,加入训练集,将选择的生成样本反向传播至生成模型,优化生成模型。