我飘了,我文章没写完分析没做完开始来写教程了hhhh
因为文章写的是基因家族分析,所以在这里记录一下使用TBtools进行【基因家族分析】的流程
贴吧这不能直接粘贴图片的设定什么时候改一下orz
---
咳咳,总之,所谓【基因家族分析】就是
“你有一个基因,找到它的兄弟姐妹,看看他们有什么一样和不一样的地方”
简而言之就是基因户口普查√
---
第一步,获得一个值得研究的基因!
从师兄师姐那里,或者文献里找。
现在找基因的文章真的是,多如牛毛,一通分析下来能找到十几个几十个值得研究的基因,虽然很有可能被文章的作者(的团队)接着研究的可能性,不过,嗯,大概一半都会从师兄师姐和老手那里拿到工作(基因)吧。
get了具体基因之后,你可以:
1.去blast(求助ncbi吧)
NCBI上库比较基础,但是很方便。嗯,不过,做植物的也就那么几个发布的基因组,也可以下下来本地blast
但是这里如果直接用整条序列去blast的话,大概其实,也找不全,对,因为基因上并不是(大概率不是)每一个氨基酸都存在用武之地,事实上发挥主要作用的可能只是某个或者某些区域(大约每一个碱基都有作用吧23333只是人类还没有把它们完全破译出来而已)
嗯,从这一点来讲的话,我们就应该用这些“某些区域”来找这个基因的兄弟姐妹,事实上基因家族也是这么定义的——拥有相似保守结构域的一类基因。
BLAST需要的是【已知的序列】

TBtools的BLAST界面是这样的(联网blast,其实跟ncbi差不多所以没啥必要)
本地blast请选择blast+并使用命令行进行(还要建库,贼麻烦)
不过本地的好处就是,库里没有的也能blast,毕竟物种那么多,指不定CNBI上就没有
咳咳,扯回来,那么要怎么blast出我们需要的家族基因呢?
看文献里有莫得提过这个基因家族再拟南芥里有什么存在→找到这个家族在拟南芥里的基因,去blast你的物种,找到相似度(蛋白质)25%+(核酸)70%+的序列,大概就是了√
如果你是研究拟南芥的emmmmmmmmmmm自求多福吧,它太快了(各种意义上)
或者,我们可以——
2.HMMER
这是一个用解构寻找家族基因的办法,原理和算法比较复杂
大概解释一下就是:把所有物种的某一个功能区域放在一起,构建一个模型(它很高大上,叫“隐马尔尼科夫模型”),把这个集合体模型当作“确实的功能区域”,去寻找序列中含有这个功能区域的所有基因
事实上这个“模型”就是排列较为相似的一些序列,你说多相似才会识别为“相似”?
去问算法吧。
HMMER这个软件跟BLAST+一样,是免费下载的,要用命令行建库(也就是构建隐马尔尼科夫模型)
如果想这么干的话,从Pfam那里找到你需要的一个包含了所有序列的一个,文件,然后
TBtools里存在着HMM工具
需要的材料是【物种的蛋白质序列.fa】【所有Pfam的隐马模型.hmm】(可以在官网下到)【你这个基因包含的功能区域的Pfam号】这个可以去ncbi上看,或者该物种的专门网站看

完了点击开始,就好了,你将得到一个.txt
因为文章写的是基因家族分析,所以在这里记录一下使用TBtools进行【基因家族分析】的流程
贴吧这不能直接粘贴图片的设定什么时候改一下orz
---
咳咳,总之,所谓【基因家族分析】就是
“你有一个基因,找到它的兄弟姐妹,看看他们有什么一样和不一样的地方”
简而言之就是基因户口普查√
---
第一步,获得一个值得研究的基因!
从师兄师姐那里,或者文献里找。
现在找基因的文章真的是,多如牛毛,一通分析下来能找到十几个几十个值得研究的基因,虽然很有可能被文章的作者(的团队)接着研究的可能性,不过,嗯,大概一半都会从师兄师姐和老手那里拿到工作(基因)吧。
get了具体基因之后,你可以:
1.去blast(求助ncbi吧)
NCBI上库比较基础,但是很方便。嗯,不过,做植物的也就那么几个发布的基因组,也可以下下来本地blast
但是这里如果直接用整条序列去blast的话,大概其实,也找不全,对,因为基因上并不是(大概率不是)每一个氨基酸都存在用武之地,事实上发挥主要作用的可能只是某个或者某些区域(大约每一个碱基都有作用吧23333只是人类还没有把它们完全破译出来而已)
嗯,从这一点来讲的话,我们就应该用这些“某些区域”来找这个基因的兄弟姐妹,事实上基因家族也是这么定义的——拥有相似保守结构域的一类基因。
BLAST需要的是【已知的序列】

TBtools的BLAST界面是这样的(联网blast,其实跟ncbi差不多所以没啥必要)
本地blast请选择blast+并使用命令行进行(还要建库,贼麻烦)
不过本地的好处就是,库里没有的也能blast,毕竟物种那么多,指不定CNBI上就没有
咳咳,扯回来,那么要怎么blast出我们需要的家族基因呢?
看文献里有莫得提过这个基因家族再拟南芥里有什么存在→找到这个家族在拟南芥里的基因,去blast你的物种,找到相似度(蛋白质)25%+(核酸)70%+的序列,大概就是了√
如果你是研究拟南芥的emmmmmmmmmmm自求多福吧,它太快了(各种意义上)
或者,我们可以——
2.HMMER
这是一个用解构寻找家族基因的办法,原理和算法比较复杂
大概解释一下就是:把所有物种的某一个功能区域放在一起,构建一个模型(它很高大上,叫“隐马尔尼科夫模型”),把这个集合体模型当作“确实的功能区域”,去寻找序列中含有这个功能区域的所有基因
事实上这个“模型”就是排列较为相似的一些序列,你说多相似才会识别为“相似”?
去问算法吧。
HMMER这个软件跟BLAST+一样,是免费下载的,要用命令行建库(也就是构建隐马尔尼科夫模型)
如果想这么干的话,从Pfam那里找到你需要的一个包含了所有序列的一个,文件,然后
TBtools里存在着HMM工具
需要的材料是【物种的蛋白质序列.fa】【所有Pfam的隐马模型.hmm】(可以在官网下到)【你这个基因包含的功能区域的Pfam号】这个可以去ncbi上看,或者该物种的专门网站看

完了点击开始,就好了,你将得到一个.txt