zshits吧 关注:30贴子:2,999

【笔记】TBtools使用

只看楼主收藏回复

昨天刚分析过的流程今天已经记不得了,可怕
主界面镇楼

虽然现在的付费插件越来越多了,不过对于本咸鱼这种不会也不想入坑编程的,确实是大大的福利,嗯


IP属地:河南1楼2021-04-27 20:32回复
    我飘了,我文章没写完分析没做完开始来写教程了hhhh
    因为文章写的是基因家族分析,所以在这里记录一下使用TBtools进行【基因家族分析】的流程
    贴吧这不能直接粘贴图片的设定什么时候改一下orz
    ---
    咳咳,总之,所谓【基因家族分析】就是
    “你有一个基因,找到它的兄弟姐妹,看看他们有什么一样和不一样的地方”
    简而言之就是基因户口普查√
    ---
    第一步,获得一个值得研究的基因!
    从师兄师姐那里,或者文献里找。
    现在找基因的文章真的是,多如牛毛,一通分析下来能找到十几个几十个值得研究的基因,虽然很有可能被文章的作者(的团队)接着研究的可能性,不过,嗯,大概一半都会从师兄师姐和老手那里拿到工作(基因)吧。
    get了具体基因之后,你可以:
    1.去blast(求助ncbi吧)
    NCBI上库比较基础,但是很方便。嗯,不过,做植物的也就那么几个发布的基因组,也可以下下来本地blast
    但是这里如果直接用整条序列去blast的话,大概其实,也找不全,对,因为基因上并不是(大概率不是)每一个氨基酸都存在用武之地,事实上发挥主要作用的可能只是某个或者某些区域(大约每一个碱基都有作用吧23333只是人类还没有把它们完全破译出来而已)
    嗯,从这一点来讲的话,我们就应该用这些“某些区域”来找这个基因的兄弟姐妹,事实上基因家族也是这么定义的——拥有相似保守结构域的一类基因。
    BLAST需要的是【已知的序列】

    TBtools的BLAST界面是这样的(联网blast,其实跟ncbi差不多所以没啥必要)
    本地blast请选择blast+并使用命令行进行(还要建库,贼麻烦)
    不过本地的好处就是,库里没有的也能blast,毕竟物种那么多,指不定CNBI上就没有
    咳咳,扯回来,那么要怎么blast出我们需要的家族基因呢?
    看文献里有莫得提过这个基因家族再拟南芥里有什么存在→找到这个家族在拟南芥里的基因,去blast你的物种,找到相似度(蛋白质)25%+(核酸)70%+的序列,大概就是了√
    如果你是研究拟南芥的emmmmmmmmmmm自求多福吧,它太快了(各种意义上)
    或者,我们可以——
    2.HMMER
    这是一个用解构寻找家族基因的办法,原理和算法比较复杂
    大概解释一下就是:把所有物种的某一个功能区域放在一起,构建一个模型(它很高大上,叫“隐马尔尼科夫模型”),把这个集合体模型当作“确实的功能区域”,去寻找序列中含有这个功能区域的所有基因
    事实上这个“模型”就是排列较为相似的一些序列,你说多相似才会识别为“相似”?
    去问算法吧。
    HMMER这个软件跟BLAST+一样,是免费下载的,要用命令行建库(也就是构建隐马尔尼科夫模型)
    如果想这么干的话,从Pfam那里找到你需要的一个包含了所有序列的一个,文件,然后
    TBtools里存在着HMM工具
    需要的材料是【物种的蛋白质序列.fa】【所有Pfam的隐马模型.hmm】(可以在官网下到)【你这个基因包含的功能区域的Pfam号】这个可以去ncbi上看,或者该物种的专门网站看

    完了点击开始,就好了,你将得到一个.txt


    IP属地:河南2楼2021-05-20 22:41
    收起回复
      顺便一提,记得经常清理路径,因为TBtools会产生很多过程文件

      大概一次HMM会产生仨的样子,可以的话,真的,嗯,希望能加一个运行完了把过程文件删了的功能orz


      IP属地:河南3楼2021-05-20 22:43
      回复
        完了之后我们把得到的序列的名字整理一下
        导进Excel


        这里记得选空格分行,因为它输出的模式用的是空格,可以把仅含名称的一列数据分开来

        把没用的行删掉
        ---
        因为这个HMM结果输出的模式是“找到的基因”→“它们的得分”→“下一个Pfam筛出的基因”→“它们的得分”→……这样的顺序
        所以其实每个Pfam筛出的基因是重复两次的,粘贴的时候请注意


        IP属地:河南4楼2021-05-20 22:56
        收起回复
          因为孩子这个基因家族的特点是拥有两个结构域,所以筛选了重复值
          大概更多个的话道理一样吧,无非就是粘贴的时候比较麻烦?

          删除重复值的意义:因为有的基因会存在很多个转录的模式(极个别的差别,总体上问题不大所以只留一个,因为它是一个基因的不同转录本)
          这里记得把这些.1啊01啊啥的保留下来,否则你之后会fetch不到序列
          因为算法很蠢,只能识别完全一样的名称x


          IP属地:河南5楼2021-05-20 23:09
          收起回复
            完了之后我们就可以去根据这些名称找完整序列了

            这里用到的是Fasta Extract功能
            需要准备之前那个【物种的蛋白序列.fa]】
            【输出文件路径】(别忘了自己编个名字)
            刚才选出来的基因的名字
            记得名字一定要对上,要不就会,出现空文件


            IP属地:河南6楼2021-05-20 23:14
            回复
              得到了这些fasta格式的序列之后
              我们还需要把名字精简一下
              至于为啥……
              除了之前提到的转录版本的问题,还有就是
              有的不贴心基因组的名字真的,很长
              你家写个名字要把整个户口本都写上啊nmd!!!


              IP属地:河南7楼2021-05-20 23:38
              回复
                TBtools提供的simplify功能

                意思大概就是“从X开始删”
                比方说我们的名字都以空格结束,就打一个空格,当然,如果是-或者_分割的话,把对应代码敲进去就行了

                但是想把.1删掉的话就需要先删.1后面的东西,再把.1删掉
                总而言之不能直接输入.1,会报错


                IP属地:河南8楼2021-05-21 00:09
                回复
                  然后我们把所得的simplified文件给合并一下(因为要构建树,一个个拖进去太烦了

                  内啥,我真的不是故意截钟师傅的orz
                  这里可以使用批处理工具
                  【txt合并批处理工具做成!】
                  新建一个.txt→输入【type *.txt>>all.txt】(这里all可以改成你想要的输出文件名字)→保存→把.txt改成.bat→确认
                  这个它的意思是“把【这个目录下】的所有.txt都合并到一个文件夹里
                  所以建议为要合并的.txt新建一个文件夹23333,否则会合进去奇怪的东西

                  咳咳


                  IP属地:河南9楼2021-05-21 00:14
                  回复
                    然后我们去构建进化树
                    下载一个MEGA(免费的),孩子这个是MEGA X,各个版本界面不太一样,不过我们大概也,用不到那么多

                    新建一个Alignment,选protein(因为是蛋白质序列辣)
                    然后把.all拖进去——是不可能的
                    会报错

                    .fa不会,所以改一下后缀大概就……没问题
                    然后我们得到一个大序列图

                    把它们对齐一下
                    全选(Ctrl+A)虽然不全选也会提示你全选的

                    然后等他跑完

                    存一下

                    然后来找一下最优模型


                    IP属地:河南10楼2021-05-21 00:35
                    回复

                      参数默认即可
                      然后……就,慢慢等吧
                      孩子回去睡觉了


                      IP属地:河南11楼2021-05-21 00:36
                      回复

                        CPU满载hhhhhh
                        想起了之前渲染视频的时候(心情简单


                        IP属地:河南12楼2021-05-21 00:43
                        回复
                          WDNMD直接等了半夜(再也不熬夜了)
                          在煮了一锅面吃完了打了好几把原神之后,它终于跑完了
                          因为当时处在半梦半醒的状态所以其实也不记得具体是几点了
                          咳咳,总之,在这么多模型里这个是最好的,理论上得分越低越好,但是有可能会出现组合模型最低的……

                          问就是MEGA不能几个模型一起用
                          然后我们开始建树
                          选用邻接法
                          建树有最大似然法合邻接法两种,区别就是算法不一样,大概就是慢但是可信度高以及快但是可信度低的区别吧
                          我们选的是快的那一个x
                          模型选刚才找出来的最优


                          IP属地:河南13楼2021-05-21 08:49
                          回复
                            然后,大概几分钟(或者十几分钟)过去了
                            建好了
                            (nm检验两小时,建树5分钟)

                            也可以戳戳戳让它变得更好看一点

                            然后保存成.nwk格式


                            这是一个树文件,后续可以用它来跟各种别的图进行交互
                            请注意的是,名字要完全一致才对应的上()
                            嗯,智障算法是这样的


                            IP属地:河南14楼2021-05-21 09:07
                            回复
                              然后我们可以美化一下这个进化树
                              需要之前的.nwk

                              美化树的网站有很多,这里推荐一个颜值过得去的
                              其实数据丰富的话怎么都会很好看orz

                              上载你的,nwk或者直接复制进去也可
                              插一句,TBtolls虽然也能,但是,毕竟这种比较专业吧23333
                              术业有专攻.jpg 也挺方便

                              然后就是各种选项
                              考验审美的时候到了
                              功能很多,不知道怎么用就多戳几下咯


                              IP属地:河南15楼2021-05-21 09:28
                              回复