R語言實現多序列比對(MSA)可視化

  • 2020 年 2 月 25 日
  • 筆記

大家應該很熟悉多序列比對的工具,比如Clustal X系列,MEGA等。今天給大家介紹一個在R語言實現多序列比對可視化的R包ggmsa。首先我們看下所需要的包:
BiocManager::install("treeio")  BiocManager::install("Biostrings")  BiocManager::install("ggtree")  install.packages("ggmsa")  install.packages("seqmagick")  install.packages("cowplot")

接下來我們看下其核心函數ggmsa:

其中的參數,我們不做贅述,其實都很明顯了我們直接進入實戰:

sequences <-system.file("extdata", "sample.fasta", package ="ggmsa")  ggmsa(sequences, 320, 360, color ="Clustal")

其它的顏色我們就不一一試了。接下來我們看下,font=NULL,去掉背景之後的樣子:

ggmsa(sequences, 320, 360, font = NULL,color = "Chemistry_AA")

然後,我們看下增加了進化樹的綜合繪圖:

library(Biostrings)  x <- readAAStringSet(sequences)  d <- as.dist(stringDist(x, method ="hamming")/width(x)[1])  library(ape)  tree <- bionj(d)  library(ggtree)  p <- ggtree(tree ) + geom_tiplab()    data = tidy_msa(x, 164, 213)  p + geom_facet(geom = geom_msa, data =data,  panel = 'msa', font = NULL, color= "Chemistry_AA") +xlim_tree(1)

最後我們看下和基因logo結合的MSA繪圖:

f <- system.file("extdata","LeaderRepeat_All.fa", package = "ggmsa")  s <- readDNAStringSet(f)  strings <- as.character(s)  p1 <- ggmsa(s, font = NULL, color ='Chemistry_NT')    library(ggseqlogo)  library(cowplot)    p2 <- axis_canvas(p1, axis='x')+geom_logo(strings, 'probability')  pp <- insert_xaxis_grob(p1, p2,position="top", grid::unit(.05, "null"))  ggdraw(pp)

歡迎大家學習交流!