特別欄目之新型冠狀病毒(2019-nCoV)序列分析

  • 2020 年 2 月 25 日
  • 筆記

我們發現在GISAID 資料庫中上傳了關於26例新型冠狀病毒的基因序列,作為生物資訊的一個愛好者,我不禁想通過自己的想法,對這些已知的數據進行一下相應的分析。由於申請限制我們獲取了公眾號《測序中國》提供的數據源。那麼今天我們就介紹一下R語言之外的一個基因序列分析過程:

1. 首先是微生物序列比對的相關軟體下載:

MEGA https://www.megasoftware.net/

Clustalw http://www.clustal.org/download/

Clustalx http://www.clustal.org/download/

軟體的安裝我就不再贅述了,我下載的是老版本的MEGA 7。

2. 我們看下如何操作:

首先打開軟體:

接下來就是一個對話框彈出;選擇「create a new alignment」,選擇「DNA」,接下來就是導入fasta的文件。

當然上面的fasta文件是多個序列合併後的文件,所以在這裡我們還需要對單個的文件進行合併,然後再導入,合併需要用到windows 10自帶的type功能。

當然了,這樣合併後,還需要檢查下合併的文件,有可能因為每個序列最後沒有換行符導致,直接連起來,通過尋找「>「 進行換行,形成對應的合併後的序列集合。然後我們看下導入後的結果:

接下來就是分析了,我們直接用默認的參數進行clustalw分析。

不過呢,這個過程如果在windows下面運行需要很長的時間,本人還是建議直接在Linux下面進行分析。至此我們就進行多序列的比對,下面就是將序列比對的結果保存下來,導出兩個文件:all_seq.fas 和 all_seq.meg。

接下來,用clustalx打開我們比對好的.fas的文件,結果如下圖:

接下來就是導出我們的比對的可視化結果。會輸出.ps的文件,ps(PostScript)是一種頁面描述語言,主要用於高品質列印。此處的結果我們只展示1-300bp序列以及最後的124個序列:

我們從中可以看出其序列存在大量的差異性。

然後把.meg的文件利用MEGA打開,如下圖:

構建樹之後就可以看出26個病人中病毒的序列樹圖:

從上圖我們可以看出劃紅線的兩個樣本分別是最原始和離根最遠的樣本。這樣說明病毒在不斷的更新迭代,接下來,我們對各樣本之間序列的距離進行計算。

首先我們計算總體的平均距離為4.476。我們看了上面我們劃紅線的兩個樣本發現其之間的距離為5.826>4.476。同時我們發現黃色熒光的兩個樣本和其他樣本都存在一定的距離。

綜上所述,我們的這26個序列存在相當大的差異。也就是說病毒本身在不斷的進化,那麼我們看下我們26個序列的重合的369個位點的進化速率,綜合所有的樣本平均進化速率為1,26個序列中有195個位點是大於平均演化速率的,如下圖:

由於數據的限制,也只能做這麼多分析。如果融合臨床指標,甚至更多的組學數據也許會加速實驗的進程。我們可以猜想如果隨著時間的推移,將病毒進行時間序列分析,也許可以預測下一階段的變化。

望各平台數據分析師聚己之思路,助止病毒之蔓延!

數據分享鏈接見:https://mp.weixin.qq.com/s/05JJbkcgxT0N5PS4Ub9TZw

(如有侵權望告知!)