特别栏目之新型冠状病毒(2019-nCoV)序列分析
- 2020 年 2 月 25 日
- 筆記
1. 首先是微生物序列比对的相关软件下载:
MEGA https://www.megasoftware.net/
Clustalw http://www.clustal.org/download/
Clustalx http://www.clustal.org/download/
软件的安装我就不再赘述了,我下载的是老版本的MEGA 7。
2. 我们看下如何操作:
首先打开软件:

接下来就是一个对话框弹出;选择“create a new alignment”,选择“DNA”,接下来就是导入fasta的文件。

当然上面的fasta文件是多个序列合并后的文件,所以在这里我们还需要对单个的文件进行合并,然后再导入,合并需要用到windows 10自带的type功能。

当然了,这样合并后,还需要检查下合并的文件,有可能因为每个序列最后没有换行符导致,直接连起来,通过寻找“>“ 进行换行,形成对应的合并后的序列集合。然后我们看下导入后的结果:

接下来就是分析了,我们直接用默认的参数进行clustalw分析。

不过呢,这个过程如果在windows下面运行需要很长的时间,本人还是建议直接在Linux下面进行分析。至此我们就进行多序列的比对,下面就是将序列比对的结果保存下来,导出两个文件:all_seq.fas 和 all_seq.meg。
接下来,用clustalx打开我们比对好的.fas的文件,结果如下图:

接下来就是导出我们的比对的可视化结果。会输出.ps的文件,ps(PostScript)是一种页面描述语言,主要用于高质量打印。此处的结果我们只展示1-300bp序列以及最后的124个序列:


我们从中可以看出其序列存在大量的差异性。
然后把.meg的文件利用MEGA打开,如下图:

构建树之后就可以看出26个病人中病毒的序列树图:

从上图我们可以看出划红线的两个样本分别是最原始和离根最远的样本。这样说明病毒在不断的更新迭代,接下来,我们对各样本之间序列的距离进行计算。

首先我们计算总体的平均距离为4.476。我们看了上面我们划红线的两个样本发现其之间的距离为5.826>4.476。同时我们发现黄色荧光的两个样本和其他样本都存在一定的距离。
综上所述,我们的这26个序列存在相当大的差异。也就是说病毒本身在不断的进化,那么我们看下我们26个序列的重合的369个位点的进化速率,综合所有的样本平均进化速率为1,26个序列中有195个位点是大于平均演化速率的,如下图:

由于数据的限制,也只能做这么多分析。如果融合临床指标,甚至更多的组学数据也许会加速实验的进程。我们可以猜想如果随着时间的推移,将病毒进行时间序列分析,也许可以预测下一阶段的变化。
望各平台数据分析师聚己之思路,助止病毒之蔓延!
数据分享链接见:https://mp.weixin.qq.com/s/05JJbkcgxT0N5PS4Ub9TZw
(如有侵权望告知!)