使用ROSE鉴定超级增强子

  • 2019 年 12 月 19 日
  • 筆記

欢迎关注”生信修炼手册”!

ROSE是最经典的超级增强子预测软件,由Richard A. Young大牛团队开发,源代码的网址如下

http://younglab.wi.mit.edu/super_enhancer_code.html

在下面这篇文章中介绍了超级增强子的定义和发现过程,文章标题如下

Master Transcription Factors and Mediator Establish Super-Enhancers at Key Cell Identity Genes

发表在cell杂志上,链接如下

https://www.cell.com/fulltext/S0092-8674(13)00392-900392-9)

首先通过Oct4, Sox2, Nanog这3种转录因子的chip数据去识别小鼠胚胎干细胞中的增强子区域,鉴定到了8794个增强子区域。对于这些增强子,根据区域内对应的Med1这种转录激活通用辅助因子的chip_seq reads的密度进行排序,发现呈现两极分化趋势,示意如下

其中绝大部分的增强子对应的Med1的水平都很低,少部分增强子对应的Med1的水平非常高。除了Med1之外,还比较了其他几种转录因子或者组蛋白修饰的数据

发现Med1的区分效果最佳,根据Med1水平的高低,可以将增强子分为以下两类

  1. typical enhancers
  2. super enhancers

简称TE和SE, 进一步分析发现TE和SE在长度上具有非常明显的区别,SE的长度是TE长度的10倍以上,一个普通的增强子只有几百bp的长度,而超级增强子的长度在几千bp左右。

除了Med1之外,还比较了Qct4等多种转录因子在TE和SE中的分布,结果如下图所示

发现在SE中Klf4和Esrrb的分布比TE中更加丰富。对SE区域富集的motif进行分析,结果如下所示

发现富集到了Oct4, Sox2, Klf4等motif。从上述发现和定义超级增强子的过程可以看到,超级增强子的预测过程有以下两个关键点

  1. 建立在增强子的基础上,可以看做增强子富集的区域
  2. 相比增强子,超级增强子区域具有更高的转录因子的密度

ROSE这款程序也是根据这两个关键点来识别超级增强子,基本过程示意如下

首先识别增强子区域,然后对增强子进行合并,定义一个阈值,将距离小于该阈值的增强子进行合并,最后比较合并后的增强子区域内的reads分布情况来识别超级增强子。

在实际操作过程中,在第一步和第三步可以使用不同的mark, 如下所示

软件基于python编程语言开发,直接从官网下载源代码,解压缩就可以了。源代码中内置了几个物种的注释数据库,存放在annotation文件夹下

annotation/  ├── hg18_refseq.ucsc  ├── hg19_refseq.ucsc  ├── hg38_refseq.ucsc  ├── mm10_refseq.ucsc  ├── mm8_refseq.ucsc  └── mm9_refseq.ucsc

其实就是从UCSC下载的对应的refGene.txt文件,该软件的基本用法如下

python ROSE_main.py   -g HG18   -i HG18_MM1S_MED1.gff   -r MM1S_MED1.hg18.bwt.sorted.bam   -c MM1S_WCE.hg18.bwt.sorted.bam   -o out_dir   -s 12500   -t 2500

需要注意一定要到软件的安装目录去运行,因为会在运行目录查找annotaton这个文件夹下的物种注释文件。

-g指定参考基因组版本,用于检索对应的物种注释文件;-i指定增强子区域对应的基因组位置,内容如下

t分隔的6列,第一列,第三列和第四列指定增强子区域对应的染色体位置,第五列指定正负链信息,.代表不确定,第二列和第六列是一个自定义的唯一的ID, 用来表示增强子的编号。

确定了增强子区间信息之后,接下来就是比较增强子区域内某种mark因子的chip_seq reads的分布情况,-r参数指定chip_seq中IP样本的bam文件,-c指定Input样本的bam文件。

-s指定合并增强子的距离,默认为12.5kb, 小于该距离的两个增强子会合并为一个区间,-t指定距离TSS的距离,如果一个peak与某个转录起始位点的距离小于指定的距离,则有可能是一个启动子,这种潜在的启动子会被过滤掉。

在输出结果的目录会生成很多文件,png文件内容示意如下

AllEnhancers.table.txtSuperEnhancers.table.txt分别表示所有增强子和超级增强子的信息,文件内容类似,示意如下

dbSUPER和SEdb这两个超级增强子数据库都是使用h3K27ac组蛋白修饰作为mark来识别超级增强子,可以借鉴这个思路来识别超级增强子。

·end·

—如果喜欢,快分享给你的朋友们吧—

扫描关注微信号,更多精彩内容等着你!