在甲基化芯片中,对于CpG位点所在的区域,会有对应的注释信息,比如CpG islands
。CpG island
是基因组上一段CpG位点密度较高的区域,这个概念是非常常见的 ,出了CpG island
之外,还会有CpG shores
, CpG shelves
, open sea
等情况,这些区域又是如何定义的呢?
有一篇文章详细评估了 450K
芯片所检测的CpG位点在人类基因组的分布
Validation of a DNA methylation microarray for 450,000 CpG sites in the human genome
文章从以下几个方面评估了探针的分布情况
在各条染色体上的分布可以看到450K
芯片上的探针覆盖了22条常染色体和两条性染色体上的CpG位点,其中1号染色体上对应的探针最多
CpG位点可能位于基因间区Intergenic
, 也可能位于基因上,而这个基因可以是编码基因,也可以是非编码基因。
可以看到,位于编码基因上的探针最多,其次是位于基因间区的探针
在基因组上的分布将整个基因组划分为Promoter
, Body
, 3UTR
, Intergenic
4种区域,其中Promoter
区又细分为TSS200
, TSS1500
, 5UTR
, ‘1stExon’ 4种情况。可以看到,位于Pronoter
区的探针最多
CpG shores
等概念是根据与CpG island
的距离进行定义的。CpG Shores
指的是位于CpG island
上下游2kb 以内的区域;CpG Shelves
指的是位于CpG shores
上下游2kb以内的区域;open sea
指的是CpG islands
, CpG shores
, CpG shelves
之外的其他区域。
可以看到,位于open sea
的探针是最多的。