在哺乳动物的基因组中,染色体的三维结构在基因表达调控中扮演着重要的角色。在dna层面上,远端的调控原件(如增强子)可以通过空间结构的接近来调控目标基因的表达。在更高一级的染色体结构中,近年来发现的拓扑结构域(topologically associating domains)被认为是哺乳动物染色体结构的基本单元[1]。拓扑结构域是大小为兆碱基的染色体高级结构之一,最早被hi-c技术所揭示。拓扑结构域为解释远端增强子的基因调控提供了非常好的解释。除了拓扑结构域,其他染色体结构例如a/b结构[2]、染色体环(chromatin loop)[3]等也相应被hi-c衍生技术所揭示。这些hi-c衍生技术,例如hi-c,chia-pet[4],capture hi-c[5],plac-seq[6]和hichip[7],为研究染色体空间结构提供了前所未有的机会和挑战。然而,随着hi-c数据的飞速增长,高效便利的数据可视化技术变得迫在眉睫。同时,高效的可视化对于揭示隐藏在hi-c数据背后的生物学意义具有重要作用。然而,由于这些数据通常数量庞大且复杂,独立研究者如果想自己实现数据的可视化将变得低效且耗时。
最近来自美国宾州州立大学的岳峰课题组和华盛顿大学的王艇课题组在genome biology发表了一篇名为the 3d genome browser: a web-based browser for visualizing 3d genome organization and long-range chromatin interactions的方法文章。该文章介绍了他们开发的基于网页的3d基因组浏览器(www.3dgenome.org)。这是目前最流行的3d基因组浏览器,迄今为止, 已被来自120多个国家的数万计用户访问过,网页点击量已经超过了数十万次。该网站拥有众多染色体结构相关数据类型,包括hi-c,gam,sprite,dnase hi-c,chia-pet,plac-seq,hichip和capture hi-c。数据对象包括人类和小鼠的数十种组织和细胞系,总共数据量达到300余个。网站数据加载迅速,可以在5秒之内打开一个10mb大小区域的hi-c热图。
该浏览器能够使研究人员更加方便快捷地可视化来自于高通量染色体结构捕获技术(hi-c)的数据。其主要功能如下:1)使用热图的方式可视化hi-c数据以及hi-c类型技术如gam、sprite、和dnase hi-c;2)可视化不同染色体之间的3d结构;3)比较不同组织或者物种之间的染色体3d构型;4)将hi-c 数据转换为虚拟4c(virtual 4c),从而可以更方便地查看特定位点和染色体上其他位置的相互作用;5)可视化基于染色质免疫共沉淀结合或染色体区域捕获的hi-c衍生技术(例如chia-pet,plac-seq, hichip,capture hi-c)。
在这个项目里,研究员们提出了一种新的二进制格式(butlr)用来保存hi-c数据,从而极大的减少使文件大小并且提高查询速度。除此之外,该browser还提供了方便的染色体区域缩放功能。用户可以通过基因,染色体位置,和snp编号对hi-c数据进行查询。更为重要的是,用户可以将自己的ucsc或者washu track和hi-c热图进行无缝衔接,从而极大地扩展了可以显示地数据类型。
下面我们将用几个例子来说明如何使用3d genome browser进行hi-c数据挖掘。
图1: 3d 基因组浏览器的hi-c查询页面。用户可以选择网站内建数据,或者上传自己制作的butlr文件。
1. 利用hi-c数据研究染色体相互作用
首先,打开hi-c查询页面(图1),在该页面中我们可以选择hi-c方法、物种、参照基因组、组织或细胞系以及数据分辨率。例如,我们可以查询shh基因在gm12878细胞系中的hi-c热图。从hi-c热图上(图2)我们可以看出,该基因与其上游一个已知的增强子区域位于同一tad内,并且该增强子和shh启动子存在较高的相互作用,从而证实了该增强子对shh的调控作用。我们还可以点击页面右上方的柱状图查看该基因在encode中100多个组织中的表达情况。
图2: shh基因在gm12878细胞系中的hi-c热图。虚线显示shh与上游一个增强子区域存在高相互作用,并且该增强子和shh在同一个tad中。
2. 利用virtual 4c、dhs linkage和chia-pet研究snp的目标基因
hi-c还可以揭示snp的潜在目标基因。我们利用virtual 4c查询rs12740374,该snp与人群中低密度脂蛋白升高有关。虚拟4c显示该snp与其下游sort1的启动子存在较高作用,这一发现同时也被dna高敏感性位点连锁(dhs linkage)和chia-pet数据所支持(图3)。同时图中下方的组蛋白数据也显示该snp位于一个可能的增强子区域。这些证据表明sort1可能是rs12740374的目标基因。
图3: 利用虚拟4c和dhs连锁揭示snp的潜在目标基因。rs12740374位于一个可能的增强子区域和cebpb蛋白结合位点。
3. 利用capture hi-c数据研究高分辨率启动子-增强子的相互作用
在图4中,我们利用capture hi-c数据分析pax5的调控机制。我们首先发现在原始b细胞中pax5的启动子和其上游的zcchc7区域存在相互作用[13]。通过dna酶超敏感位点(dhs)数据和组蛋白修饰数据,我们也发现了与该启动子作用的区域是一个可能的增强子。同样的,在hi-c热图上,我们也发现了这两个区域存在较强的相互作用。这些证据都说明了位于zcchc7上游的这个增强子可能是调控pax5基因表达的关键。有趣的是,之前的研究报道指出该增强子的删除使得pax5表达下调并导致白血病[14]。这个例子反映了我们可以利用3d genome browser和使用capture hi-c数据研究精细的启动子-增强子作用。
图4: 利用capture hi-c数据揭示pax5的可能调控机制。
4. 通过对比hi-c热图来研究不同物种间染色质构型的保守程度
我们还可以用hi-c对比模式来研究染色质构型在不同物种之间的保守性。图5显示了bcl6区域在人淋巴细胞系(gm12878)和鼠细胞系(ch12)的hi-c热图。从hi-c热图的相似性可以看出该区域的染色质构型在人和鼠中保守程度较高。
图5: 比较人和小鼠的bcl6基因附近的染色质构型的保守性。
5. 利用hi-c数据检测染色体结构变异
许多研究发现hi-c可以被用于检测染色体结构变异(structural variantion)。不同类型的结构变异,例如删失、插入、异位和倒装都会导致hi-c热图发生相应的变化[15]。bcr-abl基因融合是慢性粒系白血病的致病变异。该变异是由9号染色体和22号染色体的异位变异导致的。我们可以通过hi-c热图检测该异位变异(图6)。k562是从慢性粒系白血病患者中培育的细胞系。图6a显示的是k562中22号染色体9号染色体的hi-c热图。中间菱形区域显示出22号染色体9号染色体存在较强的相互左右,而在正常细胞中,这种染色体之间的相互作用是微乎其微的,并且远小于染色体内部的相互作用。因此,我们能够推断出22号染色体9号染色体发生了融合,导致了不同染色体之间的相互作用增强。并且在融合断点区域,我们可以看到是bcr和abl基因发生了融合。相比之下,在正常的gm12878淋巴细胞系中,我们没有看到类似的不同染色体之间的相互作用增强(图6b)。通过3d genome browser的查询染色体之间的作用功能,研究者能够发现基因组的结构变异及其可能导致的基因调控改变。
3d genome browser还有众多功能未能在本文涵盖,例如虚拟4c(virtual 4c)和不同hi-c数据的差异分析,这些功能同样有助于挖掘hi-c数据背后的生物学意义。欢迎广大有志于学习3d基因组的科研工作者使用和探索我们的3d genome browser。
图6: a).k562中chr22和chr9的hi-c热图,虚线显示断点在两条染色体所在位置。b).gm12878中正常的chr22和chr9的hi-c热图没有显示出增强的染色体之间的相互作用。(来源:科学网)
凯发k8国际首页登录-凯发天生赢家一触即发官网资讯
期刊
sci
基金
导航