转座子被认为是宿主基因组演化的重要推动力。其类型众多,包含non-ltr(long terminal repeat)型逆转座子、ltr型逆转座子、helitron型dna转座子、tir(terminal inverted repeat)型dna转座子等,可引起包含基因重复(gene duplication)在内的各种遗传突变。已有研究表明,non-ltr型逆转座子在人类基因组中介导基因重复,产生大量新基因。2016年,中国科学院院动物研究所研究员张勇研究组研究发现,动物中ltr可借由模板跳转介导基因重复;helitron在蝙蝠中通过通读(transduction)的形式介导基因重复。迄今,tir型转座子介导基因重复的能力只在植物中被揭示,其中水稻中的mule元件捕获大量宿主基因,形成pack-mule的嵌合结构。但tir型转座子介导基因重复形成的机制仍不清楚,动物中此类基因重复也鲜有报道。
7月13日,张勇研究组等在 communications上,在线发表了题为dna transposons mediate duplications via transposition-independent and -dependent mechanisms in metazoans的研究论文。该研究首次大规模搜索了100个动物基因组,鉴定了tir转座子介导的基因重复,并将其命名为pack-tir。研究发现,大部分基因重复的产生不依赖转座活性,符合缺口填补(gap-filling)模型;在黑腹果蝇群体基因组数据中找到的最年轻的多拷贝基因ssk-fb4则符合新提出的模板跳转及转座(fostest)模型。蛋白质组、自然选择压力分析及表型关联分析显示ssk-fb4s编码功能蛋白。上述结果证明tir转座子可以重塑基因结构,产生新基因。
研究中,科研人员收集了公共数据库ucsc中100个后生动物的基因组,计算分析鉴定出370个pack-tir元件(图1a)。进而,同时在黑腹果蝇群体中鉴定出一个多拷贝pack-tir家族:ssk-fb4(由fb4 转座子捕获基因ssk所形成的新基因)。其基因结构和植物中pack-mule相似,中间为捕获的外源序列,两侧为tir转座子序列(图1b)。
研究发现,pack-tir与tir转座子数目成线性正相关(图2a)。对灵长类谱系中pack-tir的起源时间分析发现,其零散分布在各演化枝上(图2b)。这些pack-tir在各个时间段皆有起源,即使宿主编码的转座子已丧失转座活性。由此推断,大部分pack-tir的产生不依赖于转座活性(transposition-independent)。多方面证据表明,pack-tir的形成符合缺口填补(gap-filling)模型(图2c):pack-tir的丰度与其到母源序列的距离呈负相关,即tir转座子倾向于捕获临近序列;67.6%事件含有微同源序列(pack-tir与母源序列共享较短的相似序列);灵长类物种间的比较分析显示,转座子和外源序列是先后插入的两次独立事件。随后,研究人员发现果蝇中ssk-fb4其形成过程与缺口填补模型不符,因此提出复制叉停滞-模板跳转-转座(fostest)这一新模型来解释多拷贝pack-tir的产生(图2d)。该模型与缺口填补模型不同,模板跳转后转座酶会立即将嵌合的pack-tir转座到基因组其它位置,科研人员的策略及发现对植物中pack-mule的起源机制研究将具有启发意义。
除机制方面的分析,科研人员还结合转录组数据和进化基因组数据探索pack-tirs的功能。研究发现,pack-tir倾向于捕获外显子序列,且大部分与所在基因发生融合,具有转录信号(图3a)。ssk-fb4是罕见的编码功能蛋白的例子,所有拷贝不仅显示出较高的转录和翻译水平(图3b-c),且各拷贝的非同义突变在细胞膜外结构域显著富集,暗示其受到正选择(图3d)。此外,突变机制所赋予的ssk-fb4嵌合结构使其更容易发挥新功能,可能增加果蝇抵御环境中致病微生物的能力(图3e-f);转座带来的拷贝数增加使自然选择有更多的作用对象,推动了适应性进化更快发生。
该研究由中国科学院动物研究所、法国居里研究所、北京大学肿瘤医院等机构合作完成。研究工作得到国家重点研发计划、国家自然科学基金、中科院青年创新促进会等资助。
图1.动物中pack-tir分布及结构示意图。(a)370个pack-tir在100个动物中分布情况。圆圈内数字表示对应物种的pack-tir数目。(b)黑腹果蝇群体中ssk-fb4的基因结构。蓝色片段为ssk的外显子,黑色和灰片段为fb4序列。
图2.动物中pack-tir形成的两种机制。(a)各物种或各转座子超家族中pack-tir与tir转座子数目的线性关系。(b)pack-tir在灵长类动物演化树上的分布,数字表示pack-tir出现在某一特定演化枝的个数,下方显示了转座子活跃与否的时间,单位为百万年。(c)缺口填补模型示意图。红色片段及两侧箭头表示为dna转座子,蓝色片段为外源序列。该图显示转座子内部双链断裂,也可能是转座子的自主切割引发缺口。(d)fostest模型示意图。1.复制叉停滞在转座子处并发生双链断裂;2.转座子和母源序列空间接近,导致修复时模板跳转产生嵌合片段;3.转座酶识别嵌合片段,切割插入到其它位置;4.由于ssk-fb4保留转座子的末端反向重复序列(tir),在转座酶的帮助下增加其拷贝数。
图3.pack-tirs的表达、选择和关联分析。(a)人类中pack-tir捕获序列的类型分布情况。(b)ssk、ssk-fb4、fb4在六个黑腹果蝇品系五个组织内的表达谱,表达值为log2(tpm值)。(c)ssk和ssk-fb4蛋白水平的表达量。(d)ssk-fb4/ssk蛋白非同义突变积累分布图。(e)ssk和ssk-fb4蛋白与mesh蛋白免疫共沉淀前后的蛋白定量数据。与母本基因ssk不同,ssk-fb4与mesh互作水平较弱,暗示其具有新功能。(f)黑腹果蝇dgrp品系在真菌metarhizium anisopliae ma549感染后的寿命半衰期值。