APP下载

利用遗传追踪绘制细胞命运谱系的研究进展

2022-11-23姚明泽任廷林潘元晴薛晓庆李蓉雷雨行晓玉

关键词:谱系条形码胚胎

姚明泽,任廷林,潘元晴,薛晓庆,李蓉,雷雨,行晓玉

(山西大学 生物医学研究院,山西 太原 030006)

0 引言

了解生物体生命过程中细胞的发育轨迹是生物学的基本问题之一,也是发育生物学的核心。谱系示踪是一种可以追踪单个祖细胞的所有后代,并揭示其命运轨迹的技术。起始的单个细胞被标记,并传递给所有子细胞,形成一系列克隆。谱系示踪能够提供祖细胞后代的生物特征如细胞表达谱特征、分化状态等,为细胞命运图谱的绘制提供了强有力的手段。细胞命运图谱的绘制起源于早期视觉上对胚胎发育过程细胞的追踪,并将细胞映射到胚胎发育的不同阶段[1],但直接观察局限于通体透明的动物,如线虫等。为此科学家开发了使用染料注射、移植、病毒转导或荧光蛋白标记的遗传重组等方法来标记并追踪感兴趣的细胞[2]。但这些方法产生的细胞标记或难以稳定维持,或分辨率较低,很难追踪到细胞水平。随着基因组学的进步以及单细胞测序技术的发展,开发了可以在分子水平对细胞身份加以区分的技术,这极大促进了谱系追踪技术的发展[3]。在单细胞中引入独特的条形码,通过测序识别谱系,极大丰富了谱系信息的多样性。

此综述介绍了传统的谱系追踪方案分析了几种前沿的谱系追踪方法及其演变发展过程,并对“回溯性”的谱系追踪以及生物信息学在谱系追踪中的发展应用加以概括,最后讨论了谱系追踪技术未来的发展。

1 基于成像直接观察的命运图谱绘制

命运映射以及谱系绘制依赖于非破坏性的追踪每个细胞在发育过程中的轨迹,前瞻性的谱系追踪实验可以追溯到19世纪,随着光学显微镜和染料注射技术的进步,通过直接观察追踪细胞的发育轨迹得以实现[2,4]。由于技术限制,最初的谱系追踪集中在透明无脊椎动物[1,5]。随着延时摄影技术的进一步发展,允许在发育过程中追踪胚胎内细胞及其后代的命运轨迹[6]。这一方法最著名的应用是John Sulston借助显微镜将线虫从单个细胞到成体发育的整个过程记录下来,绘制了线虫的谱系发生树[7]。

脊椎动物等胚胎发育过程含有更多细胞的生物,胚胎不透明,发育过程很难直接观察。因此,其发育过程中细胞的图谱绘制需要借助细胞标记方法,例如染色或放射性标记[2,4](图1(a))。20世纪20年代 Vogt开发和应用了染料注射标记细胞来观察胚胎发育过程的技术,并借此绘制蛙胚胎发育早期的命运图谱[8],为从环节动物到小鼠等许多生物体发育过程中的命运图谱的构建提供了宝贵经验[9]。但这些方法存在在体外观察所需时间较长、染料可扩展性有限、光学显微镜分辨率低等。

2 基于重组酶的谱系追踪

重组酶的发现和应用促进了谱系追踪技术的迅速发展,不同的重组酶系统能够在特定位点之间介导基因组DNA发生可预测的倒位或缺失[10]。Cre重组酶(Cyclization Recombination Enzyme)介导 loxP(locus of X(cross)-over in P1)位点重组,基于此单重组酶谱系追踪技术在两个loxP中间融合了荧光蛋白基因,并将Cre基因与细胞特异标记基因串联,从而可以在特异的细胞类型中触发荧光蛋白的表达来追踪细胞命运轨迹[11-13](图 1(b))。重组荧光蛋白是可遗传持续表达,因此可通过显微镜读出。在果蝇中FLP重组酶(flippase recombination enzyme)介导的FLP-FRT系统的重组被证明比Cre-loxP系统高效且毒性更小[14],用于标记果蝇胚胎和卵巢中的克隆[15],但 FLP最适酶活温度为30℃并不适用于哺乳动物的标记追踪。

为了增加被追踪的细胞群体的数量,研究人员引入多色报告系统的多个侧翼为loxP位点的荧光蛋白编码序列[16-17](图 1(c)),在 Cre诱导下,loxP位点随机重组,导致目标细胞群中不同荧光蛋白的多色镶嵌表达。然而光学技术有限的颜色组合,限制了这类谱系追踪的发展。为了解决荧光基团受限的问题,科研人员开发了称为Polylox的遗传DNA“条形码”(图1(d)),使用随机 Cre-LoxP介导的重组,可以产生达190万个独特的遗传条形码来标记细胞,大大增加了可追踪克隆的数量[18]。利用该技术在体内鉴定了造血干细胞克隆,表明红系-髓系分化独立于普通髓系祖细胞,并证实了先前的造血干细胞谱系结构[18]。利用分子条形码,结合分子探针对细胞的发育谱系进行了可视化的追踪,通过对胚胎发育早期神经母细胞进行编辑,然后分析其后代,揭示了果蝇大脑发育过程中神经母细胞的重要性[19]。

许多细胞类型不能通过单一的细胞标记物与其他细胞系进行区分,并且Cre会在非靶向细胞中表达,这都限制了单重组酶介导的谱系追踪系统的精确性。研究人员开发了基于重组酶的双重组酶激活的谱系追踪(Dual recombinase-activated lineage tracing,DeaLT)技术(图1(e)),提高了谱系追踪的精确性,很好地解决了这个技术难题。通过使用DeaLT允许在个体器官组织精确追踪细胞命运转变,揭示了小鼠成年个体中肝和胰脏细胞的增殖及命转变运[20-22]。

图1 谱系追踪的常用方法(a~h)(a)染料注射直接追踪细胞命运;(b)Cre重组酶报告系统标记特定细胞;(c)多色报告系统追踪不同细胞命运轨迹;(d)Polylox系统记录谱系信息;(e)双重组酶介导的谱系追踪策略;(f)CellTagging方法记录谱系信息;(g)基于CRISPR/Cas9的动态谱系追踪策略;(h)基于体细胞突变的回溯性谱系追踪方案Fig 1 Common methods of lineae tracing(a-h).(a)Direct tracking of cell fate via dye injection;(b)The Cre recombinase reporter system labels specific cells;(c)Multicolor reporter system tracks the fate of different cells;(d)Polylox system records lineage information;(e)Dual recombinase-mediated genetic lineage tracing strategies;(f)The Cell Tagging method records lineage information;(g)Dynamic lineage tracing based on CRISPR/Cas9;(h)Retrospective lineage tracing strategy based on somatic mutation

3 人工合成的DNA随机条形码

测序技术和遗传学的进步,促进了利用DNA条形码进行单细胞谱系追踪(single-cell lineage tracing,scLT)的发展。这一技术是预先将可遗传的基因序列引入细胞,然后根据测序数据进行追溯,确定克隆遗传关系并构建细胞谱系[23]。ScLT技术起源于利用逆转录病毒进行的原始克隆分析[24-25]或是利用转座子[26]将DNA序列整合到细胞中,并通过测序进行区分。这些有区别的DNA序列通常被称为“条形码”,以表示每个祖先及其后代的独特标记。DNA条形码通常由一段随机的核苷酸序列组成,因此提供了可用于区分单细胞复杂性的标记[27]。早期每个细胞都被一个独特的DNA条形码标记,这意味着具有不同条形码的细胞来自不同的祖细胞,即使它们可能具有相似性。在过去的几年里,人工合成DNA条形码方法被广泛用于在各种组织中进行谱系追踪。在造血系统中,借助病毒条形码描绘了造血干细胞和造血祖细胞是如何分化成组成血液的各种成熟细胞,揭示了长期造血干细胞是巨核细胞系的主要来源,而体内的造血干细胞和淋巴在其祖细胞的分化是多样的[24,26-28]。

为使用scRNA-seq技术捕捉细胞条形码,研究人员将标记细胞的DNA条形码转录为RNA进行测序[29-31]。这些方法通常在表达基因的3’UTR中引入条形码,使条形码可以与转录组同时捕获。研究人员开发了“CellTagging”的条形码标记技术(图1(f)),用于在连续轮次中标记细胞,从而产生相对时间尺度,实现谱系树构建,并揭示了成纤维细胞诱导到内胚层祖细胞过程的两条细胞命运重编程轨迹[29,32]。这些条形码通过慢病毒引入细胞,适用于可获取的体外细胞培养或再生系统,在这些系统中可以对部分克隆提前收集,剩下的克隆继续培养进行细胞命运区分,以此形成一个线索,将细胞早期命运和晚期命运联系起来[33-34]。

4 用于谱系追踪的可变条形码

利用转基因可编辑条形码进行谱系追踪的方法,研究人员使用CRISPR/Cas9使转基因的多拷贝报告基因发生可遗传的缓慢随机突变生成条形码[34](图 1(g)),从而能够在整个生物体中进行谱系追踪,识别相关细胞的谱系关系并构建系统发育树。这些方法引入了sgRNA靶向已知的转基因条形码,随着时间的推移产生遗传条形码的积累,从而允许进行谱系重建。GESTALT(genome editing of synthetic target arrays for lineage tracing)和 Scartrace首次使用Cas9产生的条形码用于斑马鱼发育过程的谱系追踪,绘制了受精卵发育早期的细胞命运谱系树[35-36]。这些技术产生的条形码多样性有限,并且注射的Cas9蛋白和sgRNA在细胞内会被迅速降解,因此条形码的多样性以及可标记的时间跨度有限。为了克服这些限制,Scar-Trace、scGESTALT(single cell genome editing of synthetic target arrays for lineage tracing)和LINNAEUS(lineage tracing by nuclease-activated editing of ubiquitous sequences) 被 开 发 出来[37-39]。scGESTALT通过热休克诱导Cas9蛋白表达,实现较长时间的编辑。ScarTrace通过注射Cas9基因将条形码将编辑时间从3 h延长至10 h,解决了标记时间跨度的问题。而LINNAEUS通过将编辑位点分散在全基因组范围,极大增加了条形码的多样性,提高了谱系追踪的效率。

相对于斑马鱼小鼠胚胎发育缓慢,采用注射的方法只能实现前几次卵裂的标记,为了实现长时间的条形码编辑,研究人员开发了基于“归巢”基因的条形码生成方法,通过利用归巢向导RNA(homing CRISPR guide RNA,hgRNA)将CRISPR/Cas9引导至其自身的DNA位点,使其序列产生多样变化以充当遗传条形码[40-42],并产生了可表达hgRNA的MARC1(mouse for actively recording cells 1)小鼠品系,它与任何诱导型或细胞特异性Cas9表达品系鼠杂交,即可激活基因编辑进行谱系追踪。但在MARC1后代中产生的条形码不能通过RNA-seq检测,这限制了其应用。另一种方法是基于CRISPR/Cas9借助PiggyBac转座酶开发的分子记录器,该方法实现了哺乳动物原肠胚形成过程细胞命运谱系示踪[43],其结果证实了先前的研究结果,即原肠胚形成过程中一小部分后肠来自胚外祖细胞[44]。以上小鼠谱系追踪研究需要每次实验进行新的胚胎操作,并且大量随机转基因片段插入限制了对成体组织的分析。研究人员开发了CARLIN小鼠品系,将可诱导的Cas9与一个单一、稳定整合的可变位点进行结合,以记录谱系数据,从而解决了这些问题,揭示了造血再生的克隆动力学[45]。

5 天然突变的回溯性追踪

基于分子遗传学的谱系追踪技术需要对所追踪的细胞基因组进行编辑或改造,这种预见性的谱系追踪显然不可能在人类发育和疾病的背景下应用[46]。因此出现了另外一类借助人类基因组中包含的自然发生的体细胞突变,用作谱系条形码来跟踪细胞的起源的技术,既回溯性谱系追踪(图1(h))。天然体细胞中许多突变类型是永久性可遗传的[47],因此可以作为谱系追踪的条形码。在核DNA中这些天然条形码主要分为4类:CNV、SNV、长散在核元件(long interspersed nuclear element 1,LINE-1)和微卫星重复序列。CNV是基因拷贝数变异,在多项研究中已被用于重建乳腺肿瘤发生、侵袭和转移的克隆动力学[48-49]。SNV是单核苷酸常见变异,可以通过基因组或者外显子测序检测,已应用于人脑、肾肿瘤等组织的细胞谱系[50-51]。LINE-1在基因组中含量丰富,并具有在细胞分裂时通过自发地“复制-粘贴”转位到基因组中不同染色体位点的能力[52],因此LINE-1元件的在染色体中的位置可以用作谱系条形码[53]。微卫星重复序列的基因组位置是已知的,可以进行特定序列的测定,通过此特点可用来构建细胞小鼠谱系树,研究雌性生殖系的动态变化[54]。此外,线粒体基因(mtDNA)也存在天然突变[55],其发生频率是核基因的10~100倍,并且线粒体基因组的尺寸小,可用来重建克隆关系[56]。

6 生物信息学算法的开发应用

随着分子遗传学的发展,已有许多遗传标记手段用于谱系追踪,但所有的谱系追踪技术都需要依赖于严格的数据处理,借助生物信息学分析对数据进行可视化的展示。通过数据降维可以可视化谱系追踪分化轨迹,是早期算法之一[57]。另一类微分轨迹重构算法是基于k-近邻图(k-Nearest Neighborhood Graph,k-NNG),每个细胞连接到其k个最近的细胞,从而将相似的细胞彼此关联起来,通过这种方法构建了人造血干细胞到原始B细胞的轨迹[58],并构建了小鼠胸腺中T细胞发育的已知阶段[59],而 StemID[60]和 Mpath[61]通过使用 k-medoid或分层聚类创建细胞簇达到谱系追踪的目的。Cassiopeia是为当前的CRISPR/Cas9 scLT方法量身定制的计算方式,可以用于构建系统发育树,而且可以结合真实数据以及仿真框架进行算法评估[62]。目前新的算法正在不断被开发,用以更好地满足谱系追踪技术的需要[63]。然而生物信息学算法的开发应用大都是基于特定的假设,这可能会限制分析结果的准确性,因此研究人员不断对算法进行优化,以提高分析结果的可靠性[64]。

7 结束语

自19世纪起,谱系追踪的工具从借助光学显微仪器进行简单的观察,发展到单细胞水平细胞谱系追踪。基于重组酶的谱系追踪技术,对初始的一群细胞进行永久性可遗传荧光标记,通过观察转基因荧光蛋白的表达对细胞群体进行区分,这种标记更稳定,可以在组织水平进行特异性区分,但是其分辨率较低,难以区分单细胞身份,并且通量较小。分子生物学特别是转基因技术以及测序技术的发展,使引入DNA条形码进行细胞命运轨迹的追踪成为可能,但还存在一些问题,如产生的可用于追踪的条形码由于转基因丢失或沉默限制了其发展,因此开发一种减少条形码沉默并且可诱导的系统可能会某种程度上提高谱系追踪效率。此外,外源条形码测序过程的丢失造成了后期分析过程中细胞谱系信息的不对称,因此我们期待一种可以通过scRNA-seq直接捕捉内源条形码生成系统,不用在建库测序时单独捕捉条形码信息,从而降低生物信息学分析的错误率,进而提高谱系追踪的准确性。而通过条形码进行谱系追踪的方案都需要进行基因操作,使用仅限于体外研究或生物模型,以基因组自身突变为基础的回溯性谱系追踪,允许对人类发育过程以及肿瘤组织进行细胞命运图谱绘制,这极大扩展了谱系追踪技术的应用。哺乳动物胚胎或人体肿瘤组织是由数百万高度异质性的细胞组成,目前为止,还没有对所有细胞的身份及谱系信息注释。从第一个scRNA-seq应用以来,现今已可以对多达两百万个细胞进行测序,绘制小鼠胚胎发育图谱[65],以及绘制具有时间分辨的高分辨率动态连续命运图谱[66]。因此,我们期待未来几年技术的进步,单细胞测序和相关的分子生物学和遗传生物学及其他交叉学科的发展,使得更精确的重建整个个体谱系成为可能。

遗传谱系追踪的主要限制是缺乏空间分辨率,无论何种方式进行条形码标记,分析过程都不可避免的丢失空间信息。随着MEMOIR(memory by engineered mutagenesis with optical in situ readout)的发展,在原位重建细胞谱系关系成为可能,但其局限性在于不能读出细胞初始位置与测序时细胞位置的关系[67],这限制了我们对于细胞迁移和分化的理解。最近开发的新的空间转录组学方法,有可能分析完整的斑马鱼或小鼠胚胎[68]。空间谱系的建立需要更高的技术手段,如组织的固定通透技术、高亲和力特异性的抗体制备技术和影像成像技术和针对图像处理和生物学信号整合分析的软件开发[69-70]。

综上所述,未来细胞谱系追踪技术将围绕空间谱系的建立所需技术的开发,以此对细胞谱系关系进行更加精确的空间解析,从而深入理解细胞命运的转变。

猜你喜欢

谱系条形码胚胎
神族谱系
创意条形码
百年大党精神谱系的赓续与文化自信
王锡良陶瓷世家谱系
母亲肥胖竟然能导致胚胎缺陷
从条形码到二维码
从条形码到二维码
母亲肥胖竟然能导致胚胎缺陷
再论东周时期铜簠的谱系和源流
条形码大变身