陈根:从填补缺口到完整发布,基因组学进入新时代


陈根:从填补缺口到完整发布,基因组学进入新时代


文章图片


陈根:从填补缺口到完整发布,基因组学进入新时代


文/陈根
人类的基因组常被比作是一本书写生命的“天书”——人类凭借A、T、C、G四种碱基 , 却配对出了高达60亿的可能 , 碱基的无穷组合也蕴含着人类进化、生老病死的奥秘 , 而DNA则分布在23对染色体中 。 2001年 , 人类启动了解码人类基因组的计划 , 成为医学和遗传学的里程碑 。
不过 , 在当时 , 第一个参考基因组并不完整——大约8%的DNA序列无法测序 。 主要包括染色体末端和着丝粒(染色体的中心节点)中的遗传物质部分 。 这些部分中的DNA序列由许多几乎相同的副本和重复组成 。
终于 , 20年后 , 科学家们补齐了人类基因组图谱上缺失的部分 , 2022年4月1日 , 人类基因组的完整序列首次在Science上重磅发布 , 完成了整个人类基因组的测序解码 , 由此发现了多种顽症和生命规律的根源——基因 。 现在 , 立足于人类基因组的完整序列 , 关于人类进化、生老病死的研究也走向了新的序幕 。

长链DNA测序技术是关键
人类基因组就是一个人所有的DNA , 含有约31.6亿个DNA碱基对 , 包括大约2-3万个基因 。 这些基因中除了编码蛋白质的两万多个基因之外 , 还包含了数千个RNA基因 。 如果从单个细胞中取出并拉伸成链 , 长度能够达到2米 。
这些基因分片段组合 , 通常被分成23对 , 称为染色体 , 其中包括22对常染色体 , 1对性染色体 。 基因不仅可以通过复制把遗传信息传递给下一代 , 还可以使遗传信息得到表达 。 不同人种之间头发、肤色、眼睛、鼻子等不同 , 都是基因之间的差异导致的 。
每个物种都有自己的基因组 , 负责指示细胞什么时候、通过什么方式构建这个物种的个体生命蓝图 。 对于人类来说 , 完整的基因组图谱将有助于更好理解人作为一个有机体是如何形成的 , 一个有机体和其他人、其他物种之间又有哪些不同 , 为什么会有这些不同 。
2003年 , 人类基因组计划基本完成 , 不过 , 受到当时技术的限制 , 最后得出的图谱并不算完美——“人类基因组计划”的科学家们从染色体DNA中获得了大量的短序列 , 这些短序列与相邻区域重叠 , 构成更大的连续序列——重叠群 。
理想情况下 , 每条染色体将呈现单个重叠群 , 但首次草图却包含了1246个这样的片段 。 重复的片段包括着丝粒和核糖体DNA等 , 无法按照正确的顺序组装一些被切碎的片段 。 这就像拥有相同的拼图碎片一样 , 科学家们不知道哪块碎片在哪里 , 因此基因组图中留下了很大的空白 。 对于此 , 科学家们只能持续地完善组装 , 手动检查 , 并使用测序分析来识别有错误和信息缺口的片段 。
人类基因组图谱的最新版本于2013年发布 , 被称为GRCh38 。 从那时起 , 它就被反复修补 。 然而 , 一直以来 , 它仍然缺少5%-10%的基因组 , 包括所有的着丝粒和其他困难区域 , 如编码核糖体RNA序列的大量基因 。 这些缺失的基因组藏于大量重复基因拷贝的长序列中 。
以着丝粒为例 , 携带基因的两条染色体臂通过着丝粒相连 。 着丝粒由数千个几乎一样的α卫星序列组成——171bp的α卫星重复单位需要被正确排布以确保染色体稳定和细胞分裂 。 然而 , 在人类基因组草图发布20年后 , 着丝粒和其他有难度的DNA序列仍然是染色体图谱中难以填补的缺口 。
这些难题持续阻碍着基因组的组装——如果测序技术没有发生颠覆性改变 , 人类基因组测序将在很长时间内停滞不前 。
好在不间断读取长链DNA的测序技术终于问世 。 其中 , 一种技术是加州生物技术公司太平洋生物科学使用的成像系统来直接读取数十万甚至数百万条平行DNA链 , 每条链包含数千个碱基 。 另一种技术则是英国公司的牛津纳米孔技术 , 它将DNA链穿过微小的蛋白孔或纳米孔 , 测量核苷酸穿过孔道时电流的细微变化 , 进而读取数万至数十万个碱基 。
在长链DNA的测序技术下 , 跨越20年的人类基因组谜题终于大白 。

从填补缺口到完整发布
2022年4月1日 , 第一个完整的、无间隙的人类基因组序列发布 , 彻底填补了多年前的测序空白 。 人类基因组完整测序离不开T2T联盟的努力 。 T2T联盟成立于2019年初 , 旨在为每个人类染色体提供高质量的从端粒到端粒的组装 。

推荐阅读