陈根:从填补缺口到完整发布,基因组学进入新时代( 二 )


该研究针对剩余8%的基因组 , 提供了人类基因组的完整30.55亿碱基对序列T2T-CHM13 , 包括了除Y之外的所有染色体的无间隙装配 , 纠正了之前的参考序列 , 并介绍了近2亿个碱基对序列 , 包含1956个基因预测 , 其中 , 99个预测为蛋白质编码 。 完成的区域包括所有着丝粒卫星阵列、最近的节段重复和所有五个近端着丝粒染色体的短臂 。
与过去20年的任何基因组参考版本相比 , T2T-CHM13组装增加了五个完整的染色体臂和更多的额外序列 , 覆盖了基因组中一些最复杂的区域 。 比如染色体末端的端粒和在细胞分裂过程中协调同源染色体或姐妹染色单体分离的着丝粒 。 新序列还揭示了以前未检测到的片段重复(在基因组中重复的长段DNA) , 这些重复片段可在进化和疾病中发挥重要作用 。
具体来看 , CHM13是一种肿瘤衍生细胞系 , 其基因组包含两套相同的染色体 。 这就避免了二倍体基因组的复杂性 , 因为二倍体基因组具有来自父母双方的不同染色体拷贝 。 在2020年底 , T2T联盟的研究人员公布了两个染色体的完整组装 , 即X染色体和8号染色体 。
研究人员使用牛津纳米孔技术 , 对两条染色体的片段进行测序 , 这两条染色体的长度通常超过7万个碱基 , 其中一条读长甚至超过100万个碱基 。 虽然很成功 , 但是对X染色体和8号染色体的测序过程却费力且艰苦 。
除了长链DNA的测序技术外 , 完成和检查基因组组装还需要专用的软件 , 这套工具由Phillippy和加州大学圣地亚哥分校计算生物学家PavelPevzner等研究人员共同开发 。 研究人员表示 , 这是一个非常谨慎的过程 , 只有两个长度超过7000个碱基的序列 , 基本上100%相同 , 他们才会把它们粘合在一起 , 因为一旦你、在组装中引入一个错误 , 就很难修复它 。
在这个过程中 , PacBio仪器支持环形一致测序(CCS) , 在此过程中单个DNA链被转换成可以反复读取的闭环 。 通过比较这些重复序列 , 研究员可以消除随机错误 , 获取高度准确的结果 。 早期版本的CCS最多容纳几千个碱基 , 在基因组组装中用途有限 。 但2019年 , PacBio改进了这一过程 , 后续的高保真技术如今产生超过2万个碱基的一致序列 , 准确率超过99% 。
其次 , 研究人员还利用了作图技术 , 比如加州生物科技公司BionanoGenomics开发的一种技术 , 使得测量一条染色体上不同DNA序列之间的距离成为可能 。 当然 , 对X染色体的初步研究也离不开之前对该染色体着丝粒的了解 , 此着丝粒的结构已经被充分研究 。
T2T的方法也使得庞大复杂的基因测序工作相对缩短 , 而T2T-CHM13的问世则为科学家提供了一种有效的方式 , 来访问和可视化与基因组和基因组其他元素相关的大量信息 。 如今 , 有了完整的基因组 , 科学家就能进一步研究该片段在人类种群中的多样性以及导致疾病的精细遗传点 。
这也是本次测序工作最大的意义所在——通过长读测序技术解决复杂区域的序列结构 , 为后续的精准医疗和分子诊断提供更为精细的索引 。

基因组学新时代
完整基因组序列的公布对于揭示人类进化、生老病死的意义是巨大的 。 实际上 , 4月1日 , 与完整的的人类基因组序列的论文同时发布的 , 还有5篇相关论文 。 其他5篇论文就分别从5个方面探讨了完整基因组在人类遗传学上的重要性 。
5篇论文中的第一篇主要研究segmental duplication等复杂区域;第二篇论文重点介绍了中心粒的结构和其表观图谱;第三篇论文讨论的是该完整基因组如何提高对人类遗传变异多样性的分析;第四篇论文说明了人类基因组重复序列中的基因表达和其表观图谱;第五篇论文则介绍了该完整基因组的表观图谱 。
要知道 , 过去未被揭示的8%的基因组代表了医学和基因组知识的巨大差距 。 差距就在人类染色体的两个关键区域:端粒和着丝粒 。
端粒是位于染色体末端的小帽 。 这个部分随着人年龄的增长而缩短 。 已经有研究表明 , 端粒比正常水平短的人更容易患老年疾病 , 而且比端粒长的人更早死亡 , 通过延长端粒来减缓衰老速度是一种可能的方法 。
着丝粒位于染色体中间部分 。 这个区域在细胞分裂过程中扮演了很重要的角色 , 因为蛋白质就是在这个狭窄部位附着并分裂DNA , 两个新细胞由此共享携带同样遗传密码的DNA——部分癌症、衰老和不孕症患者的基因中可以发现着丝粒出现问题或者错误 。
并且 , 对于癌症来说 , 追溯基因突变是了解癌细胞诞生的重要途径 。 毕竟 , 每种癌症都有数千个突变 。 如果能够在人体的乳腺、肺部、神经系统等十几个组织器官中鉴定不同的突变特征 , 就能寻找倒不同癌症类型的患者具有的共性和差异 , 将常见的突变过程与人群中发生频率较低的罕见突变过程区分开来 。

推荐阅读