以前要24小时的基因组测序，中国团队只用了7分钟

文章图片

一到年关，最不缺的就是各种盘点总结了。
这不，中国机构实现了 7 分钟完成 30X 测序深度人类全基因组测序的成绩，时隔 3 个月又被提了起来。

听不懂没关系，我们只需要知道，这个成就意味着基因筛查将有可能进入常规体检项，遗传病检查也可能像咽拭子检测一样立等可取了。
比如镰刀型贫血症、先天性心脏病等所有由于基因异常引起的疾病，都可以通过基因检测的方式早发现早预防早治疗，特别是在生育健康方面意义重大。
但是目前的基因检查项目大多只针对常见遗传病做筛查，一些罕见的遗传病很难被检测到。并且检测机构出具报告一般都需要 20 天以上，检测项目周期太长。
华大医学单基因遗传病检测的部分项目。 ▼

中国团队把人类全基因组测序所需要的时间，直接压缩到了 7 分钟，相当于给生物学界开通了一辆和谐号，得到生物的全部遗传信息，那都是分分钟的事。
想知道 7 分钟的意义有多大，那就先来搞清楚全基因组测序是什么吧。
基因测序就是把 DNA 信息转换成人类可读取的数字信息过程，而全基因组测序，就是把生物的所有 DNA 信息全部转化为数字信息。

读取一整条 DNA 链的碱基排列信息，不仅速度慢，而且很容易出错。在实际操作过程中， DNA 长链会被切割成许许多多的小片段并同时进行测序，这样可以大大减少测序时间。
虽然小片段序列信息的获取更快更容易，但是这也带来了一个新难题，如何把这些小片段正确拼接还原成完整序列？

玩过拼图的人都知道，判断两块零片是不是相邻位置，需要参考它们的图案有没有很好地吻合在一起。
拼接 DNA 片段也一样，两条片段是不是相邻位置，要看它们末端的序列能不能完全重叠。
只要两条序列首尾两端分别存在相同的序列，这两段序列就可以合并成一段。

当然了，这是运气好的情况，两段相邻片段可以顺利找得出来。如果运气不好的话，在某一处断点就有可能找不到和它吻合的片段。
为了保证测序片段能够覆盖整个基因序列，常用的手段只有以量取胜。把十几倍几十倍的片段往模版里填，如果还存在填不上空的情况就该去买彩票了。

但是片段数量的翻倍直接导致的后果就是拼接工作量的指数增加，毕竟拼 1000 块拼图花费的时间可不止是 100 块拼图的十倍。
这个工作量有多大呢？我们放在具体的测序案例中计算一下。

以人类全基因组测序为例，人类有 23 对染色体共 3.2Gb 碱基对数据，一般测序的片段大小会选择在 150-350bp 范围内，也就是说，对人类基因组测序至少需要处理 10000000 的片段数量。
而为了提高测序准确率和覆盖度，片段的序列数据一般会远超基因组数据。比如常用的 30X 测序深度，测序得到的总数据达到了基因组数据的 30 倍，序列数量大约增加到了 300000000 段。
粗略估算一下，数据读取 300000000 次才能组装好一对小片段，第二次组装则需要至少再读取 150000000 次，以此类推。

以前要24小时的基因组测序，中国团队只用了7分钟

推荐阅读

如何找寻自我

缝纫机调线器怎么安装平车方法如何

强组词强字组词

火笋鸡翅的做法（增肥食谱）

闺女生日快乐祝福语朋友圈

LV请来潮牌设计师做艺术总监，看中的是啥

老虎豆怎么做好吃老虎豆图片怎样弄来吃

暖气有流水声是什么原因

皮球是什么体

手机怎样开通QQ空间

男生发mua说明 mua是什么意思

手指盖凹陷怎么回事

对自己的生活失去掌控咋调整

小米10s怎么没有月亮模式

我想找个偏僻的地方搞养殖！有没有推荐的地方？

南京养老金认证上门服务怎么申请南京市养老金认证

如何评价猪场阉割猪？

最后一个字是豹的成语

泰山散酒怎么样

猫发情的声音(猫发情的叫声)