结构变异是种内和种间变异的主要来源,在许多物种的进化中发挥重要作用



结构变异是种内和种间变异的主要来源,在许多物种的进化中发挥重要作用


文章图片



结构变异是种内和种间变异的主要来源,在许多物种的进化中发挥重要作用


文章图片



结构变异是种内和种间变异的主要来源,在许多物种的进化中发挥重要作用


文章图片


结构变异(SV)是种内和种间变异的主要来源 , 并且已被证明在许多物种的进化中发挥重要作用 。 结构变异检测现在在许多生物的研究进展中发挥着主导作用 , 例如植物育种和我们对人类疾病和病症的理解 。 事实上 , 来自不同背景的研究人员对结构变异很感兴趣 , 旨在从不同角度解决结构变异 。 因此 , 需要确定最有效和最可靠的结构变异分析工具对于推进所有生物的基因组研究至关重要 。



大型基因组结构变异 , 例如超过20个碱基对的插入和缺失、拷贝数变异和易位 , 通常在DNA修复过程中被诱导 。 植物和动物中存在几种DNA修复机制 , 但使用可能会根据所研究的基因组的结构和排列而有所不同 。 一些相关的SV诱导机制包括与DNA修复相关的非同源末端连接在同源性非常有限或没有同源性的区域、高度相似区域中的非等位基因同源重组、叉停滞和模板转换 , 如复制错误机制 , 最后是转座因子介导的修复机制[参见 , 更详细地回顾目前用于测量结构变异的基因组技术和计算技术 。



除了诱导的结构变异类型的变化外 , 基因组的复杂程度也可能不同 。 例如 , 与脊椎动物基因组相比 , 植物基因组更容易发生杂交和基因组复杂性的进一步增加 。 这些挑战通常会加剧测序错误的数量和映射的不确定性 , 这进一步增加了识别结构变体的复杂性 。 这可能会导致SV检测工具的行为发生差异 , 这些工具是专门为智人或动物数据设计的 。



虽然之前的研究试图通过开发新的SV工具来解决人类基因组中的测序错误和映射不确定性问题 , 但我们的动机是需要深入了解SV工具在非人类基因组上的性能 。 使用多种工具来识别SV至关重要 , 因为每种工具都可能以不同程度的成功响应基因组结构的这些变化 。 在选择SV检测工具时应考虑到这一点 , 因为有些工具比另一种更适合一个目的 。 出于这个原因 , 我们选择使用不同的SV技术对工具进行基准测试 。



采用四种通用技术来检测来自配对末端测序数据的结构变异 。 每种方法都有优点和缺点 。 在这里 , 我们提供了每种技术的简要概述 , 并列出了一些使用它们的工具 。 覆盖率:覆盖率 , 即与基因组区域对齐的读取量 , 可用于对其拷贝状态得出结论 。 例如 , 当一个区域没有被任何读数覆盖时 , 可以得出结论 , 相应的部分不存在于正在研究的基因组中 。 这种技术的一个优点是它允许直接估计拷贝数 。 然而 , 这种技术仅适用于较大的事件 , 并且会受到测序偏差的影响 。

一般来说 , 这种类型的方法最适合比较使用相同平台/协议测序的样本对 。 内部片段大小:内部片段是配对末端测序片段中两个读数末端之间的未测序部分 。 文库制备和测序协议决定了内部片段大小分布的形状 。 当特定基因座的比对导致对IS大小的估计与该背景分布显着偏离时 , 该基因座可能会受到所检查基因组结构变异的影响 。 当工具根据IS长度的统计数据得出结论时 , 它们的性能率主要取决于这些分布的形状 。 一般来说 , 它们对于标准偏差较小的单峰分布表现最好 。

【结构变异是种内和种间变异的主要来源,在许多物种的进化中发挥重要作用】随着观察到的IS大小在存在插入的情况下增加 , 可以检测到的最大插入长度受平均IS大小的限制 。 但是 , 删除不存在此限制 。 拆分读取方法尝试跨结构变异断点对齐读取 。 也就是说 , 两个读取端之一对齐 , 使得SV是未对齐读取的一部分 。 该技术具有产生单碱基对分辨率的优点 。 然而 , 性能取决于读取的长度 , 因为较短的读取会导致更多、不明确的比对 , 尤其是在基因组的重复区域中 。

    推荐阅读