首次披露:腾讯全国三地近20万台服务器的上云历程( 九 )

2)第二阶段:方案规划和设计

要做好详细的迁移方案,风险预案,回滚预案,混合云预案,多云预案等,譬如上云过程中数据迁移有问题,出现丢数据,我该如何解决等等。

3)第三阶段:验证

这个是非常核心的阶段,上云前,要有预测试、预验证的过程。可以把一些核心模块,譬如高并发,或延迟非常敏感的模块,在云上做好充分的压测,并跟云服务团队一起优化解决各种问题。

4)第四阶段:业务迁移

迁移就更复杂了,包括服务和数据怎么迁、怎么做好备份,迁移过程中对业务有没有影响,我们用云的通用迁移工具,还是我们自己开发的迁移工具。上云过程中,做好对灰度模块的观察,通过客户端服务质量,服务间调用延迟,全网拨测等监控指标观察业务有没有问题。

5)第五阶段:持续运营

整个服务运营体系都变了,基础运维和公共运维团队变成由公有云的运维团队来支持。内部使用的开源监控工具,或者改造成支持公有云的资源监控,或者使用云上成熟的监控SaaS服务。CMDB要支持多云管理。运营流程也发生很大的变化,服务SLA要跟公有云服务商一起制定。

推荐阅读