支付宝技术风险负责人陈亮:把事情做到极致,技术的差异性才会体现出来( 六 )

起初 , 陈亮介绍 , 攻防演练主要针对容灾方向 , 虽然也会做一些线上的断网演练 , 但当时的体系还不具备直接在线上进行稳定性演练的条件 , 主要是范围很窄的故障定位 。 第二年 , 团队构建了新的基础设施——灰度环境 , 该环境与生产环境完全隔离 , 但可以引入环境流量进行生产验证 。 同时 , 该环境具备 24 小时压测流量 , 团队可以在各个环境下进行稳定性攻防 , 并要求在十分钟内恢复稳态 , 此时已经从只敢做定位变成真正做演练 。

如今 , 攻防演练的时间已经拉长至四天 , 支付宝技术风险团队会在虚拟环境演练整体的故障恢复能力 。 通过 AIOps 和 TRaaS , 整个团队的目标已经变成五分钟内自愈 , 最新的攻防数据显示已有近八成业务通过自愈恢复 。 更为复杂的容灾演练也从一年 12 次演变为百余次 , 容灾成功率从 50% 提升至 90% 。 在这个过程中 , 支付宝沉淀了很多与技术风险相关的能力 , 以下将简单介绍 AIOps 和 TRaaS 两个维度 。

支付宝技术风控平台 TRaaS

过去 , 我们对新技术的接受和采纳程度一直很高 , 但可能缺少分享 。 如今 , 我们将整套攻防演练沉淀下来的风控体系对外开放 。

推荐阅读