支付宝技术风险负责人陈亮:把事情做到极致,技术的差异性才会体现出来( 九 )

支付宝的生产环境非常复杂 , 要想实现 AIOps , 最大的技术挑战源于超高规模的数据并发 , 技术风险团队想要实现业务高可用就需要找到造成某种故障的全部可能原因 , 比如造成付款下跌的全部原因 , 该过程在内部被称为“找分母” , AI 在这一阶段发挥了重要作用 。

以资金安全为例 , 对于同一笔业务 , SOA 架构的上下游会出现两张表 , 而表单中同一笔订单的金额必须保持一致 。 当表单数据足够多 , 就意味着可供训练的样本数量足够庞大 , 此时可以通过 AI 的方式找出每笔金额不一致交易的故障原因 , 进而不断完善该故障的“分母” 。

对于 TRaaS 平台的未来规划 , 陈亮表示 , 在条件成熟且允许的情况下 , TRaaS 平台会集成支付宝技术风险团队在攻防领域的全部能力 , 包括灰度架构、演练平台、自愈平台、报警处理平台及变更平台等 。

未来规划

未来 , 技术风险防控体系将具备更多智能特性 , 尽量减少人工干预 , 最好的情况是实现无人值守 。 陈亮透露 , 这将是整个团队未来至少两年内的主打方向——让所有变更无人值守 。 当然 , 无人值守很简单 , 关键是风险控制能力要上去 。

推荐阅读