支付宝技术风险负责人陈亮:把事情做到极致,技术的差异性才会体现出来( 四 )

陈亮发现 , 传统的运维思路和文化已经无法彻底解决支付宝的稳定性问题 , 因此需要成立 SRE 团队 。 事实上 , 传统的运维方式侧重于靠人肉解决风险 , 不管是调参还是更改配置 , 都无法从本质上解决支付宝的稳定性问题 , 相反会让运维人员的工作成就感很低 。 说到底 , 运维领域的问题终究还是软件问题 , 需要建立软件平台更好地管理风险 。

在组建 SRE 团队的过程中 , 陈亮认为最难的反而不是技术层面的推进 , 而是让团队工程师 , 包括整个公司认同 SRE 的价值 , 这需要让所有人理解 SRE 可以解决哪些新的问题以及传统的思维方式为何不可取 。

据了解 , 支付宝的 SRE 团队主要由研发、运维和测试人员组成 , 八成运维人员都需要写稳定性相关的代码 。 团队组建完成即全面开展故障自动定位、自适应容灾、防抖、精细化高可用等工作 。 其中 , 防抖要保证任何网络或基础设施抖动 , 用户都无感知;精细化高可用 , 又叫单笔高可用 , 其颗粒度可以精准到用户的每一笔交易 , 远远优于行业内的机房级高可用 。

2016 年 , SRE 团队建设了很多平台和能力 。 同时 , 技术团队发现了两个极为重要的现象 , 一是生产故障不是必然的 , 通常都是偶然性的;二是生产故障是低频的 。 这带来的问题就是故障样本很少 , 没有办法证明在真实故障到来时平台是否具备能力应对 。 也就是说 , SRE 团队建设的防御系统的可靠性 , 无法充分验证 。

推荐阅读