支付宝技术风险负责人陈亮:把事情做到极致,技术的差异性才会体现出来( 四 )
陈亮发现 , 传统的运维思路和文化已经无法彻底解决支付宝的稳定性问题 , 因此需要成立 SRE 团队 。 事实上 , 传统的运维方式侧重于靠人肉解决风险 , 不管是调参还是更改配置 , 都无法从本质上解决支付宝的稳定性问题 , 相反会让运维人员的工作成就感很低 。 说到底 , 运维领域的问题终究还是软件问题 , 需要建立软件平台更好地管理风险 。
在组建 SRE 团队的过程中 , 陈亮认为最难的反而不是技术层面的推进 , 而是让团队工程师 , 包括整个公司认同 SRE 的价值 , 这需要让所有人理解 SRE 可以解决哪些新的问题以及传统的思维方式为何不可取 。
据了解 , 支付宝的 SRE 团队主要由研发、运维和测试人员组成 , 八成运维人员都需要写稳定性相关的代码 。 团队组建完成即全面开展故障自动定位、自适应容灾、防抖、精细化高可用等工作 。 其中 , 防抖要保证任何网络或基础设施抖动 , 用户都无感知;精细化高可用 , 又叫单笔高可用 , 其颗粒度可以精准到用户的每一笔交易 , 远远优于行业内的机房级高可用 。
2016 年 , SRE 团队建设了很多平台和能力 。 同时 , 技术团队发现了两个极为重要的现象 , 一是生产故障不是必然的 , 通常都是偶然性的;二是生产故障是低频的 。 这带来的问题就是故障样本很少 , 没有办法证明在真实故障到来时平台是否具备能力应对 。 也就是说 , SRE 团队建设的防御系统的可靠性 , 无法充分验证 。
推荐阅读
- 手机游戏|LOL手游技术主播排位遭遇安排,玩家段位各种大倒退,多人“中招”
- 地下城与勇士|DNF:技术流主播的“末路”?Eiji的直播风格引起争议!
- 诺言|酒馆战棋全靠运气?这3点展现技术的重要性!
- 斗鱼|杨颖斗鱼首秀,透露喜欢金克丝的原因,游戏技术得到若风认可
- 地下城与勇士|DNF:游戏已变了味!两个技术帝主播衰败,人气热度濒临淘汰
- xyg|成绩好也要面临降薪风险?XYG被自家老板点名,且已无组队意愿
- fps|法神直播展示匕首技术,却不料被连续振刀?直言下次不许再玩了
- |西山居曝光“游戏增强学习AI技术”,正在1款内部产品中测试
- 手机游戏|LOL手游霸哥依旧下饭,“石头人空大害队友,学技术还看Thebug”
- 指环王|和平精英指环王大赛,技术主播开始“内卷”,几指操作实力最强?