架构|厚积薄发:探寻磐久服务器M系列研发之路

2021年10月 , 杭州云栖大会 , 阿里云正式对外推出自研磐久服务器家族 , 将基础硬件创新与上层云产品软硬件一体化 , 从而为客户提供更多选择 , 助力客户业务创新 。
2021年双11、双12期间 , 全新自研磐久服务器M系列首次上线运行 , 应用于电商等多个重要核心场景 , 顺利支撑了电商业务的峰值流量 , 性能和稳定性均超预期 。
从云栖首发到两次电商流量洪峰考验 , 阿里云加大底层基础技术的自研逻辑是什么?磐久服务器M系列是什么?有何独特技术优势?笔者带您一起走进磐久服务器M系列研发背后的故事 。
【架构|厚积薄发:探寻磐久服务器M系列研发之路】开端:8年铸剑 砥砺自研
从云栖大会首次发布 , 到顺利通过双11、双12两次电商流量洪峰考验 , 磐久服务器M系列不仅证明阿里云实现业界最快的ARM架构服务器自研和业务上线运行 , 更是阿里云服务器研发团队多年来砥砺创新、深耕自研的结果 。
架构|厚积薄发:探寻磐久服务器M系列研发之路
文章图片

(磐久服务器M系列)
2014年 , 阿里云服务器团队开始在内部针对ARM架构在数据中心上的应用进行探索 , 业内所有面向数据中心的ARM处理器都在阿里的核心产品和业务场景中进行过测试调优和验证 , 当时 , 阿里积累了丰富的应用经验和大量性能数据 , 成为国内针对ARM架构在数据中心应用探索的先行者之一 。
“研发最开始是一股热情 , 但到后面发现困难重重” , 阿里云服务器研发资深专家陈义全回忆研发初期说到 。 研发小组面临的第一个挑战是对如何对原有MySQL数据库、ODPS、机器翻译、电商交易等应用进行大规模代码移植、适配和调优 , 当时可没有如今高级的AI工具帮忙 , 几乎所有的代码移植和适配工作都得靠研发小组手动操作 。 例如 , MySQL应用验证初期遇到整机吞吐性能只有主流平台50%问题 , 陈义全带领团队几乎从零开始 , 深入分析源码和热点函数 , 结合ARM架构特点 , 快速找到瓶颈点 , 并使用ARM汇编重写了部分MySQL内核时间、锁等函数 , 最终实现整机吞吐与主流平台持平 。
研发团队通过攻克一个个难题 , 积累了丰富的性能数据和宝贵的实践经验 , 为后续自研服务器和处理器的设计铲平了很多障碍 , 开创性地解决了众多难题 , 并在2016年实现了部分自有业务在ARM架构上小规模运行 , 用很短的时间实现了阿里云服务器历史性飞跃 。
从被动到主动 超越下一个超越
2021年云栖大会上 , 阿里云正式发布自研磐久服务器家族 。 其中包括磐久高性能计算、磐久高性能存储和磐久大容量存储三大系列 。 但磐久服务器-M系列又是什么呢?M系列是磐久服务器中ARM架构专属分类 , 未来会全面覆盖高性能计算 , 高性能存储 , 和大容量存储等机型 。
架构|厚积薄发:探寻磐久服务器M系列研发之路
文章图片

(磐久服务器家族)
阿里云为什么要全面自研磐久服务器呢?这应该要从今天的云计算趋势说起 。
近几年来 , 云原生业务呈现爆发式增长 , 给企业原有的基础设施带来了很大挑战 。 广义云原生是指因云而生的软件、硬件和业务架构 。 而落到基础设施这个层面 , 主要的挑战则是 , 基础设施要真正具备敏捷、弹性、高稳定性和高利用率等特性 。
说起云原生大家都不陌生 , 但对于云原生硬件或云原生服务器基础设施的解读 , 业界说法不一 。 在陈义全看来 , “说到底 , 云原生服务器基础设施 , 就是面向云业务场景的需求 , 深挖IaaS层面 , 通过软硬件一体化 , 实现极致性能和极致可靠性 , 真正做到硬件资源弹性 , 而不仅仅客户看到的资源弹性 。 ”
今天 , 数据中心的算力需求和2014年已完全不同 。 这几年来 , 陈义全和其研发团队一路向前 , 如今已拉通业务、产品和硬件研发三线团队 , 基于前端客户对云原生业务的需求分析 , 以及最新的服务器架构和芯片的潜心打磨 , 最终落地阿里云磐久服务器-M系列 。
如何让业务更加简单 , 整个算力资源更加弹性和快速 , 整个基础设施或者整个业务运行更加稳定 , 这正是阿里云一直追求的 。 而做到这一切 , 则需要打造适合云原生的服务器、网络以及数据中心 , 大幅提升计算和存储效率 , 实现云原生所需的极致弹性和性价比 。 作为云产品的基础底座 , 过去几年 , 阿里云基础设施团队通过自主研发持续重构软硬件之间的系统接口 , 部件和整机系统 , 打造最高效的服务器和网络基础设施 。 聚焦到服务器技术领域 , 阿里云基础设施走过了小型机、行业标准服务器、规格定制服务器和自研云原生服务器这几个时代 , 最新的磐久服务器-M系列则是目前云原生时代最新的服务器技术实践之一 。
如何设计最高效的服务器硬件系统和CPU以获取最佳的处理能力和高能效比 , 是业界自研服务器所面临的最大挑战 , 但这对于阿里云来说反而是最大的优势 。
阿里云在自研云原生服务器和定制处理器上具有很长的历史积累和技术沉淀 。 首先 , 基于云计算对云服务器和处理器的要求 , 阿里云联合业内主流处理器供应商开展了多代的处理器定制 , 获取了基于业务场景的远高于主流处理器的价值收益 。 其次 , 阿里巴巴百万级在线服务器规模 , 有各种应用场景下的性能模型和成本模型 , 而丰富的业务场景 , 如弹性计算 , 云存储 , 大数据及分布式系统等方面积累了海量的性能数据和历史问题总结经验 , 这些数据沉淀为云原生服务器和处理器的设计提供了系统架构和微架构的指导 。
穿刺未来 , 全自研基础设施部署
架构|厚积薄发:探寻磐久服务器M系列研发之路
文章图片

(2021云栖大会磐久服务器发布现场)
今天 , 阿里巴巴丰富的业务场景和客户需求对云计算技术基础提出了极致性能和高能效的要求 , 而阿里云磐久M服务器发布则为全栈云基础设施填补上了最基础的一环 。 通过将服务器架构、软硬件协同、操作系统、数据库和中间件等基础软硬件能力有机结合 , 并通过阿里巴巴上层纷繁复杂的业务场景锤炼 , 必将为用户提供更具性价比的云计算资源和更易落地的云服务解决方案 , 为客户创造价值共同成长 。

    推荐阅读