4个月建成的数据中心,如何承载“全球最快的AI训练集群”?( 十 )

4个月建成的数据中心,如何承载“全球最快的AI训练集群”?

华为云东莞松山湖数据中心实时运维截图,根据不同角色分为四个不同的子系统(面板),如可靠运维、精益运营、客户服务以及团队管理,并分类提供相应的实时信息概要

华为将这称之为“毛细血管”,颇为形象。利用物联网发送的机电运行信息,再与IT设备的运行信息相结合,筛选出50多个指标,并利用先进的AI模型进行训练,以此获得最佳的数据中心运营方式。对于云数据中心拥有者而言,可靠性与成本是两大关键因素,华为希望利用这套系统在达成可靠运维的基础之上,实现精益运营——一大目的是能实现成本节省。据称,仅节能方面就节省了2000多万美元。

当然这应该是华为全球150多个数据中心站点的共同成绩,相对于数据中心内的“毛细血管”级网络部署,全球150多个数据中心则通过骨干网络互连,比如在国内华为有着类似高铁的“八横八纵”网络布局,形成星型模型,不管是骨干网络还是边缘网络,都由华为独享。

数据中心间的高速骨干网络不仅有利于华为的云业务发展(如可用区),实现全局的资源分配与调度,同时还有利于管理。在全球任意数据中心都可通过实时运维平台监控和管理其他任意数据中心站点。这一特点也缓解了华为云快速扩张过程中的另一个问题——数据中心管理运营人才,数据中心通过资金投入可以快速建设,但适宜的数据中心管理人才却很难找到,利用这套全面细致的实时运营平台,可以让同一个站点经理管理多个数据中心。

推荐阅读