4个月建成的数据中心,如何承载“全球最快的AI训练集群”?( 九 )

华为希望通过AI等技术手段降低、简化数据中心运维,比如华为推出的Smart IT解决方案就率先在内部使用,其内不仅包含对IT的监控,同时能集成对数据中心基础设施,以及数据中心整体运维情况的监控与管理。

4个月建成的数据中心,如何承载“全球最快的AI训练集群”?

华为云数据中心总监张鹏向数字中国万里行团队讲解、讲解东莞松山湖数据中心运维管理方法

如何做到更细粒度、更全面的监控?华为内部提出了“数字孪生”的概念,举例来说,在库房清点方面,华为利用高清摄像头+AI的方式进行设备清点,将库房信息实时反馈到数据库内,以便实时了解库房存量;在机房楼内,每一台服务器的上架时间、具体到机架U位以及所占用的机架空间都会被手持Pad记录,并反馈到数据库内并实时显示在管理后台中。也就是对物理世界进行数字化,并构建一个数字世界,物理世界的每一个改变都实时在数字世界体现。

同时,华为还将物联网技术也应用到数据中心内,数据中心内的每一台设备(包括IT和机电)都相当于一个个的人体“细胞”,而网络则相当于血管和神经元,将每个“细胞”的信息都实时传输到“大脑”——数据中心实时运维平台,不仅总览全局,还能深入细节。在参观过程中,我们通过管理后台的图形化界面能够看到数据中心内每个组件的设备运行情况。

推荐阅读