阿里云大数据服务如何创世界纪录?对话英特尔阿里云高管( 十 )

在采访期间,关涛从多个维度分享了升级大数据平台可能会面临的挑战。

从最底层看,虽然大数据平台是分布式系统,但最基本的单元实际上是每个机器上运行的算子。这个算子运行在下层硬件的操作系统之上的,是最基础的优化,需考虑怎么样让底层设计更快、怎样支持下层硬件。再往上是多机之间的网络通讯问题,再往上是分布式系统的另外一点,叫水平拓展。

另外一个挑战是,如何能在10万台规模上做到对应的水平。举例而言,以前是5万台,增加到10万台后,性能能否按照服务器数量的增长水平翻一番。

如果分布式系统只有几十台、几百台服务器可能比较容易,但到万台规模还是比较难的,特别是当达到10万台规模时,这些机器甚至都不在一个数据中心里面。

比如10万台机器分散在杭州、内蒙、河北,要使得在用户看来这10万台机器是一体的,而实际上它又是分布式的,其调度系统、智能调度数据和作业使它们在10万台机器上能畅通地浏览,这里面包含负载均衡、调度策略的平衡,还要考虑偶尔某些机器坏掉的情况。

推荐阅读