阿里巴巴基础设施挑战与芯片策略( 六 )

今天阿里巴巴作为互联网企业 , 更多体现在整个集群上要考虑的事情 , 就特别多了 。 比如大家今天都在做异构计算GPU、NPU , 这些算力如何与CPU进行搭配是最合理的?

同样 , 今天大量的数据在计算时需要搬运 , 搬运数据的时候一定会遇到带宽等问题 , 也要考虑到搬运数据的过程是否在意延时 。

像今天做存储 , 如果是分布式存储 , 很明显需要集群网络的性能 , 这时候网络延时就很重要了 , 大家都知道TCP/IP协议不太适合低延时 , 那就要考虑到底是要利用现有的低延时网络协议如InfiniBand、RDMA , 或是今天自研一个低延时的网络协议 , 包括拥塞控制的算法 , 这些都是非常有技术含量的 。

应用中还遇到一些问题 , 比如今天的互联网公司希望做一个10万台规模的服务器集群 , 因为它可扩展、利用率高 , 相当于可以提供很多资源 。

网络人员会说 , 数据中心只要能够承载这么大规模的服务器 , 网络都可以搞定;而数据中心人员会说 , 只要网络能搞定 , 其它都没有问题 。

推荐阅读