阿里巴巴基础设施挑战与芯片策略( 七 )

但真正要做的时候 , 遇到的问题就非常多了 。 比如从数据中心来讲 , 最容易想到的是供电 , 还要考虑每一个机柜多少千瓦最合理(结合应用) 。 同样 , 对网络来说 , 网络设备成本已经占到50%以上 , 这时候就要考虑到底是全部用相对比较昂贵的长距模块(最简单的) , 还是通过部署让网络设备更加合理 , 用的模块距离更短一些、成本更低 , 整个TCO更有竞争力、每个端口的成本最合理 , 这些都是需要考虑的 。

接下来 , 简单讲一下阿里巴巴在这些领域里做了哪些工作 。

首先 , 算力方面 , 平头哥提供了NPU芯片 。 同样 , 作为一个互联网公司 , 大多数时候在基础设施里还是会使用合作伙伴的技术 , 因为重点在于整体架构、整个系统设计 , 如何获取最高的能力 。 所以 , 我们也会定制化 , 包括FPGA 。 今天阿里巴巴在搜索业务上 , 以前的搜索用的是GPU , 而GPU相对比较昂贵 , 我们在搜索业务用FPGA进行卸载 , 其实非常不错 , 但唯一一点就是可能经常会有算法的改变 。 大家都知道 , 算法一旦变 , 做个FPGA、RTL , 尽管比ASIC要快 , 也得花两三个月的时间 。 这时候我们做了一个编译器层 , 包括专有的指令集 , 把一些基本算子先写好 , 当算法有变化时通过编译器就可以快速地应用新算法 。

推荐阅读