怎样深度融合AI和HPC?英特尔打造一套通用神器( 六 )

因此,HPC系统需考虑如何在现有的以计算为中心的架构基础上,处理整个系统中数据移动的速度和总拥有成本。

2、框架和软件堆栈需求不同

传统HPC应用是基于算法的数学模型,是经过人类严密的逻辑运算后,遵循已知的规则去训练和实现的。

而AI通常借助的机器学习方法,需要通过海量数据来训练模型,机器参与过程犹如一个黑匣子,人的参与度相对没那么高。

在实际情况中,许多HPC集群早期设计时是没有考虑到AI或数据分析应用的,但HPC、AI和数据分析,三者的软件堆栈和框架差异很大,每个工作负载必在集群上加载自己的软件堆栈,资源管理器也千差万别。

要实现HPC、AI和数据分析的融合,资源管理器需要考虑的因素很多。

硬件和环境不断变化,异构工作负载有浮点型、整数型,平均系统规模和组件数量在快速增长,异构环境有内部数据中心、公有云、私有云和混合云,对大规模扩展性、功效和网络安全管理能力的要求也越来越高。

推荐阅读