尚学堂|期待,飞天AI平台首次亮相,阿里AI成为最大的AI公司( 二 )

飞天平台内核包含的模块可以分为以下几部分 。

分布式系统底层服务:提供分布式环境下所需要的协调服务、远程过程调用、安全管理和资源管理的服务 。 这些底层服务为上层的分布式文件系统、任务调度等模块提供支持 。

分布式文件系统:提供一个海量的、可靠的、可扩展的数据存储服务 , 将集群中各个节点的存储能力聚集起来 , 并能够自动屏蔽软硬件故障 , 为用户提供不间断的数据访问服务;支持增量扩容和数据的自动平衡 , 提供类似于POSIX的用户空间文件访问API , 支持随机读写和追加写的操作 。

任务调度:为集群系统中的任务提供调度服务 , 同时支持强调响应速度的在线服务(Online Service)和强调处理数据吞吐量的离线任务(Batch Processing Job);自动检测系统中故障和热点 , 通过错误重试、针对长尾作业并发备份作业等方式 , 保证作业稳定可靠地完成 。

集群监控和部署:对集群的状态和上层应用服务的运行状态和性能指标进行监控 , 对异常事件产生警报和记录;为运维人员提供整个飞天平台以及上层应用的部署和配置管理 , 支持在线集群扩容、缩容和应用服务的在线升级 。

推荐阅读