文章图片
图1 机器学习开发的几个关键阶段
数据集中与归档阶段 , 首先需要采集产品用户环境下不同来源的数据 , 包括外部来源的数据/数据集 , 并将数据转换为机器学习模型所需要的格式 , 这个阶段通常具有典型I/O密集的特征 , 要求高带宽和大容量 。
模型训练阶段 , 复杂的深度神经网络需要利用高度并行的技术来实现 , 这些模型需要大量经过清洗和标记的数据来训练 , 涉及到大量的随机、小文件读取操作 , 要求高带宽和低时延 。
推理阶段 , 所部署训练好的模型需要准实时的分析数据 , 要求低时延和高性能 。
3.如何打破存储系统性能瓶颈 , 充分发挥算力?
为了加快模型训练速度 , 在机器学习开发中常常会使用一些特殊的硬件 , 如GPU 。 但是 , 由于存储或网络无法快速提供训练的数据 , 不能很好的服务上层的GPU等训练服务器 , 成为系统I/O瓶颈 , 导致昂贵的GPU无法充分发挥其价值 。
综合来看 , 随着企业AI应用的快速发展 , 传统存储架构成为制约瓶颈 , 性能、容量无法满足需求 , 管理和扩展复杂 , 存储效率问题凸显 , 很难胜任各种AI应用场景的要求 。
针对AI应用 , 如何在数据存储层面通过一套方案覆盖AI应用所有存储工作流 , 并且能够全面平衡性能、容量、扩展性和易用性?目前 , 通过新型存储软件来满足AI应用对存储的需求 , 成为越来越多高成长性企业的选择 。
杉岩数据MOSFS , 为AI应用提速增效
MOSFS , 就是一款由杉岩数据为AI应用量身打造的智能分布式存储解决方案 。
文章图片
图2MOSFS多源汇聚兼容多种存储
首先 , MOSFS的底座基于杉岩数据自研的海量分布式对象存储(MOS) , 支持通过横向扩展硬件节点线性增加系统容量与性能 , 满足EB级存储规模需求 。 系统提供File Ingestor、DB Ingestor等数据汇集功能 , 支持各种格式、各类来源的数据 。 同时MOSFS还支持对现有NAS存储、对象存储和HDFS存储的纳管 , 既充分利用客户既有投资 , 又满足客户的业务规模增长需求 。
其次 , MOSFS不仅能够容纳汇聚各类数据 , 同时还可对上层应用提供标准POSIX接口 , 兼容Amazon S3协议接口 , 以及大数据服务接口 , 一套存储支持多种协议接口 , 满足AI训练各阶段对数据的访问诉求 , 支撑AI数据处理的全套流程 , 构建了一个安全、共享、高效存取的“数据湖” 。
最后 , MOSFS针对AI训练的特性 , 开发了多级分布式缓存架构 , 将热点数据(如正在训练的数据集)缓存在高性能介质中 , 如NVMe SSD、MEM等 , 将非热点数据存储在大容量介质中 , 既保证了极致的响应时延 , 充分释放出GPU等特殊硬件的算力 , 横向扩展带来的近似线性增加的容量和性能又保障了高带宽和超大的容量 。
推荐阅读
- 代码|GGV纪源资本连投三轮,这家无代码公司想让运营流程变简单
- 智能化|适老化服务让银行更有温度
- bug|这款小工具让你的Win10用上“Win11亚克力半透明菜单”
- 软件和应用|AcrylicMenus:让Windows 10右键菜单获得半透明效果
- ASUS|ROG Maximus Z690 APEX DDR5主板实测 转接卡让DDR4内存顺利点亮
- 识别|沈阳地铁重大变化!能摘口罩吗?
- 识别|天津滨海机场RFID行李全流程跟踪系统完成建设 行李标签识别成功率可提升至99%
- 视点·观察|张庭夫妇公司被查 该怎样精准鉴别网络传销?
- 泡芙|传下去
- 电子商务|员工抱怨亚马逊太冷酷:工伤后得不到赔偿 还不让休假
