会发现速度比较慢 , 于是我们又把它放到一个 , 比如说类似LevelDB数据库上面 , 回过头来看 , 我们会发现这些就是非常标准的KV数据库 。
在洞察用户行为的时候 , 我们首先要从Hive的数仓里面做各种各样的处理 , 把数据从Java的环境里搬出来 。 再到Python的环境里做训练 , 而这个训练底层的实现又是C++的 , 类似这样的拉通 , 以及AI的模型标准等等 , 这一系列的问题都变得非常麻烦 。
而在AI应用当中 , 怎么样把数据回流下来 , 进一步地再做新的训练 , 这些数据链路的质量都会决定了最终应用的质量 。 今天我们就会非常需要一个大数据和AI 一体化的平台来解决数据的全生命周期当中各种各样的问题 。
软件就更是一个备受关注的领域 。 如果往回倒8年 , 我们经常听到“我的框架比你的快”这样的比较 。 那么多年过去之后 , 今天为止我们依然看见有很多框架在走着老路 , 重新设计一套语言 , 重新设计一个开发环境等等 。 我觉得今天我们不需要来重复地造轮子 。 软件 , 或者说框架 , 核心主要在于两个 , 一个是往下如何来兼容各种各样的硬件、不同的处理器、不同的新的芯片 , 另一个是往上如何实现更好的分布式开发 。
文章图片
尤其是当超大规模的模型变得越来越受关注 , 往下我们需要有更加好地AI编译环境 , 让软件和硬件更容易地迭代和开发 。 往上我们会需要有更好的系统和模型 , 或者说系统和算法工程师更好的相协同工作模式 , 让我们构建起分布式的模型以及规模化训练 。 在今天接下来的讲座当中 , 我们就会讲到在AICompiler 以及在分布式框架Whale等等上面做的工作和思考 。
最后我们来说人的故事 。 我们以前在做代码开发的时候 , 有GitHub等非常成熟的模式 。 AI要管的东西更多 , 有数据、有算法代码、有模型、有计算资源、有训练跟推理的资源 。 怎么样来让一个开发平台从以前的单机 , 到今天的多机多卡多个数据中心的情况下 , 依然能够高效地管理调度这些资源 。 今天后面会跟大家讲到 , 我们在AIdesigner 或者说AI 工作空间上的思考 , 用一个统一的空间来拉通我们的算法迭代 , 数据管理、模型训练和最后模型上线 。
AI 的痛苦在于本质上今天AI还没有范式 。 AI 不是一个产品 , 这句话有两层含义 , 一方面它不光是一个单点的产品 , 而是一系列能力的组合;AI 今天非常强烈地需要标准软件和定制化服务的协同 。
我们在云栖大会推出的阿里灵杰就是这样的一个大数据和AI一体化的产品体系 。 为什么要推出灵杰呢?我们非常强烈地意识到 , 我们需要把软件、定制化服务、以及开发者效率都结合起来 。 灵杰做的一件事情是 , 它将可以标准化的部分标准化 , 将没法标准化的部分用一系列工具和组件的方式提供出来 , 让开发者在定制上层服务的时候 , 能够更加便捷易用 。
推荐阅读
- 模型|2022前展望大模型的未来,周志华、唐杰、杨红霞这些大咖怎么看?
- 模型|经逆向工程,Transformer「翻译」成数学框架 | 25位学者撰文
- 化纤|JXK STUDIO 虎年肥猫 1/6仿真动物模型手办可爱摆件
- 人物|网曝罗振宇2022跨年演讲退票损失千万元:演讲现场无观众
- 模型|达摩院2022十大科技趋势发布:人工智能将催生科研新范式
- 创造者|李彦宏在百度首个元宇宙产品中演讲:AI黄金十年即将到来
- 模型|李彦宏:中国迎来AI黄金十年,集度汽车机器人明年亮相,智能交通10年内解决拥堵
- 模型|神经辐射场去掉「神经」,训练速度提升100多倍,3D效果质量不减
- 青少年|中科院老科学家科普演讲走进三亚中小学校
- 模型|英伟达:美团机器学习平台使用NVIDIA T4 GPU