AI for Science的上半场:人工智能如何重新定义科学研究新范式?( 二 )


而今 , 回看这个半世纪以来令无数学者着迷却又难以跨越的难题 , 不过是科研领域延绵壁垒中的冰山一角 。 而成熟的AI技术与科研领域及多学科交叉融合诞生的“AI for Science” , 无疑给这个难题以及人类在科学无人区的更多探索带来了全新的可能性 。
从2020年开始 , AI for Science进入了集中爆发的发展阶段 , 其中就包括了AlphaFold项目 , 其最新成果——由DeepMind在2021年发布的AlphaFold 2 , 已能成功预测98.5%的人类蛋白质三维结构 , 且预测结果与大部分蛋白质的真实结构只相差一个原子的宽度 , 可达到以往通过冷冻电子显微镜等复杂实验观察预测的水平 。
类似于生命科学领域 , 分子动力学领域也出现了影响力同样显著的DeePMD-kit项目 , 其通过利用机器学习、高性能计算技术与物理建模相结合 , 能够将分子动力学的极限提升至10亿原子规模 , 同时保持高精度 , 大大解决了传统分子动力学中“快而不准”、“准而不快”的难题 。
还有在气象预测领域 , 基于新型算子学习的神经网络模型FourCastNet , 能够将天气预报提速45000倍;在工业领域的流体、结构等PDE方程求解方面 , 也已证实基于数据+物理机理融合的AI方法 , 是解决复杂高维物理问题的突破口……

一言以蔽之 , 无论是今年爆火的AI绘画、AI对话模型ChatGPT等AI应用 , 亦或是大量AI for Science领域的项目案例 , 都足以证明AI正在为各个行业、领域带来了一场范式革新 。 但AI for Science更重要的意义在于 , 其对前沿科研所施加的加速作用 , 将对人类社会和经济发展有着更为基础 , 也更为深远的影响 。
而且 , AI for Science的应用也不仅仅局限于依据已知科学原理来高效验证或试错 , 它也让更多科研人员能够基于AI在更复杂的场景中做探索 , 结合数据反推复杂场景下更为准确的物理规律 。
毫不夸张地说 , 人工智能将成为科学家继计算机之后的全新生产工具 , 同时也正在催化一场新的“科学革命” 。

跨越落地壁垒 , 从深度学习框架出发
但从畅想回归现实 , 人工智能行业想要获得长足发展 , 真正成为人类新的生产工具 , 必然要跨过落地这道关卡 。 而AI for Science所具备的全面、深层次革新价值 , 亦让它面临远高于人们常见AI应用的落地壁垒 。
主要原因在于 , AI for Science的落地应用需要大量的工业场景数据支持 , 以及合理的科学机理等效 , 而且高维、海量的数据也对算力和内存提出了更高的要求 。 总的来看 , 目前AI for Science落地应用的最大壁垒主要体现在数据、平台技术、软硬协同、领域求解能力和优秀研发生态上 。
从数据角度 , 工业场景的数据维度高、格式繁杂且存在孤岛现象 , 同时由于隐私和法律上的一些限制 , 部分数据很难实现公开共享 。 因此如何高效治理这些多特征、多来源的数据 , 解决小样本、零样本数据建模 , 是当前AI在科研领域落地的基础 。
从软硬件协同角度 , AI for Science的发展既离不开深度学习框架的支持 , 也无法脱离底层高性能硬件的支撑 。 一方面 , AI for Science需要更加科学地求解真实物理问题 , 如高阶PDE方程组的求解 , 以及数据+物理机理驱动的模型开发 。 另一方面 , 传统的科学计算中心已广泛支持各类科研任务 , 在其持续增加智能计算硬件能力的同时 , 也需要科学计算/智算硬件与AI开发框架深度整合 , 支持各类新型AI for Science计算场景并达到性能领先 。
从研发生态角度 , AI for Science作为一个充分体现交叉学科的新兴科研范式 , 涉及生物学、分子动力学、计算流体力学、固体力学等学科 , 需要大量的跨领域科研人才 , 且不断扩展的开源生态库要与传统数据集模拟软件、数据集打通 , 才能满足研发人员对开发工具链的需求 , 逐步形成稳定且优质的科研生态 。
为了跨越这些壁垒 , 拉低AI for Science的应用门槛 , 产、学、研各界的科学家、企业们都开始踏上了AI for Science的范式革新+普惠之路 。
在深度学习框架领域 , 国外如TensorFlow、PyTorch、MXNet等AI框架 , 自诞生以来就一直在帮助众多科学家和工程师进行学术研究及工程实现 , 大大促进了AI领域的发展 。 作为国内AI领域的先行者 , 百度也凭借百度飞桨(PaddlePaddle)从2016年打响国产AI框架开源第一枪 , 并一路朝着全面AI技术布局演进 。 如今 , 飞桨平台已能够对各类硬件实现广泛适配 , 并能直接部署到大规模的科学计算集群 , 与已有的科学计算生态紧密融合 , 强力支撑AI for Science方案的部署与应用 。

推荐阅读