美国能源部|美国能源部投入资金,用于研发可进行数据分析的机器学习工具

[据GCN网站2021年3月26日报道]为帮助研究人员更好地分析从实验中收集到的大量数据 , 美国能源部投入2900万美元 , 用于研发新的机器学习工具以及先进算法 。 这些工具与算法将给多个科学领域带来诸多好处 , 并为各种纷繁复杂的问题提供尖端的解决方案 。
目前 , 在通常情况下 , 科学设施、仪器与高性能计算模拟会产生万亿字节的数据 。 因此 , 传统的分析方法很难高效地解译这些数据 。 而更先进的机器学习工具可以识别人类无法发现的数据模式 , 速度比传统的数据分析技术还快了数千倍 。
美国能源部长詹妮弗·格兰霍姆表示:“计算机或显微镜等研究工具的功能愈发强大了 , 它们所能收集的数据也越来越多 。 在这种情况下 , 科学家们就需要新的能力来弄懂这么多数据 。 先进的分析方法能帮助他们充分发掘出潜藏在这些数据背后的无限可能 , 这样的话 , 我们甚至还能应对那些最为复杂的挑战 。 ”
促使美国能源部研发这些工具与算法的因素有很多 。 第一 , 新兴的科学计算技术(例如:高性能计算的结合、大量数据以及愈发异构的体系结构上的人工智能/机器学习技术)需要新的分析技术 。 第二 , 人们使用那些可从大量训练数据中进行隐式学习的神经网络的频率越来越高 , 这或将改变应用程序的编程方式 。 最后一个因素是——要想充分挖掘人工智能/机器学习在科学发现上的全部潜力 , 就需要用到新的方法 。
根据“数据密集型科学机器学习与分析”项目 , 高达2100万美元的资金将集中用于研发会带来重大影响的机器学习方法 。 该项目的主要目标是研发可靠、高效的人工智能/机器学习工具来管理大量、复杂以及多模态的科学数据 。
根据项目公告 , 该项目的目标不是逐步扩大当前的研究范围 , 而是探索一些非常规的方法 , 以解决人工智能/机器学习给科学推理与数据分析带来的诸多挑战 。 可行的方法或将具备“异步计算、混合精度算法、压缩感知、耦合框架、图形与网络算法、随机化、蒙特卡罗方法或贝叶斯方法、可微分式编程或概率规划或其他相关方面” 。
而剩下的800万美元则用于研发“具备扩展性科学的随机算法”项目 , 该项目旨在让研究人员更容易理解大型数据集 。 它的目标是探索如何使用“随机化”算法 , 这种算法使用随机抽样的方式来简化超大数据集以进行分析 , 比当前的方法还要准确得多 。
在这种情况下 , 美国能源部表示 , 其正在寻找一种算法 , 能够“在内部算法决策中 , 采用某种形式的随机性 , 能够更快地解决问题、更好地对算法进行扩展、增强可靠性或稳健性抑或是对科学计算性能做出其他改进” 。
研究人员或将研究的课题包括:
(1)高计算与通信复杂度以及高效算法的研发 。
(2)高数据维度、科学仪器与用户设施数据的稀疏表示 。
(3)算法扩展性更好 , 可用于低功耗、高性能边缘计算 。
(4)提高算法的可靠性以及对噪声的稳健性 。
【美国能源部|美国能源部投入资金,用于研发可进行数据分析的机器学习工具】佛罗里达州众议员达伦·索托表示 , 这项投资“将推动实现科学突破 , 帮助美国分析并解决本国目前面临的一些最大挑战 , 比如:气候变化、优质医疗服务的新疗法以及网络安全 。 ”(国家工业信息安全发展研究中心朱航琪)

    推荐阅读