生物|「百图生科」再添虎将,国际机器学习大牛宋乐加入李彦宏生物计算军团

机器之心报道
机器之心编辑部

近日 , 百图生科首席 AI 科学家宋乐接受了机器之心专访 。 作为世界知名机器学习专家 , 他领导着百图生科 AI 算法团队 , 为独具特色的生物计算引擎研发提供技术动力 。 他眼中的生物计算未来 , 在于「高通量干湿实验闭环」 。
继 ICML 2021 时间检验论文奖得主 Max Welling 宣布即将加入微软主攻分子模拟后 , 国际机器学习专家宋乐博士也于近日被任命为百图生科首席 AI 科学家 。
不出一个月 , 两位机器学习大牛相继「下海」 , 投身 AI+生物计算 , 为人工智能在生化和制药领域掀起的热浪再添波澜 。
宋乐博士是著名的机器学习和图深度学习专家 , 曾任美国佐治亚理工学院计算机学院终身教授、机器学习中心副主任 , 阿联酋 MBZUAI 机器学习系主任 , 蚂蚁金服深度学习团队负责人(P10)、阿里巴巴达摩院研究员 , 国际机器学习大会董事会成员 , 具有丰富的 AI 算法和工程经验 。

生物|「百图生科」再添虎将,国际机器学习大牛宋乐加入李彦宏生物计算军团
文章图片

宋乐博士与同事合著的论文 Syntax-Directed Variational Autoencoder for Molecule Generation 获得 NIPS2017 研讨会「分子和材料机器学习」最佳论文奖 , 他在接受佐治亚理工学院采访时表示 , 相关工作的计算机程序已被深度学习顶会 ICLR 2018 接收 。 图片来源:cc.gatech.edu
【生物|「百图生科」再添虎将,国际机器学习大牛宋乐加入李彦宏生物计算军团】自 2008 年起 , 宋乐博士在 CMU 从事生物计算相关的研究 , 利用机器学习技术对靶点挖掘、药物设计取得了一系列突破性成果 , 获得 NeurIPS、ICML、AISTATS 等主要机器学习会议的最佳论文奖 。 社区服务方面 , 他曾担任 NeurIPS、ICML、ICLR、AAAI、IJCAI 等 AI 顶会的领域主席 , 并将出任 ICML 2022 的大会主席 , 他还是同行评议期刊 JMLR、IEEE TPAMI 的副主编 。
人工智能和机器学习已经证明能在药物发现等过程中起到至关重要的加速作用 。 随着新冠肺炎疫情在世界范围内的流行 , 用尽可能短的时间将安全、可靠的药物和疫苗推向市场 , 比以往任何时候都更加重要 。
7 月 30 日 , 成立不到一年的百图生科(BioMap)宣布完成上亿美元的 A 轮融资 , 这家由李彦宏牵头发起并亲任董事长、原百度风投 CEO 刘维作为联合创始人兼 CEO 掌舵的「中国首家生物计算驱动的生命科学平台公司」向外界放出雄心:
「致力于通过长周期、大规模的投入 , 将先进AI技术与前沿生物技术融合创新 , 打造新型多组学检测分析、高通量实验模拟、智能化分子发现引擎 , 加速新型药物和诊断产品的研发 , 造福人类健康 。 」
宋乐博士表示 , 他选择加入百图生科 , 除了从技术上说 , AI+生物计算已经到达了一个爆发点 , 可以切实去做一些事情 , 更主要是对「干湿实验闭环的模式构建非常有契合度」 。
他在接受机器之心专访说:「以前在学校做AI模型预测 , 很难有高通量多轮湿实验的闭环验证和数据补充 , 很难让 AI 模型发挥关键价值 。 百图生科规划的干湿一体化智能实验平台 , 基本上国内没有其他 AI 制药公司有 , 所以非常吸引人 。 」
「干湿实验闭环后 , 如何用 AI 的方式来更好地规划实验 , 预测一些更加有可能成功的实验 , 减少实验次数 , 一两年就会看到一些成果 。 」
把实验室仪器连入计算系统 构建干湿闭环模式 问:您为什么选择加入百图生科?
我是从 2008 年开始做AI在生物信息处理这方面的工作 , 当时的一个挑战是数据不多 , 除了基因序列数据之外 , 其他的数据比较少 , 很难用 AI 模型做出预测效果会比实验验证的更好 。
现在情况不同了 。 首先 , 生物数据量越来越大 , 比如说蛋白质的序列数据已经有上亿条 , 现在也能够对单细胞做基因表达的测量 。 第二是计算能力的提升 。 第三是 AI 算法能力的积累 , AI 和制药领域出现了更多新的模型和方法 , 能够产生更准确的预测 。
结合以上三点条件 , 至少从技术的角度来说 , 是到了一个点 , AI 可以帮助制药做得更好 。 未来 , 可测量的生物特征数量会越来越多 , 测量数据的成本也会不断下降 , 生物数据会越来越多 , 相信在未来 10 年里「AI+生物计算」都会是一个非常好的方向 。
选择百图生科 , 除了计算资源的实力外 , 更主要是对于干湿实验闭环的模式构建 , 我们非常有契合度 。 基本上国内没有其他AI制药公司有这个模式 , 所以非常吸引人 。
问:能具体介绍「干湿实验闭环」的模式吗?
以前在学校做 AI 模型预测 , 很难有高通量多轮湿实验的闭环验证和数据补充 , 很难让 AI 模型发挥关键价值 。 AI 模型主要缺陷在于:它是一个模型 , 本身有一些参数 , 没有通过足够实验数据校正和检验 , 跟现实有差距 , 不能取代真实数据的验证 。 只有把 AI 模型和湿实验有机结合 , 才能真正解决这个问题 。
现在我们平台设计时 , 同时会考虑需要用什么样的实验手段 , 例如高通量细胞视觉平台 , 单细胞测序平台 , 或高通量抗体和蛋白质亲和力实验平台 , 分别对应涉及到要整合乃至自主研发什么先进仪器 。
平台将通过主动学习或强化学习的方式 , 通过 AI 模型规划 , 有选择性地做实验 , 形成「干湿实验闭环验证」 , 未来通过 AI 大脑控制实现全自动实验室 。 这是这个行业未来的方向 。
我们的愿景是 , 把实验室仪器都连入一个操作系统 , 未来实验都是 AI 模型在后面规划 , 实验员能够腾出手来做更高层次、更有趣、更有创造力的事情 。
问:构建这种干湿一体化实验平台有什么门槛?
首先是人才 , 需要有一个非常交叉的团队 。 既有能够做实验、对生物信息、对制药、对前沿生物技术有理解的人才 , 也要有经验丰富的系统工程人才 , 以及 AI 算法人才 , 因此我们招人也是朝这个方向去招的 。
其次是强大的硬件支持 , 包括实验设备以及计算资源 , 以及把这两种资源整合在一起的能力 。 如果一开始没有将湿实验的硬件以及计算资源规划在一起 , 后期是很难再调整的 。 如果没有足够多的计算资源支持 , 一些大的模型 , 比如蛋白质的预训练 , 三维结构预测模型就比较难应用起来 。

生物|「百图生科」再添虎将,国际机器学习大牛宋乐加入李彦宏生物计算军团
文章图片

用模型做预测来进行实验规划 , 需要对数据的拟合、调参 , 涉及到云计算等计算资源支持 , 而百图生科拥有百度强大的算力支持 。 图片来源:capacitymedia
生物人才+算法人才融合 侧重大分子药物研发 问:百图生科希望用 AI 解决药物研发的什么问题 , 侧重哪些环节?
药物研发过程一般分为三个阶段 , 第一阶段主要是发现一些潜在靶点和药物 , 然后通过一些比较可控的细胞实验或是其他生化实验 , 去发现有效的方向 。 第二阶段是更进一步的动物等验证实验 。 第三期是人类的临床实验 。 百图生科会以第一阶段为核心发力点 , 发现候选靶点和药物 , 并进行类器官等先进细胞验证 。
这个过程从计算机的角度来说 , 实际上是一个组合优化的问题 。 传统药物研发的难点在于 , 搜索空间太大 , 从计算角度、实验的角度都比较难对整个空间进行筛选 。 人工智能在药物发现方面的主要价值在于 , 怎样根据历史或者实验数据 , 构建一个 AI 模型 , 能够很快地在巨大的空间里把最有可能成药、最有效的药物空间缩小 , 比如从 10 的 60 次方缩短小到 10 的 5 次方 , 之后就有可能用一些更加精细的计算方式或实验手段去验证这些药物的性能 。
生物制药包含小分子药物和大分子药物 , 现在国内外主要聚焦于 AI 在小分子制药方面的应用 , 我们侧重于大分子药物研发 。 具体说 , 首先是利用人工智能进行靶点发现 , 主要是基于知识图谱 , 比如图神经网络去整合知识图谱信息 , 以及自有多组学实验数据、分子影像数据去预测靶点 。 在发现靶点之后 , 利用 AI 技术设计抗体药物 , 比如对蛋白质序列做预训练模型 , 针对一些靶点去设计一些蛋白质的序列和抗体的序列 , 做到更好的亲和力 , 更加稳定 , 对靶点起到更好的作用 。 最后 , 完成湿实验闭环验证 。
问:能否透露百图生科目前的药物探索方向 , 有哪些已经在落地的项目?
近期 AlphaFold 2 预测蛋白质空间结构的成果引发了广泛的关注 , 实际上百图生科也在利用自有抗体亲和力预测、结构预测等算法开展独特的药物设计项目 。 例如研究胃癌、食道癌等亚洲人群高发的肿瘤疾病 , 进行靶点发现和抗体药物设计 , 现在还处于早期阶段 , 但实际上算法已经迭代多次了 , 目前靶点发现的算法预测准确度相较现有最好的文献方法已经有了 10% 以上的提升 , 进一步还会进行湿实验的验证 。
日前 , 百图生科投资 10 亿元设立的「免疫图谱卓越计划」首批项目招募正式启动 , 我们计划联合前沿的生物技术专家、药物开发专家和临床专业团队 , 打造一个国际领先的免疫图谱 , 为更精准地探寻癌症、自免、纤维化、衰老等疾病的复杂免疫规律 , 更高效率的靶点挖掘和药物设计提供可能 。 目前已收到来自中科院、协和、北大、清华、复旦等系统的近百个临床和研究团队的申报 。

生物|「百图生科」再添虎将,国际机器学习大牛宋乐加入李彦宏生物计算军团
文章图片


生物|「百图生科」再添虎将,国际机器学习大牛宋乐加入李彦宏生物计算军团
文章图片

2021 年 5 月 , 百图生科宣布出资 10 亿元设立「免疫图谱卓越计划」 , 并与 30 余家业内领先技术企业签订战略合作协议 , 基于百图生科生物计算核心引擎 , 共同为免疫图谱绘制提供技术能力支持 。 来源:百图生科
问:主流药企也在使用人工智能技术 , 与百图生科的 AI 驱动制药有何差异?
首先 , 主流药企也有生信、统计、数据分析的人员 , 但是湿实验团队和 AI 团队是分开的 , 两者的工作相对独立 , 后期通过交流再各自调整方向 。 百图生科希望两者能够形成一个闭环系统 , 把 AI 模型和实验平台统一规划 , 协同工作 , 一起把药物发现向前推进 。
这是一个新兴的行业 , 没有一个成熟的解决方案可以直接套用 , 具有湿实验和药物发现知识的人对 AI 了解少 , 具有 AI 背景的人反之亦然 , 因此需要有对AI比较了解 , 而且也愿意去深入理解生物问题的人 , 才能核实模型 , 利用好这些数据去解决这里面涉及到的问题 。
以我们现有的两个最小可行性产品为例——靶点发现和药物设计 , 我们会动态地将生物和AI算法人才 , 组合在一起去推进某一个管线或产品的研发 。 在这个过程中 , 一方面生物人员可以通过和算法人员的合作 , 更好地判断现有算法能够提供什么;算法人员可以从生物人员处了解到基于现有问题 , 如何去适配或者创造一个新的模型 , 从而更好解决问题 。 我认为这是把生物人才、算法人才放在一起制药的一个优势 。
其次 , 主流药企研发以人的假设和已有实验能力为主导 , AI 比较偏辅助型工具 , 所以能探索的潜在的靶点空间或者制药空间就会受到已有研发积累的较大限制 。 因为人可以考虑的方面 , 以及现在能够分析的维度复杂度 , 与今天快速增长的高维生物数据比起来实际上非常有限 。 用人工智能方法就可以把更加复杂的数据综合考虑 , 能够看到更高维度的信息 。
基于此 , 百图生科也希望能够发挥 AI 模型和计算资源优势 , 结合自产的实验数据和医学、制药等的专业领域知识 , 发现新的药物靶点 。 在与药企合作层面 , 也可以结合制药企业未被充分挖掘的某些专业数据 , 发现数据之间的更多关联 , 从而联合进行靶点发现和管线开发 , 成为传统药企非常有力的合作伙伴 。 未来 , 我们希望利用 AI 挖掘更多药物信息 , 也包括通过开放自有免疫图谱查询 , 为这方面的专家、生态企业提供更多有价值的工具 。

    推荐阅读