王海峰出席第十四届中国电子信息技术年会，详解语言与智能( 四 )_“理解和运用自然语言是人工智能的核心

目前，深度学习领域主要有强化学习、监督学习、无/自监督学习三种学习范式，而无/自监督学习可以类比人类学习，是重要的一种学习方式。

自监督学习让基于大规模无标记语料的语言模型得到了长足的发展。近期，Google、百度分别提出了无监督文本的预训练语言模型BERT、ERNIE，将NLP任务的性能提升到新高度。百度提出的基于知识增强的ERNIE 模型，通过建模海量数据中的实体概念等先验语义知识，学习真实世界的语义关系。相较于Google BERT基于字单元的语义建模，ERNIE直接对先验语义知识单元进行建模，并通过海量文本数据学习实体间的语义关系。这种融合知识的语义建模大幅增强了模型语义表示能力，在包括语言推断、语义相似度、命名实体识别、情感分析、问答匹配等自然语言处理各类任务上的多个公开中文数据集上，ERNIE均取得了优于BERT的效果。

依托深度学习技术的发展，语音、图像等感知技术取得了巨大进步，但认知技术的突破，会越来越依赖知识，需要提升对知识和大规模知识图谱的运用。在物理世界、人类社会和网络空间中，汇聚了大量的多元、异构、多模态的数据，百度借助无标签大数据开放域知识挖掘、知识体系自动扩展、知识整合等技术，基于海量数据构建起了超大规模知识图谱。目前，百度拥有世界上最大的多元异构知识图谱，除了包含数亿实体、千亿级事实，能够满足90%用户需求的实体图谱，针对不同的应用场景和知识形态，百度还建立起关注点图谱、行业知识图谱、POI图谱、事件图谱等多种知识图谱。比如在医疗领域，能够从病历等原始文本中，抽取出实体及多元关系，并进行文本结构化，最终构建起医疗图谱，同时结合医疗大数据、医疗认知计算，应用于医疗临床辅助决策服务中。