王海峰出席第十四届中国电子信息技术年会,详解语言与智能( 四 )
目前,深度学习领域主要有强化学习、监督学习、无/自监督学习三种学习范式,而无/自监督学习可以类比人类学习,是重要的一种学习方式。
自监督学习让基于大规模无标记语料的语言模型得到了长足的发展。近期,Google、百度分别提出了无监督文本的预训练语言模型BERT、ERNIE,将NLP任务的性能提升到新高度。百度提出的基于知识增强的ERNIE 模型,通过建模海量数据中的实体概念等先验语义知识,学习真实世界的语义关系。相较于Google BERT基于字单元的语义建模,ERNIE直接对先验语义知识单元进行建模,并通过海量文本数据学习实体间的语义关系。这种融合知识的语义建模大幅增强了模型语义表示能力,在包括语言推断、语义相似度、命名实体识别、情感分析、问答匹配等自然语言处理各类任务上的多个公开中文数据集上,ERNIE均取得了优于BERT的效果。
依托深度学习技术的发展,语音、图像等感知技术取得了巨大进步,但认知技术的突破,会越来越依赖知识,需要提升对知识和大规模知识图谱的运用。在物理世界、人类社会和网络空间中,汇聚了大量的多元、异构、多模态的数据,百度借助无标签大数据开放域知识挖掘、知识体系自动扩展、知识整合等技术,基于海量数据构建起了超大规模知识图谱。目前,百度拥有世界上最大的多元异构知识图谱,除了包含数亿实体、千亿级事实,能够满足90%用户需求的实体图谱,针对不同的应用场景和知识形态,百度还建立起关注点图谱、行业知识图谱、POI图谱、事件图谱等多种知识图谱。比如在医疗领域,能够从病历等原始文本中,抽取出实体及多元关系,并进行文本结构化,最终构建起医疗图谱,同时结合医疗大数据、医疗认知计算,应用于医疗临床辅助决策服务中。
推荐阅读
- RNG|FPX第一、RNG第十!外媒盘点S赛史上最令人失望的十支队伍
- 花果山|花果山代言人登场!桑杰出席明星赛,心情激动欲冲刺巅峰赛第一!
- |天龙史上最招人嫌的玩法,我愿称之为第十五门派,扫墓派
- 二口女|阴阳师:二口女小心得
- 网游|天龙网游:第十四大门派命名“丛刃”,工资系统重做,副本减负
- tes战队|最新全球战队排行:RNG上升至第二,FPX第一,TES掉到第十
- theshy|三国志战略版s1:零氪玩家五星武将最合理觉醒时间点是游戏第十天
- |前辈,说好的奖励呢?
- 精灵宝可梦|宝可梦大集结英雄攻略 英雄攻略第十六期 幽灵刺客耿鬼参战
- 古月|宝可梦大集结攻略第十四期 移动炮台古月鸟 狄仁杰与黄忠的合体