王海峰出席AICC 2019 分享百度大脑AI大生产平台助力产业智能化成果( 三 )

计算机视觉技术也越来越实用化,形成适用于不同应用场景的技术矩阵,如文字识别(OCR)、图像处理、人脸/人体识别、图像生成、人机交互等。综合应用语音和视觉技术,机器可以自动合成虚拟形象。百度大脑的虚拟形象自动生成技术,可以对语音信号和视频信号进行识别与理解,再通过唇动生成,以及语音、面部和肢体的合成,自动生成一个虚拟形象。

在认知技术上,百度建立了完整的、包含知识图谱、语言理解、语言生成等在内的语言和知识技术体系,构建了世界上最大的多源异构知识图谱,在包含数亿实体、千亿级事实,能够满足90%用户需求的实体图谱的基础上,针对不同的应用场景和知识形态建立起关注点图谱、行业知识图谱、POI图谱、事件图谱等多种知识图谱。例如视频理解知识图谱,百度大脑结合视觉、语音和自然语言处理技术解析多模态信息,并与知识图谱的相关实体建立关联,通过计算和推理,得到视频内容的结构化语义表示,从而精确解析一部视频中出现的人物及其关系、音频、事件、主题等信息。

在自然语言处理方面,百度发布了基于知识增强的ERNIE 模型,通过建模海量数据中的实体概念等先验语义知识,学习真实世界的语义关系。这种融合知识的语义建模大幅增强了模型的语义表示能力,在共计16个中英文自然语言处理任务上超越了谷歌BERT和XLNet, 取得了SOTA效果。百度的语言与知识技术已经广泛应用于机器同传、智能写作等产品中。在机器同传领域,百度综合联合词向量解码、语篇翻译模型等新技术,实现高准确、低时延的机器同传,并发布了语音到语音的机器同传系统:DuTongChuan(度同传),翻译效果极具竞争力。

推荐阅读