技术|百度翻译公布十年成绩单:翻译质量提升30个百分点

实现跨语言无障碍沟通 , 是人们长久以来的梦想 。 自2011年上线首款产品至今 , 百度翻译已经走过十个年头 。 12月22日 , 百度翻译首次公布十年成绩单:
十年来 , 从基于互联网大数据的多策略融合机器翻译到率先发布大规模神经网络翻译系统 , 从中英翻译到支持200多种语言互译 , 从单一文本翻译到融合语言、语音和图像的跨模态翻译 , 以及翻译APP、AI同传、开放平台等全面丰富的产品矩阵;十年来 , 翻译质量大幅提升30个百分点 , 领域翻译准确率90%以上 , 语言数量扩大了100倍 , 翻译方向增长了20000多倍 , 日均翻译量超千亿字符 , 服务50多万企事业单位和个人开发者 , 较十年前增长了130倍 。
百度翻译始终把握并引领技术和产业发展趋势 , 推动机器翻译技术和产业的跨越式发展 。 百度翻译的年度翻译热词 , 也折射着中国对外沟通交流的时代缩影 。
【技术|百度翻译公布十年成绩单:翻译质量提升30个百分点】技术创新层面 , 2015年5月 , 百度发布全球首个互联网神经网络翻译系统 , 攻克多项国际公认技术难题 , 世界范围内率先实现了神经网络机器翻译的大规模产业应用 。 领先谷歌16个月 , 引领机器翻译产业化实现了从统计机器翻译(SMT)到神经网络机器翻译(NMT)的跨越 。
历经十年核心技术攻关 , 翻译质量提升了30个百分点;在新闻、科技文献等领域翻译上 , 翻译准确度达到90%以上 。 相关成果斩获国家科技进步二等奖, 北京市科技进步一等奖等多项奖励 。
语言数量层面 ,百度翻译从上线之初支持中、英两种语言互译 , 到全球率先实现200种语言互译 , 十年间支持的语言数量增长了100倍 , 翻译方向增长了20000多倍 , 覆盖全球99%的人口 , 让人类自由交流的梦想照进现实 。 这背后得益于百度翻译克服语言资源稀缺、分布不均等难题 , 建立了多语言翻译统一框架 , 提升多语言翻译质量和效率 , 并大幅降低部署成本 。 在“一带一路”倡议提出、RCEP自贸协定签署、国家强调促进国内国际双循环的时代背景下 , 百度的多语言翻译 , 促进语言互通 , 助力我国的高水平开放 。
翻译形式及模态层面 , 十年间 , 百度翻译融合自然语言处理、语音、计算机视觉等AI技术 , 从最初支持文本的单一模态翻译 , 扩展为语音翻译、拍照翻译、视频翻译等跨模态翻译 , 翻译场景不断丰富 。
其中最典型的场景就是机器同传 。 百度率先提出了“语义单元”驱动的机器同声传译模型 , 解决了翻译质量和同传时延难以兼顾的难题 , 研发了高质量、低时延的机器同传系统 , 翻译准确率超过80% , 平均时间延迟3秒 , 媲美人类同传 。 成功应用于中国国际服务贸易交易会、中国国际进口博览会等大型会议 。

推荐阅读