百度翻译|百度翻译十年：语种全球首破200大关，质量提升30个百分点( 二 )_商标|天眼查

那么百度翻译，是如何通过十年时间进阶到如此的呢？
百度翻译进化之路我们不妨先来简单回顾一下机器翻译的发展。
“机器翻译”这件事，早在1946年第一台计算机ENIAC诞生之后的一年，便由信息论先驱、美国科学家Warren Weaver提出：

文章插图
而至此之后，机器翻译先是进入到了“基于规则方法”的时代。
这个方法本质上将专家的翻译知识采用规则形式写下来，然后采用软件的方式利用翻译规则来实现机器翻译过程。
但这种方法的缺点也是显而易见，那就是构建成本、维护成本过高，动辄还要将整个程序重写。
而到了上世纪80年代末90年代初，IBM提出了另一种机器翻译的方式——统计机器翻译，这便开启了机器翻译时代的第二个大门。
与基于规则的机器翻译不同，统计机器翻译不再需要从人工书写翻译规则，而是转换到了数据驱动的机器学习方法。
最大的优点在于机器可以按照人工定义的特征进行“自学”，而之前的基于规则方法，需要人类专家手把手的。
百度翻译上线之初，主要用的就是基于统计机器翻译的方法，同时研发了融合已有方法的多策略模型，以便应对互联网上复杂多样的翻译请求。
2010年百度翻译自建了研发团队，仅时隔一年，便上线了网页版。
但此时统计机器翻译已经诞生了20多年时间，其发展的瓶颈也是越发明显——在经历了基于短语的方法、基于句法的方法等一系列技术迭代之后，统计机器翻译逐渐遇到天花板，翻译质量难以进一步提升，尤其在长距离调序、译文流畅度方面。
即便摸石头过河，也要身先士卒到了2013年，一篇名为《Recurrent Continuous Translation Models》的研究横空出世。
而伴随着研究人员们所提出的新方法，机器翻译也就步入到了神经机器翻译（NMT）时代。
虽然这种神经网络的方法确实是一种理想的“替代品”，但非常现实的问题也摆在百度翻译团队的面前。
那就是“无从参考”，建模的方式完全是新的，没有经验可循。
再则以当时的技术水平，通过神经网络模型来做机器翻译还是一件非常“伤资源”的事。
翻译效果提升的代价，就是消耗大量的计算资源，往往翻译一个句子就得花个十几秒的时间。
时间拉到2015年，即便是在这种大背景的情况下，百度翻译团队依旧做了一个“敢为人先”的决定：
上线基于神经网络的机器翻译。

文章插图
在技术方法上，百度翻译团队针对NMT所存在的缺点，将上一代统计机器翻译的特性融入了进来。
具体而言，就是将n-gram语言模型、短语表特征、长度特征等，融合到NMT模型中。
实验结果表明，这种“新旧结合”的方法，显著提升了NMT在中英互译方面翻译的性能。
而从立项到发布全球首个互联网神经网络机器翻译系统，百度翻译仅仅花了不到半年的时间。
这个节奏要比谷歌翻译提早了整整16个月的时间。
然而百度翻译却并不满足于此。

文章插图
△ Bruno Pouliquen，世界知识产权组织机器翻译负责人，MTSUMMIT-2017
还要做更多方向上的“领头羊”为了能够进一步翻译出更多的语言，百度翻译还提出了《Multi-Task Learning for Multiple Language Translation》。

文章插图
在这项研究中，百度翻译提出了共享编码器的多任务学习神经网络翻译模型，建立了基于神经网络的多语言翻译统一框架。

百度翻译|百度翻译十年：语种全球首破200大关，质量提升30个百分点( 二 )

推荐阅读

如何找寻自我

缝纫机调线器怎么安装平车方法如何

强组词强字组词

火笋鸡翅的做法（增肥食谱）

闺女生日快乐祝福语朋友圈

LV请来潮牌设计师做艺术总监，看中的是啥

老虎豆怎么做好吃老虎豆图片怎样弄来吃

暖气有流水声是什么原因

皮球是什么体

手机怎样开通QQ空间

男生发mua说明 mua是什么意思

手指盖凹陷怎么回事

对自己的生活失去掌控咋调整

小米10s怎么没有月亮模式

我想找个偏僻的地方搞养殖！有没有推荐的地方？

南京养老金认证上门服务怎么申请南京市养老金认证

如何评价猪场阉割猪？

最后一个字是豹的成语

泰山散酒怎么样

猫发情的声音(猫发情的叫声)