用户|百度AI赋能罗技背后,语音输入产业走过的长征路


用户|百度AI赋能罗技背后,语音输入产业走过的长征路
文章图片

罗技和百度AI这对跨界组合 , 正在重新定义语音输入 。
4月13日 , 全球著名云周边设备供应商罗技推出了一款“语音鼠标” , 在百度AI的优先赋能下 , 用户点击鼠标上的语音键就能进行语音输入 , 不仅在PC端实现了中英文自由夹杂语音输入 , 还可以实时进行多种语言的语音翻译 。
【用户|百度AI赋能罗技背后,语音输入产业走过的长征路】其实类似的概念并非是罗技首创 。 早在两年多前就出现了主打“语音输入”的键鼠类产品 , 诸如“智能鼠标”的概念也被多家品牌借用 , 但无一成为现象级的爆款产品 , PC端语音输入的用户习惯也无从谈起 。
百度AI为何要在这个时候进行跨界 , 并选择牵手罗技这样的市场领导者 , 背后到底隐藏了什么样的野心?
01 知易行难的语音输入 人类对语音输入似乎有着天生的执念 。
早在2000年前后 , 个人电脑还属于少数人的玩物 , IBM推出的软件工具ViaVoice就开始风靡全球 。 按照IBM的设想 , ViaVoice将在人与机器之间担当“翻译” , 只要一句话就能编排文本格式、控制桌面、操作程序、发送Email……
虽然IBM解放双手的革命未能如愿 , 却为整整一代人种下了“动口不动手”的交互理念 。 比如在2018年的时候 , 罗永浩推出了宣称是“下一代个人电脑”的TNT , 试图将IBM讲述的“美丽童话”从传说变成现实 。 遗憾的是 , 老罗的TNT乃至后面推出的“智能鼠标” , 都和ViaVoice一样成了被怀旧的对象 。
为何语音输入一度成了悬而未决的世纪难题?可以找到三个直接相关的痛点 。
一是连续语音输入的“尴尬” 。
语音输入并非没有落地的场景 , 和智能音箱的语音交互、聊天时的语音识别等等 , 可以说是屡见不鲜的场景 , 然而切换到办公时长篇幅的连续输入 , 现有的语音识别模型常常出现“宕机”的问题 。
时间追溯2015年 , 注意力模型已经是语音识别的主流技术 , 在语音识别的准确率方面有了突破性的进展 , 但注意力模型大多是基于整句的建模 , 通过机器学习选择和当前建模单元最匹配的特征 , 导致句子越长识别难度就越大 , 出错的概率也就越高 , 同时还伴随着较长的用户等待时间 。

用户|百度AI赋能罗技背后,语音输入产业走过的长征路
文章图片

二是远场语音识别的不足 。
网上流传着使用TNT工作站的段子:想要在办公室里用语音操作TNT , 先要提前喊一声“安静” , 让周边的同事自动进入到消声状态 , 不然TNT可能不知道是谁在说话 , 语音识别的准确率让人堪忧 。
背后牵涉到的是远场语音识别技术 , 如果目标声源距离拾音器比较远 , 将导致目标信号衰减严重 , 加上嘈杂的外部环境制造了太多的干扰信号 , 最终导致信噪比较低、语音识别性能比较差 。 我们已经习惯在手机上对着麦克风说话 , 但不可能以趴在电脑上的姿势对着屏幕进行语音输入 。
三是语言混合输入的难题 。
即使不考虑长句子连续输入和远场识别的问题 , 日益进化的语言习惯也一度制约语音输入的普及 。 就像很多人在工作中常常出现中英词汇混用的情况 , 或者有时候飚一句方言 , 都可能难倒识别工具 。
尽管一些语音识别工具推出了多种语言的识别模型 , 可在过去很长一段时间里 , 需要用户先手动切换至想要识别的语言 , 比如你想要用四川话进行语音输入 , 先要到输入法的设置中将语言设定为四川话 , 说普通话的时候再去切换回来 。 不仅进一步增加了用户的学习成本 , 体验也不尽如人意 。
在种种待解痛点的制约下 , 语音输入的想象固然美好 , 但前提是进行一场技术上的长征 。 可以佐证的是 , 微软刚刚以197亿美元的价格收购了Siri背后的语音技术玩家Nuance , 计划将Nuance的语音识别技术和旗下其他产品整合 , 以接棒在技术和场景上落后而被迫默默退场的Cortana 。
02 百度AI的三步走战略 而在语音技术的赛道上 , 百度已经奔跑了十年 。
2010年百度正式成立了语音团队 , 主要研发百度语音识别、语音合成等在内的一系列核心技术 , 并逐步将百度的语音技术应用于小度智能音箱、百度输入法、小度车载助手、百度智能语音呼叫中心等产品 。
不过在PC端语音输入的话题上 , 百度AI在很长时间里并未追逐“智能硬件”的风口 , 默默制定了语音技术的三步走战略:
第一阶段 , 语音识别算法的持续打磨 。
为了解决连续语音输入的痛点 , 百度AI的工程师们在注意力模型的基础上 , 创新性地提出了流式多级截断注意力模型SMLTA , 利用CTC算法对连续语音流进行截断 , 然后对每一个小段的语音进行建模 , 把原来整句的建模 , 变成了局部语音小段的建模 。 这样用户话音一落就可以拿到识别结果 , 保证了最佳的用户体验 。
同时百度AI还针对语言混合输入进行了算法优化 , 罗技推出的“语音鼠标”VOICE M380就支持8种语言的语音翻译 , 首次通过罗技鼠标在PC上实现了中英文自由夹杂语音输入 , 以及粤语、四川话、东北话、河南话等7种方言免切换混合输入 。

用户|百度AI赋能罗技背后,语音输入产业走过的长征路
文章图片

第二阶段 , 一体化的端到端建模技术 。
市场上常见的远场语音识别技术 , 往往将麦克风阵列作为拾音器 , 然后利用多通道语音信号处理技术增强目标信号 。 这种先语音增强后语音识别的思路 , 在一定程度上提高了识别的准确率 , 但增强目标和优化目标可能并不一致 。
百度AI的思路是“语音增强和语音声学建模一体化”的端到端建模 , 并提出了基于复数CNN的远场端到端建模方案 , 利用复数CNN 网络挖掘生理信号本质特征的特点 , 直接对原始的多通道语音信号进行多尺度多层次的信息抽取 , 避免了由于定位出错而导致识别准确率急剧下降的问题 , 最终远场语音识别的错误率降低了30%以上 。
第三阶段 , 自研芯片加速产业化落地 。
语音输入的隐形制约还有算力和功耗 。 在语音技术从云端竞争向芯片端延伸的趋势下 , 算力直接关系着用户体验 , 但传统芯片的平均功耗在1W以上 , 算力和功耗的两难 , 进一步制约了语音输入的应用场景 。
在提出端到端的一体化方案后 , 百度AI将目光瞄向了芯片端 。 在2019年发布了首款针对远场语音交互研发的鸿鹄芯片 , 通过端到端的软硬一体化框架 , 将所有语音交互任务集中到一颗低功耗语音交互芯片上 , 提取的语音特征直接在云端进行高精准识别 。 目前鸿鹄芯片的平均功耗只有100mw , 完全满足3C产品0.5W的待机标准 。
和智能语音同时进化的 , 还有百度AI的机器翻译 , 过去十年中在大规模产业化机器翻译模型、海量翻译知识获取、多语言翻译统一框架、机器同声传译等方面进行了系统而深入的研究 。 特别是基于神经网络的多语言翻译统一框架 , 在全世界范围内首次实现了203种语言的互译 。
百度AI围绕智能语音和机器翻译的战略布局佐证了这样一个事实:技术赛道并非是闭门造车 , 百度AI对罗技的优先赋能 , 正是精准把握产业化需求的体现 。
03 产业化的大航海时代 消除了用户体验上的痛点 , 百度AI开启了语音技术的产业化进程 。
百度AI和罗技跨界推出主打语音技术的“鼠标” , 不失为一次有示范效应的练兵 。 正如前面所提到的 , 从IBM的ViaVoice开始算起 , 语音输入在PC上的应用已经持续了20多年 , 期间诞生了形形色色的软硬件产品 , 但未能改变“键鼠”的市场地位 , 大多数新奇的产品最终被人们选择性遗忘 。
百度AI和罗技则为语音输入开启新的篇章 。
一方面 , 目前百度AI的中文语音识别率已经达到98.6% , 背后是人机交互效率的再次刷新 。 比如大多数打字员每分钟输入的字数在80到200之间 , 而百度AI的语音输入在实验室环境中可以达到每分钟400字 , 何况语音输入的门槛相对更低 , 小孩子、老人、视觉障碍人群等特殊人群也可以使用 , 人机交互的成本和效率都在被拉平 。

用户|百度AI赋能罗技背后,语音输入产业走过的长征路
文章图片

另一方面 , 百度AI和罗技的跨界为语音输入找到了新的应用场景:除了单纯的文字输入场景外 , 还可以用于会议、演讲、采访等场景下的文字记录;语音翻译功能紧紧贴合了当前办公场景中 , 和外国同事、客户等跨语言沟通交流的需求……相较于20多年前替代键盘的单一诉求 , 语音输入的价值正越来越多元 , 应用场景也越来越广泛 。
进一步深挖的话 , 百度AI和罗技的跨界不仅为语音输入的“梦想”画了一个句号 , 正式推出的“语音输入服务” , 也为智能语音的产业化提供了新的思路 。
语音技术之所以被频频聚焦 , 原因在于语音正在逐步改变固有的人机交互习惯 , 并且已经在家庭、车载等场景中被验证 。 正如鼠标、触摸屏等曾经引发的浪潮 , 语音交互大概率将催生出新的生态 , 而那些无法适应新趋势及时迭代进化的产品 , 不排除一步步被市场所淘汰的可能 。
于是“+AI”渐渐成了行业的热门话题 , 几乎所有的行业都在思考利用AI降本增效或转型升级 。 百度代表的人工智能领头羊也逐渐意识到:人工智能的使命不是颠覆或重构一个行业 , 而是帮助行业找寻新的增长动能 。
对应的动作就是百度大脑在6.0时的升级 , 作为百度AI多年技术积累和产业实践的集大成 , 百度大脑被定义为中国智能经济的基座 , 试图通过软硬一体的能力输出 , 避免合作伙伴们一次次重复造轮子 。 其中语音能力恰是百度大脑的核心优势之一 , 每天的调用量早已超过155亿次 。
百度AI对罗技软硬一体的优先赋能 , 和百度大脑加速产业智能化升级的战略不无关系 。 不同于行业中常见的兜售算法形式的合作 , 百度AI针对罗技桌面级的场景进行了单独的优化和适配 , 并选择以软硬一体的方式帮助罗技打造真正的杀手级产品 , 在产品力和用户体验上形成独一无二的技术壁垒 。
而当罗技这样的行业领导者主动拥抱百度AI , 也在某种程度上预示着智能语音的产业化开始进入大航海时代 。
04 写在最后 百度AI x 罗技的范式 , 为智能语音的落地撕开了一道口子 。
可以预见的是 , 鼠标绝不会是二者跨界的唯一产品 , 后续百度AI的智能语音将逐步兼容更多的罗技产品;同时罗技也不会是唯一加入到“+AI”行列的品牌 , 语音技术在各行各业的应用落地进程正在加速 。
借用一句古话来说:“旧时王谢堂前燕 , 飞入寻常百姓家” 。 在百度AI持续对外赋能的姿态下 , 我们的生活正逐步被AI改变 。

    推荐阅读