识别|解放千万智能家居,度家给出语音控制的最优解


识别|解放千万智能家居,度家给出语音控制的最优解
文章图片

什么是智能?
可以找到的回答有很多 , 不过近几年逐渐有了统一的答案 。
当你想要知道明天的天气情况时 , 可以直接问家里的智能音箱;当你开车时想要切换导航路线 , 可以直接说出新的目的地;当你感觉空调不够凉爽的时候 , 也可以直接告诉空调把温度调低一些……
智能化的标准或许很广泛 , 但语音交互已经是最基础的门槛 。
刚刚结束的2021云智技术论坛上 , 百度智能云将不小的篇幅留给了度家语音语义一体化平台 。 在语音能力逐渐成为“智能”的代名词 , 并升格为IoT产品标配的大环境下 , 百度智能云所谋为何?
01 技术的幸存者偏差 和机器“对话”似乎并不是什么新概念 。
早在上世纪80年代 , 语音识别就开始走出实验室有了商业应用 , 尽管机器还只能识别单个词汇 , 识别准确率也维持在相当低的水准 , 却未能阻挡人们的尝鲜心态 , IBM的Via-vioce系统、微软的Whisper系统、英国剑桥大学的HTK系统等先后诞生 。
2010年是语音识别的转折点 , 一些学者开始将深度学习技术引入到语音识别领域 , 语音识别的准确率不断刷新纪录 。
到了2015年末 , 百度语音识别的准确率首次达到90% , 等同于人类速记同样一段对话的水平 。 Google在2017年6月宣布语音识别的准确率达到95% , 短短10个月后就被百度以97%的准确率超越 。

识别|解放千万智能家居,度家给出语音控制的最优解
文章图片

技术被证实是产业繁荣的催化剂 , 语音识别的商业化就是直接的例子 。
根据华西证券的调研报告 , AIoT是大众接触消费者最普遍的渠道 , 目前智能语音已经应用于智能手机、可穿戴设备、智能车载、智能家居等产品 , 2020年的市场规模为241.1亿元 , 预计到2023年市场规模将达到570.3亿元 。
语音技术的成熟以及语音市场的持续繁荣 , 是否预示着语音交互的用户体验已经彻底告别尝鲜期?
事实可能会让人有些失望 。 心理学中有个概念叫幸存者偏差 , 如果把目光聚焦于百度这样的技术派 , 语音交互已然迈向了新台阶 , 但在相当比重的智能硬件产品中 , 诸如唤醒率偏低、识别率低、答非所问等现象仍然是一种常态 。 像百度这样的头部玩家仍在刷新纪录 , 可很多主打语音控制产品还处于伪智能的阶段 。
02 度家给出的最优解 并不难对这一市场现象给出合理的解释 。
语音技术在消费级业务中的落地通常有两种方式:一是将语音技术能力封装为SDK或API , 下游的客户或开发者可以直接调用 , 优势在于成本较低 , 但技术能力因人而异;二是提供定制化的解决方案 , 即根据客户需求进行定制化、深度合作 , 在一定程度上保障了终端的用户体验 , 缺点是成本偏高 。
这大抵也是百度智能云推出度家平台的原因所在 , 区别于上述两种合作模式 , 度家语音语义一体化的思路让外界看到了三重优势:
首先 , 度家输出的是软硬一体的解决方案 , 集成了百度自主研发的鸿鹄芯片 , 在性能、兼容性、扩展性上打破了传统方案的制约 。

识别|解放千万智能家居,度家给出语音控制的最优解
文章图片

比如传统芯片的平均功耗往往很高 , 而鸿鹄芯片将提取的语音特征直接在云端进行高精准识别 , 既保证了语音识别的准确性 , 平均功耗也只有100mw;鸿鹄芯片支持多达六路的麦克阵列语音信号 , 并支持deep peak、deep cnn语音唤醒以及百度最新的双麦克模型波束算法 , 可以满足设备唤醒后360度无死角识别;同时还能和各种安卓、linux芯片集成为onboard方案 。
其次 , 语音语义一体化弥补了语义能力的短板 , 如果只有语音识别而缺少语义理解 , 折射到用户体验上就是答非所问的尴尬 。
【识别|解放千万智能家居,度家给出语音控制的最优解】除了流式多级截断注意力模型、端到端建模等语音识别上的算法优势 , 百度智能云的另一个强项在于语义理解 。 在传统的开发模式中 , 开发者想要让理解语音的指令 , 需要花费很大的功夫理解意图、词槽、模板、特征词等等 , 度家平台的方案是语义物模型 , 开发者只需要理解设备属性、控制动作、设备状态等内容 , 进行简单的配置就能驱动设备根据用户的语音指令作出正确的反应 。
最后 , 通过开源框架和订制开发板的产品矩阵 , 帮助开发者进一步降低技术落地的时间和成本 , 加速语音技术的规模化应用 。

识别|解放千万智能家居,度家给出语音控制的最优解
文章图片

譬如在硬件层面 , 度家和乐鑫联合开发了集成鸿鹄芯片的开发模组 , 采用了双麦克风的设计 , 可以在5米范围内精准拾音 , 同时搭载了DeepPeak唤醒引擎、端到端建模技术和流式截断的多层注意力模型 , 极大地提升了语音识别的准确度 , 并且拥有方言识别、中英文混合识别等能力 。 配合百度官方的开源框架 , 开发者在极短时间里就能将智能语音应用于智能家居、智能机器人等产品 。
在智能语音市场高速增长 , 而语音控制的用户体验却有些掉队的局面下 , 度家的语音语义一体化方案可以说是当前的最优解 。
03 万物皆可语音控制 百度智能云押注度家的野心也就不难理解 。
一种解释是智能语音市场的掘金空间 。 曾有人在2019年对AI市场进行细分 , 其中智能语音的市场占比为22% , 仅次于已经实现大规模商业化的机器视觉 , 倘若算上自然语言理解16%的市场份额 , 等待语音语义一体化的将是一个体量不输于机器视觉的蓝海市场 , 百度智能云无疑有着充足的用武之地 。
即使是在智能家居市场 , 行业也还处于起步阶段 。 2020年空调的出货量为5100万台 , 智能语音的搭载率仅为15% , 小家电市场在2020年的销售额约为7000亿元 , 可智能语音的搭载率却不到1% 。 以电视市场高达70%的智能语音搭载率为准绳的话 , 仅智能家居行业就存在着毋庸置疑的机会 。
如果只是从市场规模的维度审视度家 , 可能会低估百度的战略布局 , 何况还有一种站在长远视角上的解释 。
综合不同调研机构的报告 , 目前智能音箱在国内的月销量稳定在300万台左右 , 累计出货量已经超过1亿台 。 按照国内当前的城镇化水平 , 智能音箱在城镇家庭中的渗透率业已超过20% , 等同于智能手机在2012年前后的渗透程度 , 也就预示着语音交互的市场教育有了初步的基础 。

识别|解放千万智能家居,度家给出语音控制的最优解
文章图片

在百度的战略谋划中 , 小度系列产品担纲了消费者教育的角色 , 小度的屡屡破圈就是最直接的写照 。 作为百度AI To B的核心渠道 , 百度智能云自然扮演了智能语音向B端输出的角色 , 进而从B和C两端加速智能语音的市场渗透 。
可以佐证的是:度家已经为TCL的高端电视提供音唤醒及识别服务 , 解决了TCL原有语音方案远场唤醒效果不佳、抗外噪能力弱等痛点 , 重构了TCL高端电视的语音交互体验 , 未来TCL会有更多的家电将搭载度家的服务;针对扫地机器人、集成灶等工作环境复杂难以语音控制的产品 , 度家通过端云一体的方案消除了技术落地的瓶颈;即便是智能风扇、咖啡机等低成本的小家电上 , 在鸿鹄芯片的赋能下实现了控制场景下的自由说 , 不再局限于划定的指令词 。
就度家最新的动作来看 , 正在借助端云一体、开源框架、订制硬件的综合优势 , 给予开发者足够的自主权 , 进一步降低智能语音技术的应用和开发门槛 , 让开发者们以极低的成本将智能语音移植到新产品中 , 以潜移默化的方式逐步消除幸存者偏差的现象 。
毕竟人类大脑每天处理的信息中 , 声音信息的占比高达20% 。 作为人类和外界最重要的沟通纽带 , 智能语音注定是人机交互的主流趋势之一 , 万物皆可语音控制将是属于智能化时代的鲜明特征 。
04 写在最后 确切地说 , 度家只是百度智能云在IoT领域的落子之一 。 根据IDC发布的报告 , 在中国AI公有云服务市场 , 百度智能云市场份额连续四年排名中国第一 。
正如2021云智技术论坛苏州站上所呈现的 , 端边云全面智能化的天工AIoT平台将AI能力和物联网进行了深度融合 , 诸如美欣达等合作伙伴在百度智能云的赋能下实现了低碳运营 , AIoT视觉智能已经深入到工业质检、智能制造、城市管理等场景中……
携AI进场的百度智能云 , 正进一步释放了物联网底层能量 。

    推荐阅读