前谷歌员工解锁智能音箱新玩法:客房里的注意力商人( 六 )

机器之心:满分是一百的话,你给现在的语音技术打多少分?

就目前市场上语音系统整体而言,我给 60-70 分,属于堪用的程度。

所谓 AI,其实就是将人拆分为好几块并将之数位化,做具体分析,比如,影像、语音和语义的数位化。其中,影像数位化发展得比较早,从场景开始做,比如人脸识别开始,慢慢做到姿态识别,最后从大场景里识别人。语音数位化发展得也比较早,从声音变成文字,如今,这一块儿的识别度也比较高。

但是,语义这一块发展得比较晚,从以前的基于规则 (rule-base) 做到现在的语义理解,相对于语音和影像来说,还是比较落后。音箱是一个整体系统,要将不同部分的数位化水平(比如语音、影像)加在一起,才能得到一个完整的评分。我这里讲的 60 到 70 分,是从这个意义上讲的。

另外,打分最难的地方是,你要从使用者的角度来看这个事情,要从是否满足了用户对产品期待的角度来评判。比如,对于音箱的期待止于放音乐的用户来说,智能音箱甚至可以打到 90 分。但是,如果他觉得这个语音系统应用能够回复他所有提问,这套系统可能只有 60 到 70 分。

推荐阅读