前谷歌员工解锁智能音箱新玩法：客房里的注意力商人( 六 )_图1

机器之心：满分是一百的话，你给现在的语音技术打多少分？

就目前市场上语音系统整体而言，我给 60-70 分，属于堪用的程度。

所谓 AI，其实就是将人拆分为好几块并将之数位化，做具体分析，比如，影像、语音和语义的数位化。其中，影像数位化发展得比较早，从场景开始做，比如人脸识别开始，慢慢做到姿态识别，最后从大场景里识别人。语音数位化发展得也比较早，从声音变成文字，如今，这一块儿的识别度也比较高。

但是，语义这一块发展得比较晚，从以前的基于规则 (rule-base) 做到现在的语义理解，相对于语音和影像来说，还是比较落后。音箱是一个整体系统，要将不同部分的数位化水平（比如语音、影像）加在一起，才能得到一个完整的评分。我这里讲的 60 到 70 分，是从这个意义上讲的。

另外，打分最难的地方是，你要从使用者的角度来看这个事情，要从是否满足了用户对产品期待的角度来评判。比如，对于音箱的期待止于放音乐的用户来说，智能音箱甚至可以打到 90 分。但是，如果他觉得这个语音系统应用能够回复他所有提问，这套系统可能只有 60 到 70 分。

前谷歌员工解锁智能音箱新玩法：客房里的注意力商人( 六 )