微软被爆“偷听”用户录音，我们需不需要担心泄露隐私( 三 )

2019-08-22

CNN认为，AI并不是魔术，各大科技公司推出的语音助手背后，都是机器学习算法模型在提供支持，而在训练算法模型的过程中，必须收集足够数量的语音数据，并交给人类进行标注，数据标注得越准确、数量越多，模型的效果越好。

简而言之，语音助手的进步，离不开人的介入，而人在介入过程中，又势必会接触到原始语音数据。

问题是，作为语音助手的用户，势必不愿意自己和AI对话的内容，在自己毫不知情的情况被另一个陌生人听到。

绕不开的人工数据标注

在几大科技巨头被爆陷入“偷听门”的事件中，都可以看到第三方外包公司的身影，这是数据标注的特点决定的。

目前的机器学习，通常使用的是监督学习，这需要有标注的数据来作为经验。而“数据标注”的对象则集中在文本、图片、音频、视频四个种类。

比如，图片标注包括了图像分割、物体检测、图像语义理解、图像生成、图片加注等标注方式；音频标注包括对方言、特殊情景语音进行识别标注等。

推荐阅读

上一篇：数字赋能?采赢未来熵易举办2019供应链创新发展论坛，聚焦供应链新生态

下一篇：Java 8 之后，还有哪些进化的功能？