微软被爆“偷听”用户录音,我们需不需要担心泄露隐私( 三 )

CNN认为,AI并不是魔术,各大科技公司推出的语音助手背后,都是机器学习算法模型在提供支持,而在训练算法模型的过程中,必须收集足够数量的语音数据,并交给人类进行标注,数据标注得越准确、数量越多,模型的效果越好。

简而言之,语音助手的进步,离不开人的介入,而人在介入过程中,又势必会接触到原始语音数据。

问题是,作为语音助手的用户,势必不愿意自己和AI对话的内容,在自己毫不知情的情况被另一个陌生人听到。

绕不开的人工数据标注

在几大科技巨头被爆陷入“偷听门”的事件中,都可以看到第三方外包公司的身影,这是数据标注的特点决定的。

目前的机器学习,通常使用的是监督学习,这需要有标注的数据来作为经验。而“数据标注”的对象则集中在文本、图片、音频、视频四个种类。

微软被爆“偷听”用户录音,我们需不需要担心泄露隐私

比如,图片标注包括了图像分割、物体检测、图像语义理解、图像生成、图片加注等标注方式;音频标注包括对方言、特殊情景语音进行识别标注等。

推荐阅读