微软被爆“偷听”用户录音,我们需不需要担心泄露隐私( 四 )

美国波士顿的一名亚马逊外包员工告诉媒体,他积累的语音资料里就有像“泰勒·斯威夫特”(Taylor Swift,美国创作型女歌手)这样的单词,他会对这个词语进行注释,以表明这是一位音乐艺术家,这有助于AI未来正确理解“泰勒·斯威夫特”的含义。

微软被爆“偷听”用户录音,我们需不需要担心泄露隐私

泰勒·斯威夫特

数据标注虽然重要,但做起来技术含量并不高,只是费时费力,因此大型科技公司一般都将数据标注的工作外包给专业的数据服务平台。让专业的公司去做专业的事情,不仅提升了效率,而且实现了低成本高精度的标注。

值得一提的是,在数据标注工作开始之前,科技公司都会先对数据进行清洗,得到符合要求的数据,再进行标注。数据清洗包括去除无效的数据、整理成规整的格式等过程,在标注过程中,又分为不同类型。

不会反向追踪到用户

那么,在数据标识的过程中,到底会不会泄漏隐私?毕竟,从媒体曝光的内容来看,科技公司所掌握的录音,内容太过“丰富”。

推荐阅读