黑人被AI歧视了?技术间的种族差异需要缩小( 六 )

\n \n

\n \n \n

“我们意识到 , 数据生态系统十分闭塞 , 因为总是那么几个大公司拥有训练数据集 , ”Borchert结束演讲后在茶歇时间说 , “苹果、亚马逊、谷歌、Nuance和微软 , 你可以利用它们的数据集 , 也可以利用亚马逊Alexa的技能 , 但这些对于像Mozilla这样有使命感、重视开放式网络、立志创造充满机遇的生态系统的公司来说 , 规模就远远不够 。 ”

\n \n

“我们从几年前开始开发语音识别的公司那里得知 , 他们通常将公共电台的声音收录到数据集中 , 这样就不必太担心版权问题 。 这些音频大多来自说母语、接受过发声训练的男性 , 所以最后得到的语音是清晰的 , 因为数据集里大部分声音都如此 。 自然而然会导致不公正的结果 , 因为数据就那些 。 收集的女声不多 , 更没有夸张口音 。 这就是为什么早期版本在识别女性声音方面有很大的问题 , 因为女性音调与男性的不同 。 所以 , 讲话人语音越多样 , 数据从长远来讲质量也越好 。 ”

\n \n

这种方法存在一些问题——数据集的大小取决于讲话人参与的积极性 , 人们还会担心收集数据的用途 。 Borchert目前正与从柏林到卢旺达大大小小的社区合作;在东非地区 , 人们自然会怀疑白人“创意执行官”为什么要找东非原住民录制声音 。 “当然 , 找到愿意说英语的人比找到愿意说卢旺达语的人容易很多 , 因为掌握后者的人数更少 。 ”她解释道 。 “所以英语的数据容量比其他语言更容易扩大 , 不过我认为具体实施还要看社区积极性和参与度 。 ”

推荐阅读