AI正学会所有偏见!精华与糟粕通吃,算法偏见更难辨认也更持久( 二 )

\n

10 月 25 日 , 谷歌宣布利用 BERT 来优化搜索引擎 , 已经使英语搜索结果的匹配度提高了 10% 左右 。 未来 , 谷歌还会推出学习其他语言和国家的算法 。

\n

BERT 是谷歌在 2018 年开发的一种基于神经网络的 NLP 技术 , 它能一次接收整句话 , 而非从左至右(或相反)逐字接收 。 这使得如果有人要搜“在没有路缘的山坡停车” , BERT 能认出“不要” , 从而给出正确的搜索结果 。 而传统搜索引起只会关注“路缘”和“山坡” , 给出与搜索意图相反的结果 。

\n

\n

图 | BERT 能更好识别“在没有路缘的山坡停车”句子里的“没有”一词 , 从而理解人类意图(来源:https://blog.google)

\n

让人们担忧的是 , BERT 的学习材料正来自数字化书籍和新闻文章 。 在 BERT 学会一切之前 , 人们没有时间来清理其中根深蒂固的偏见 。 而这些偏见一旦被算法吸收 , 将更难辨认 , 也更难清除 。

\n

“形象一下在 AI 世界长大的孩子 。 他们在谷歌搜索 CEO 照片 , 冒出的大部分是男性 。 他们又搜索个人助手 , 大部分是女性 。 ”Kriti Sharma 在一次 TED 相关演讲中说 。 卡耐基梅隆大学的计算机科学家已研究证实 , BERT 倾向于将程序员与男性联系起来 。

推荐阅读