沈向洋:微软研究院——求索不已,为全人类,打造负责任的人工智能( 四 )

通过技术创新消除AI偏见,确保人工智能公平、包容的发展,我们在这些方面已经取得了一些进展。例如,我们的研究团队,利用称为“单词嵌入”的自然语言处理工具,解决了文本搜索中的性别偏见的问题。

所谓单词嵌入,是一种用来将单词转换为向量数字的算法,它能够以来自新闻数据或者网页数据的海量文本数据为依据,为每个单词赋予一个对应的向量数字。通过在向量坐标系中,比对常见词汇与“他”、“她”这两个性别代词之间的关联度,研究人员发现了一些明显的特征,例如“sassy(刁蛮)”、“knitting(编织)”这样的词更靠近女性,而“hero(英雄)”、“genius(天才)”更靠近男性。算法之所以会为这些词汇赋予性别特征,原因在于训练算法用的基准数据集——通常是来自新闻和网页的数据——本身,就存在着由语言习惯造成的“性别偏见”,算法也自然“继承”了人类对这些词汇理解的性别差异。

其结果就是,当我们用试验算法,根据梅林达﹒盖茨的LinkedIn信息推测其职业时,得到了“教师”的判断,但只要将人称代词换成“他”,盖茨夫人的职业就会变为“律师”。今天的很多AI 系统都在使用这样的单词嵌入机制,为了解决由此造成的性别偏见问题,我们提出了一个简单易行的方案:在单词嵌入中,删除区分“他”和“她”的判断维度。关于这个方案的更多细节,我们发表了一篇论文,相关数据也共享在GitHub上供大家使用。

推荐阅读