人脸识别背后"肮脏的小秘密":触目惊心( 四 )

随着社交网络的兴盛和自媒体的发展,普通人的照片也突然多了起来。研究人员默认这些照片是对所有人开放的,有时他们甚至会从YouTube的视频中抓取面部图片。

由于工作的非经营性质,学术人员用起照片来绝对是近水楼台,因为他们能绕过版权问题了,而Flickr的性质更是让它们成了研究人员绝对的安全之选。

为了保证数据集的多样性,IBM其实从Flickr上Down了超过1亿张照片,随后又精选了100万张有注释的面部照片。为了力求精确,它们甚至为这些照片定了200多种分类标准。

人脸识别背后"肮脏的小秘密":触目惊心

谷歌学术指出,这种研究方法在业内几乎已经是尽人皆知,因为有数百篇学术论文都在靠照片采集来佐证自己的论点,没人敢说自己是完全清白的,或者拿到了授权或同意。

因此,面部识别准确性的提高和分析工具的进步主要就是靠这些“野路子”来的照片。

IBM真没拿面部数据集赚钱?

推荐阅读