周以真:信息伪造是数字社会的巨大挑战

周以真:信息伪造是数字社会的巨大挑战

【科技向善大咖说·第十四期】

周以真

周以真教授是全球知名计算机科学家,现任哥伦比亚大学数据科学研究院主任、美国计算机协会(ACM,Association for Computing Machinery)会士,曾任微软全球资深副总裁。她对“计算思维”(Computational Thinking)简洁清晰的定义获得了计算科学界广泛的认可。同时,她也是数据向善(Data for Good)的积极倡导者。

近期就“科技向善”的主题接受腾讯研究院访谈时,周以真教授认为,科技向善的一大困难是,目前的数据科学家们大都没有接受过足够的伦理训练;而数字社会发展至今的一个巨大技术挑战是,伪造信息泛滥且难以根除,会侵蚀数字社会的信任基石。

腾讯研究院:您是数据向善的倡导者,您如何理解数据向善? 周以真:我认为数据向善有两层含义。一是通过数据来解决棘手的社会问题,比如气候变化、医疗健康、能源问题与社会公正。以数据为导向的研究在各个领域中都有很多,比如公共卫生学、生物学、气候科学、地球科学以及社会工作学等。所以如果这些领域可以运用其数据来解决社会问题,他们就是在践行“数据向善”。

第二,在运用数据时要对其负责,和我们使用技术一样。这就是算法偏见与公正问题的来源所在。我们希望在收集公民的数据时,保留用户权利并保障用户隐私,我们希望确保能够以负责任的方式来管理他人的数据。当我们分析数据时,我们希望保证我们对那些提供数据的人做出了公平的推断。

因此,当我提到数据向善时,我指的是数据要造福社会,并要通过负责、公平、道德和隐私保护的方式良好地使用数据。

周以真:我认为两者并不会冲突,他们更多是互补的。实际上当冲突出现时,就不在我所提到的“数据向善”的两层含义之中了。第一层数据向善与解决重大的社会挑战有关,这些问题不能够依靠一个学科、一个人或者一个国家来解决。比如,气候变化就是个全球范围的问题。医疗也是如此:全世界每个人都可能得癌症,而不是某个国家的特例。如果我们能够理解癌症的机制并治疗癌症,就能造福所有人。

第二个含义是以负责任的方式使用数据,这是公平、道德和隐私发挥作用的地方,也是可能发生冲突的地方。人脸识别技术就是一个典型的例子:当这项技术被警方和执法部门善用,就可以帮助我们发现坏人和罪犯,这听起来是件好事。但这也可能是件坏事。受到环境、文化、政治和社会的影响,人脸识别技术也会被认为是侵犯隐私的。比如在欧洲,人们非常重视隐私,因此在他们应该不会愿意在公共场所引入人脸识别,这就是冲突所在。

技术本身是理智的,但我们使用技术的方法可以是“向善”或者“向恶”的,这是一种文化或一个社会对于善恶判断的价值体系。在一个国家被认为是好的东西,在其他国家可能不是;同样在某些国家被认为是恶的,在其他国家可能并不坏。因此,价值体系、社会规范、文化和社会都在定义什么是善、什么是恶中发挥了作用,对于任何技术都是如此。

周以真:我认为我们不应该说哪一个更重要,这只是一个边缘的案例,它是建立在我们有隐私保护技术的基础之上的。例如,允许医院在不泄露患者信息的情况下共享患者数据。但当你不能发明一种技术来解决隐私保护问题时,就需要将政策、指导方针或实践付诸实施,并需要做出主观判断。无论是谁将指导这一过程,都是在权衡一件事是否比另一件事更重要或更好。这需要依靠主观判断来做出决定。 周以真:这取决于具体是哪一个属性。一些属性,比如公平,实际上是可以被形式化的。公平包含多个概念,每个概念都可以被形式化。一旦你可以形式化其中一个属性,那么理想状态下,你就会希望能自动地确定一个机器学习的模型或算法是否公平。

当我们谈及带有偏见的机器学习模型时,我认为重要的是要记住,偏见来源于我们用来训练模型的数据。你可以去修正模型,去收集更多数据,你可以做许多事情来使减少模型和决策系统的偏见。

当下,我们没有自动化的方式去检测我们的模型是否有偏见。我们只能为工程师提供指导,在不同的数据集中测试模型是否会做出带有偏见的决策。如果的确如此,你就需要修复模型或收集更多的训练数据集。这是我们现在能做的最好的了。目前我们最前沿的认知只是“认识到机器学习模型存在偏见”。好在我们现在已经意识到了这件事。下一步,我们要展开行动,且最理想的状态是通过自动化的方式。否则,就要依靠人类来完成这种乏味的修正模型偏见的工作。当然,我所谈及的这些都是研究要做的事。

还有一些属性是很难被形式化的,比如伦理。几个世纪以来,哲学家一直在讨论一些伦理问题,并且没有数学方程式可以采集伦理原则。伦理原则是定性判断,是社会规范和文化差异的表现。因此,指导一台机器去遵守伦理、判断一台机器或机器学习是否符合道德是很难的。

腾讯研究院:有哪些产品或服务,您认为是科技向善的好例子?又有哪些您认为是负面例子? 周以真:比如,有很多项目试图通过数据来了解癌症并治疗患者,或者通过数据了解气候变化。因此,就数据向善的第一个概念而言,有无数的例子。因为每个学科都有数据,每个学科都在使用数据试图解决问题。

在此之上,最重要的是要让客户在提供个人信息时保持信任。当科技公司收集他们的数据时,应该要对用户负责,未经允许的情况下不能够分享这些数据。如果企业所在国有允许企业与他人分享数据的规定,企业在遵守规定的同时要知道,这件事最终关乎客户的信任问题。一旦科技企业使客户数据被不良使用或泄露,或让客户感到难堪,这对科技公司而言将会是一个恶性公关事件。

推荐阅读