朱倩男|朱倩男:数据不干净等多重因素造成算法问题

中新经纬客户端5月7日电 (薛宇飞)近日 , 由中国人民大学未来法治研究院主办的“算法分类分场景规制”研讨会在中国人民大学举行 。 研讨会上 , 中国人民大学高瓴人工智能学院博士后朱倩男分享了关于推荐算法的技术报告 。

朱倩男|朱倩男:数据不干净等多重因素造成算法问题
文章图片

【朱倩男|朱倩男:数据不干净等多重因素造成算法问题】中国人民大学高瓴人工智能学院博士后朱倩男 。 来源:主办方供图
朱倩男称 , 根据数据的形式以及算法的功能 , 推荐算法大致可以分为四大类 。 第一类是基于协同过滤推荐 , 该类算法从用户和项两个层面设计协同过滤算法 , 认为相似的用户具有相似的兴趣偏好 , 或者用户偏向于喜欢自己曾经购买过的项(东西) 。 该类算法通过寻找相似的项或者相似的用户观看过或购买过的东西给用户做推荐;第二类是基于文本内容推荐 , 它根据项的文本信息 , 比如标题、描述以及属性信息等 , 挖掘相似的项将其推荐给用户 , 或者利用文本信息从用户历史点击序列中建模用户偏好 , 基于此用户偏好做推荐 。
第三类是基于知识图谱推荐 。 这是近期较为流行的推荐方法 。 该类方法利用知识图谱结构化、可推理特点 , 用在推荐领域可以做可解释性推荐 , 一定程度上缓解了算法“黑盒”和算法公平性的问题;第四类是混合推荐 , 顾名思义 , 它是上述多种推荐方法的结合 , 用各种各样的方法叠加组合在一起 。 比如 , 将文本信息和知识图谱融合在一起 , 又或者结合协同过滤算法和神经网络技术做推荐 。 目前推荐领域的研究方法已经没有特别清晰的规则将某个方法划分到某一类别中 。 随着互联网的发展 , 人类进入到人工智能时代 , 神经网络技术已经渗透到各个领域 , 利用神经网络建模推荐过程已经成为推荐领域较为有效的方法 。
她指出 , 推荐算法在日常使用过程中 , 也会遇到各种各样的问题 , 比如信息茧房、算法黑盒、虚假新闻及低俗内容泛滥等 。 “对于信息茧房现象的产生 , 可以举个例子 , 在新闻推荐场景中 , 比如用户历史观看记录显示他观看了音乐类、历史类、体育类新闻 , 推荐系统会根据这个偏好给他推荐这三种类型的新闻 。 之后一段时间 , 用户又不喜欢音乐了 , 他可能浏览较多的体育和历史两类的新闻 , 推荐系统捕捉到用户的偏好 , 将体育和历史类的新闻推荐给用户 。 久而久之 , 随着用户偏好的变化以及可浏览的推荐结果的多样性的减少 , 会将用户的兴趣偏好限制在某一特定领域 , 形成信息壁垒 , 造成信息茧房的现象 。 此外 , 曝光偏差也会造成信息茧房 。 在推荐领域中存在长尾现象 , 很小一部分商品拥有较高的流行度 , 而大部分商品拥有较低的流行度 。 由于准确率是推荐算法的衡量指标 , 推荐算法倾向于把流行度较高的物品推荐给用户 , 这就造成流行度高的商品越来越流行 , 曝光度越来越高 , 而流行度低的商品越来越不流行 , 曝光度越来越低 , 长此以往 , 用户会在由高曝光率商品建成的信息茧房中 。 ”
要解决信息茧房问题 , 朱倩男称 , 一是数据层面 , 要保证数据的丰富性 。 二是推荐结果层面 , 保证推荐结果的多样化以破除信息壁垒 。 对推荐结果的多样性可以设计启发式规则 , 比如限制推荐结果一定要包含几种类别;将多样性的商品加入到候选池子中 , 使多样性的商品在召回阶段被计算并推荐 。
随着互联网成为人们获取外界信息的主要渠道 , 推荐算法面临着虚假新闻和低俗内容泛滥的问题 。 朱倩男称 , 推荐系统并不是喜欢或倾向于将虚假新闻和低俗内容推荐给用户 , 纯粹的推荐算法对文章的内容和质量是没有把关的 。 造成这一现象的根本原因是输入数据的不干净 。 网络中本来就存在大量低质化的内容 , 在人们好奇心以及猎奇心理的作用下 , 虚假新闻和低俗内容获得较大的点击量和曝光量 , 推荐系统认为有较高流行度的虚假新闻和低俗内容是当下较为热门的内容推荐给用户 。 为解决这一问题 , 需要从数据层面做工作 , 通过人工和模型的结合将数据进行过滤和清洗 , 以构建一个较为健康的网络生态环境 。
另外 , 推荐算法会带来偏见和歧视问题 , 比如曝光偏差 , 选择偏见 , 流行度偏见以及位置偏见等 。 一方面 , 推荐算法通过从数据中挖掘数据特征 , 将原本存在偏见的数据进行放大 , 更直观的向人类形式化的展示偏见和歧视问题 。 另一方面 , 由于现有的推荐算法将推荐准确率作为衡量推荐性能的唯一指标 , 平台为提升经济效益 , 仅关注推荐内容与用户兴趣的匹配程度 , 未将社会价值内化为算法的具体规则 。 为解决这类问题 , 需从数据层面和算法层面解决 。
朱倩男称 , 由于用户对推荐算法的中间过程不清楚 , 会怀疑自己的隐私被泄漏 , 也就是大家一直提到的用户安全与隐私问题 。 但实际上 , 单纯的推荐算法不存在用户隐私泄露 。 不过 , 平台在各个服务之间的数据传送 , 存在用户数据泄露的情况 , 或者安全问题受到影响 。 为了克服这一问题 , 会有一些策略对用户个人信息进行隐藏 , 比如匿名化、假名化等 。 另外 , 还需加强规章制度 , 出台一些因泄露用户信息而造成用户损失 , 所应该承担法律责任的政策 。
朱倩男总结称 , 算法带来的问题 , 原因多种多样 。 一方面是由于数据本身不纯粹、不干净造成的;一方面是目前推荐算法只追求推荐准确率 , 未将社会价值内化为算法的内在规则造成的 。 总而言之 , 推荐算法想更好的服务人类 , 还有一段路要走 。 (中新经纬APP)

    推荐阅读