被遗忘权的崩塌:当AI可以通过你的朋友了解你( 二 )

换句话说 , 就算你删号退网 , 机器学习仍然可以通过你的好友列表来分析出你的用户画像 。

在研究中 , 研究人员收集了一万三千余个推特账号 , 这些用户分别都拥有150-200个好友 。 在好友中找到互动率最高的前9位并进行分组 , 将用户好友组中好友的行为数据以时间为线索进行分析 。

数据科学家们通过研究得出 , 一般社交媒体用户 , 只要不是专注某一领域的KOL , 通常在社交媒体上使用的词汇不超过5000个 。 如果用中文来比喻 , 大概就是“哈哈哈哈”“不转不是中国人”“我家哥哥太帅了吧”这些常规词汇 。

而通过对用户好友的常用词分析 , 基本可以圈定该用户的兴趣范围 。 研究者提到 , 很多专注于某一领域的用户(比如政治) , 其实在社交媒体用词量上只有几百个单词 。 在兴趣范围内的词汇量中引入代表个人行为变化的熵率 , 再与建立在时间序列上的文本生成算法相结合 , 就能够实现通过社交关系来预测个人社交媒体行为 。

而当好友组中的好友数量越多时 , 这种预测也越准确 。 但值得注意的是 , 一旦好友数量超过150人 , 预测的准确率反而会下降——因为好友数量过多时往往双方的关联度降低 , 脱离了一个本来的兴趣圈子 , 在行为上也很难形成映射关系 。

推荐阅读