团队|数据挖掘领域大师俞士纶团队新作:最新图自监督学习综述( 二 )


为了填补这一空缺 , 本文对图自监督学习领域相关工作做了综合、全面、实时的综述 。 本文的主要贡献有:1)以数学语言统一了的图自监督学习框架 , 并提供了系统的分类法;2)对现有方法进行了综合且实时更新的整理;3)统计了相关的研究资源和应用场景;4)指出了未来潜在的研究方向 。
2. 核心词条与概念定义
为了便于读者理解 , 本文提供了以下核心词条的定义辨析:
人工标签 vs 伪标签:人工标签指需要人类专家或工作者手动标注的标签数据;伪标签指机器可以从数据中自动获取的标签数据 。 通常 , 自监督学习中不会依赖人工标签 , 而是依赖伪标签来进行学习 。
下游任务 vs 代理任务:下游任务指具体用于衡量所学习表征和模型性能的图分析任务 , 比如节点分类、图分类等;代理任务指专门设计的、用于帮助模型无监督地学习更优表征从而在下游任务上取得更高性能的辅助任务 。 代理任务一般采用伪标签进行训练 。
监督学习、无监督学习与自监督学习:监督学习指通过人工标签来训练机器学习模型的学习范式 , 而无监督学习是一种无需人工标签来学习的学习范式 。 作为无监督学习的子类 , 自监督学习指从数据本身获取监督信号的学习范式 , 在自监督学习中 , 模型由代理任务进行训练 , 从而在下游任务重获取更好的性能和更佳的泛化性 。
本文主要研究图数据 。 图由节点集合和边集合构成 , 其中节点的个数计为 n , 边的个数计为 m 。 图的拓扑结构一般用 n*n 的邻接矩阵 A 来表示 , A_ij=1 表示节点 i 和节点 j 之间存在连接关系 , A_ij=0 则表示二者无连接关系 。 对于属性图 , 存在一个特征矩阵 X 来包含每个点和每条边的特征向量 。
对于大部分图自监督学习方法 , 图神经网络(GNN)作为编码器而存在 。 GNN 输入邻接矩阵 A 和特征矩阵 X , 通过可学习的神经网络参数 , 生成低维的表征矩阵 H , 其中每一行为对应节点的表征向量 。 对于图级别的任务 , 一般采用读出函数 R 将节点表征矩阵聚合为一个图表征向量 , 从而进行图级别的属性学习 。
3. 图自监督学习框架与分类
本文用编码器 - 解码器(encoder-decoder)框架来规范化图自监督学习 。 其中编码器 f 的输入是原始图数据(A , X) , 输出为低维表征 H;代理解码器 p 以表征 H 为输入 , 输出代理任务相关的信息 。 在此框架下 , 图自监督学习可以表示为:

团队|数据挖掘领域大师俞士纶团队新作:最新图自监督学习综述
文章图片

其中 D 为相关的图数据分布 , L_ssl 为代理任务相关的损失函数 。
利用训练好的编码器 f , 所生成的表征 H 被进一步用于下游任务的学习当中 。 通过引入下游解码器 q , 下游任务的学习可表示为:

推荐阅读