团队|数据挖掘领域大师俞士纶团队新作:最新图自监督学习综述( 三 )



团队|数据挖掘领域大师俞士纶团队新作:最新图自监督学习综述
文章图片

其中 L_sup 为下游任务相关的损失函数 , y 为相关的人工标签 。
在此框架下 , 本文通过以下几个维度进行分类:1)通过进一步细分公式 (1) 中的代理解码器 p 和损失函数 L_ssl , 对图自监督学习方法进行分类;2)通过进一步细分代理任务和下游任务的关系 , 对三种自监督学习模式进行分类;3)通过进一步细分公式 (2) 中的下游解码器 q 和损失函数 L_sup , 对下游任务进行分类 。
本文将图自监督学习方法分为 4 个类别:基于生成的图自监督学习方法 , 基于属性的图自监督学习方法 , 基于对比的图自监督学习方法 , 以及混合型方法 。 其中 , 基于生成的方法(generation-based method)主要将重构图的特征信息或结构信息作为代理任务 , 实现自监督学习;基于属性的方法(Auxiliary Property-based method)通过预测一些可以自动获取的图相关的属性 , 来进行模型的训练;基于对比的方法(Contrast-based method)则是通过最大化同一样本的两个增广实体之间的互信息来进行学习;最后 , 混合型方法(Hybrid method)通过组合不同的上述几种代理任务 , 采用多任务学习的模式进行自监督学习 。

团队|数据挖掘领域大师俞士纶团队新作:最新图自监督学习综述
文章图片

4 种图自监督学习方法分类
基于代理任务和下游任务之间的不同关系 , 自监督学习的模式分为以下 3 类:预训练 - 微调(Pre-training and Fine-tuning , PF)、联合学习(Joint Learning , JL)以及无监督表征学习(Unsupervised Representation Learning) 。 其中 , PF 首先采用代理任务对编码器进行预训练 , 然后采用下游任务对编码器进行微调;JL 则是采用多任务学习的方式 , 同时利用代理任务和下游任务对编码器进行训练;URL 首先无监督地对编码器用代理任务进行训练 , 然后直接用得到的表征 H 来训练下游任务的解码器 。

团队|数据挖掘领域大师俞士纶团队新作:最新图自监督学习综述
文章图片

3 种自监督学习模式分类
下游任务的分类则涉及了大多数图机器学习相关的传统任务 , 根据其数据样本的尺度不同 , 本文将下游任务分类为节点级别任务(如节点分类) , 边级别任务(如边分类)和图级别任务(如图分类) 。
4. 图自监督学习相关工作汇总
根据上述对图自监督学习方法的分类方式 , 本文对相关工作进行了整理、分类与汇总 , 分类树如下图所示 。

团队|数据挖掘领域大师俞士纶团队新作:最新图自监督学习综述
文章图片

分类树
A.基于生成的图自监督学习方法

推荐阅读