团队|鱼和熊掌不可兼得?清华团队提出高准确率的可解释分类模型( 三 )


文章图片

通过学习边的连接 , 逻辑层便可以灵活地表示有着合取或析取范式形式的离散分类规则 。 然而问题在于 , 虽然离散的逻辑层可解释性好 , 但自身不可导 , 难以训练 , 这也是为什么还需要一个对应的连续版本的逻辑层 。
连续逻辑层
连续逻辑层必须是可导的 , 并且当二值化连续逻辑层的参数时 , 可以直接得到它相对应的离散逻辑层 。 为此需要:

  • 将 0/1 邻接矩阵替换为 [0, 1] 之间的实数权重矩阵
  • 用逻辑激活函数替换逻辑运算
传统的逻辑激活函数(Payani and Fekri, 2019)如下 , 其中

团队|鱼和熊掌不可兼得?清华团队提出高准确率的可解释分类模型
文章图片



团队|鱼和熊掌不可兼得?清华团队提出高准确率的可解释分类模型
文章图片

分别为连续合取层和连续析取层中的节点 。

团队|鱼和熊掌不可兼得?清华团队提出高准确率的可解释分类模型
文章图片



团队|鱼和熊掌不可兼得?清华团队提出高准确率的可解释分类模型
文章图片

, 二者通过

团队|鱼和熊掌不可兼得?清华团队提出高准确率的可解释分类模型
文章图片

的大小来决定

团队|鱼和熊掌不可兼得?清华团队提出高准确率的可解释分类模型
文章图片

对最终结果的影响的大小 。
如果
=0 , 则
对最终结果没有影响 。

团队|鱼和熊掌不可兼得?清华团队提出高准确率的可解释分类模型
文章图片

虽然这两个逻辑激活函数能够较好地用可导的实数运算模拟逻辑运算 , 但其存在严重的梯度消失问题 , 无法处理特征数较多的情况 , 可扩展性较差 。 分析逻辑激活函数

团队|鱼和熊掌不可兼得?清华团队提出高准确率的可解释分类模型
文章图片



团队|鱼和熊掌不可兼得?清华团队提出高准确率的可解释分类模型
文章图片

以及相应的导数可以发现 , 使用连乘来模拟逻辑运算是导致梯度消失的主要原因 。


团队|鱼和熊掌不可兼得?清华团队提出高准确率的可解释分类模型
文章图片

为例 , 其对应导数如下:

团队|鱼和熊掌不可兼得?清华团队提出高准确率的可解释分类模型
文章图片

由于

团队|鱼和熊掌不可兼得?清华团队提出高准确率的可解释分类模型
文章图片

, 则当相乘的

团队|鱼和熊掌不可兼得?清华团队提出高准确率的可解释分类模型
文章图片

数量较多时(一般指特征数较多或节点数较多) , 导数结果都会趋向于 0 , 即出现了梯度消失的问题 。

推荐阅读