ACL 2018|康奈尔大学:多词义嵌入的概率FastText模型(12)

式中 , 是与第一个单词f的分量i与第二个单词g的分量j相似的部分能量 。

下图显示了两个单词的高斯分量之间的部分能量 。

损失函数:我们试图学习的模型参数是每个单词w的vw和每个n-gram g的zg 。 我们通过将真正的上下文对w和c的能量推到高于负上下文对w和n的边缘m来训练模型 。 使用Adagrad来最小化以下损失以实现此结果:

该损失函数与k>1的高斯混合模型一起 , 具有提取多个词义的能力 。 也就是说 , 对于一个多义词 , 我们可以观察每一种模式来表示一个不同的意思 。 例如 , “star”的一种密度模式接近“celebrity”和“hollywood” , 而“stat”的另一种密度模式接近“constellation”和“galaxy” 。

能量简化:理论上 , 将协方差矩阵作为可学习参数是有益的 。 在实践中 , 球面协方差通常与对角协方差一样 , 计算资源更少 。 使用每个分量的球面协方差 , 我们可以进一步简化能量函数 , 如下所示:

推荐阅读