ACL 2018｜康奈尔大学：多词义嵌入的概率FastText模型(11)_ACL2018LongPapers多词义嵌入的概率Fas

高斯分量的平均向量在密度嵌入中占有很大的语义信息。虽然这些模型基于单词相似性和限定基准取得了成功，但平均向量通常是字典级别的，这可能导致对稀有单词的语义估计不佳，或者无法处理训练语料库之外的单词。我们建议使用子字结构来估计平均向量。对于单词w ，用n-gram向量及其字典级向量的平均值来估计平均向量。也就是说：

下图描述了平均向量的子字结构。图1b和1c描述了我们的模型，高斯概率FastText（PFT-G）和高斯混合概率FastText（PFT-GM）。在高斯情况下，我们用子字估计来表示每个平均向量。对于高斯混合情况，我们用子字结构表示一个高斯分量的平均向量，而其他分量的平均向量是基于字典的。该模型选择使用基于字典的平均向量作为其他组件，是为了减少子字结构所施加的约束，提升含义发现的独立性。

词语间的相似性度量：传统上，如果单词由向量表示，则常见的相似性度量是点积。在单词由分布函数表示的情况下，我们使用Hilbert空间中的广义点积，称为期望似然核。我们将两个单词f和g之间的能量定义为。当高斯混合和时，能量呈闭合形式：