ACL 2018|康奈尔大学:多词义嵌入的概率FastText模型(11)

高斯分量的平均向量在密度嵌入中占有很大的语义信息 。 虽然这些模型基于单词相似性和限定基准取得了成功 , 但平均向量通常是字典级别的 , 这可能导致对稀有单词的语义估计不佳 , 或者无法处理训练语料库之外的单词 。 我们建议使用子字结构来估计平均向量 。 对于单词w , 用n-gram向量及其字典级向量的平均值来估计平均向量 。 也就是说:

下图描述了平均向量的子字结构 。 图1b和1c描述了我们的模型 , 高斯概率FastText(PFT-G)和高斯混合概率FastText(PFT-GM) 。 在高斯情况下 , 我们用子字估计来表示每个平均向量 。 对于高斯混合情况 , 我们用子字结构表示一个高斯分量的平均向量 , 而其他分量的平均向量是基于字典的 。 该模型选择使用基于字典的平均向量作为其他组件 , 是为了减少子字结构所施加的约束 , 提升含义发现的独立性 。

词语间的相似性度量:传统上 , 如果单词由向量表示 , 则常见的相似性度量是点积 。 在单词由分布函数表示的情况下 , 我们使用Hilbert空间中的广义点积 , 称为期望似然核 。 我们将两个单词f和g之间的能量定义为  。 当高斯混合和时 , 能量呈闭合形式:

推荐阅读