ACL 2018|康奈尔大学:多词义嵌入的概率FastText模型(11)
高斯分量的平均向量在密度嵌入中占有很大的语义信息 。 虽然这些模型基于单词相似性和限定基准取得了成功 , 但平均向量通常是字典级别的 , 这可能导致对稀有单词的语义估计不佳 , 或者无法处理训练语料库之外的单词 。 我们建议使用子字结构来估计平均向量 。 对于单词w , 用n-gram向量及其字典级向量的平均值来估计平均向量 。 也就是说:
下图描述了平均向量的子字结构 。 图1b和1c描述了我们的模型 , 高斯概率FastText(PFT-G)和高斯混合概率FastText(PFT-GM) 。 在高斯情况下 , 我们用子字估计来表示每个平均向量 。 对于高斯混合情况 , 我们用子字结构表示一个高斯分量的平均向量 , 而其他分量的平均向量是基于字典的 。 该模型选择使用基于字典的平均向量作为其他组件 , 是为了减少子字结构所施加的约束 , 提升含义发现的独立性 。
词语间的相似性度量:传统上 , 如果单词由向量表示 , 则常见的相似性度量是点积 。 在单词由分布函数表示的情况下 , 我们使用Hilbert空间中的广义点积 , 称为期望似然核 。 我们将两个单词f和g之间的能量定义为 。 当高斯混合和时 , 能量呈闭合形式:
推荐阅读
- 开罗|开罗游戏发表中文声明:识君代理属于侵权行为,2018年就已解约
- RNG|用数据说话 2018年与2021年的RNG谁更具统治力
- RNG|回应LCK的质疑?国服下血本庆祝RNG夺冠,力度远超2018年
- 王者荣耀|王者荣耀:冰锋战神买亏了?看到2018年先例,笑了
- 间接伤害|阴阳师:真正的SR一姐,2018年至今依然巅峰,恐怕难逃“下岗”
- 圣墟|我心中的2018年网文10大作品:《圣墟》《超神机械师》领衔
- 王者荣耀|新赛季上线1小时,王者玩家就突破2018人,只因策划一个改动
- 战神诸神的黄昏|战神诸神的黄昏对2021年度游戏志在必得
- 受疫情影响,Oracle认证考券延期声明
- 美国国防部要求增加5G投资