ACL 2018|康奈尔大学:多词义嵌入的概率FastText模型( 十 )
我们与FastText以及现有的密度字嵌入W2G(高斯)和W2GM(高斯混合)进行了比较 。 我们的模型基于多个词相似性基准(包括稀有词数据集)提取高质量的语义 。 我们比FastText平均加权改进3.7% , 比基于字典级别密度的模型平均加权改进3.1% 。 我们还观察到有意义的最近邻 , 特别是在多模密度情况下 , 其中每个模式捕获一个不同的含义 。 我们的模型也可以直接移植到外语中 , 而不需要任何超参数修改 , 在这些修改中我们观察到了强大的性能 , 在许多外来词相似性数据集上优于FastText 。 我们的多模态词表达也可以解义 , 并且能够分离异域多义词中的不同意义 。 特别是 , 我们的模型在SCW上获得了最先进的性能 , 这是衡量区分不同词义能力的基准 , 比最近的密度嵌入模型W2GM提高了1.0% 。
本文是第一个为稀有词开发具有高语义质量的多词义嵌入的工作 。 代码和嵌入表示公开见https://github.com/benathi/multisense-prob-fasttext 。
2 模型
概率子词表示:我们用k个高斯分量的高斯混合表示每个词 。 也就是说 , 一个词w与密度函数有关 , 其中是平均向量 , 是协方差矩阵 , 是分量概率 , 总和为1 。
推荐阅读
- 开罗|开罗游戏发表中文声明:识君代理属于侵权行为,2018年就已解约
- RNG|用数据说话 2018年与2021年的RNG谁更具统治力
- RNG|回应LCK的质疑?国服下血本庆祝RNG夺冠,力度远超2018年
- 王者荣耀|王者荣耀:冰锋战神买亏了?看到2018年先例,笑了
- 间接伤害|阴阳师:真正的SR一姐,2018年至今依然巅峰,恐怕难逃“下岗”
- 圣墟|我心中的2018年网文10大作品:《圣墟》《超神机械师》领衔
- 王者荣耀|新赛季上线1小时,王者玩家就突破2018人,只因策划一个改动
- 战神诸神的黄昏|战神诸神的黄昏对2021年度游戏志在必得
- 受疫情影响,Oracle认证考券延期声明
- 美国国防部要求增加5G投资