ACL 2018|康奈尔大学:多词义嵌入的概率FastText模型(14)
与字典级密度嵌入和FASTTEXT进行比较 。 我们将我们的模型与下表中的字典级高斯和高斯混合嵌入、以及50维和300维平均向量进行了比较 。 W2G和W2GM的50维结果直接从Athiwaratkun和Wilson的工作中获得 。 为了进行比较 , 我们使用公共代码https://github.com/benathi/word2gm来训练300维W2G和W2GM模型以及公共可用的FASTTEXT模型https://s3-us-west-1.amazonaws.com/fasttext-vectors/wiki.en.zip 。 我们的PFT-GM在所有竞争模型中达到了最高的平均分数 , 超过了FASTTEXT和字典级嵌入W2G和W2GM 。 我们的unimodal PFT-G也超过了字典级对应的W2G和FASTTEXT 。 我们注意到 , W2GM模型看起来非常强大 , 在许多单词相似性数据集上优于PFT-GM 。 然而 , W2GM比PFT-GM性能更好的数据集通常具有较小的尺寸 , 如MC-30或RG-65 , 其中Spearman相关性更容易受到噪声的影响 。 总的来说 , 在300和50维模型中 , PFT-GM比W2GM分别高出3.1%和8.7% 。 此外 , PFT-G和PFT-GM的表现也分别优于FASTTEXT 1.2%和3.7% 。
与多原型模型的比较 。 下表中我们将50和300维PFT-GM模型与多原型嵌入和现有的多模式密度嵌入W2GM进行比较 。 我们使用单词相似度数据集SCWS , 其中包含可能具有多种含义的单词 , 是一个基准 。 我们使用最大相似性得分 , 表示为MAXSIM 。 AVESIM表示相似性得分的平均值 , 而不是最大值 。 我们在50维和300维上都优于基于字典的密度嵌入W2GM , 证明了子词信息的好处 。 我们的模型达到了最先进的结果 。
推荐阅读
- 开罗|开罗游戏发表中文声明:识君代理属于侵权行为,2018年就已解约
- RNG|用数据说话 2018年与2021年的RNG谁更具统治力
- RNG|回应LCK的质疑?国服下血本庆祝RNG夺冠,力度远超2018年
- 王者荣耀|王者荣耀:冰锋战神买亏了?看到2018年先例,笑了
- 间接伤害|阴阳师:真正的SR一姐,2018年至今依然巅峰,恐怕难逃“下岗”
- 圣墟|我心中的2018年网文10大作品:《圣墟》《超神机械师》领衔
- 王者荣耀|新赛季上线1小时,王者玩家就突破2018人,只因策划一个改动
- 战神诸神的黄昏|战神诸神的黄昏对2021年度游戏志在必得
- 受疫情影响,Oracle认证考券延期声明
- 美国国防部要求增加5G投资