ACL 2018|康奈尔大学:多词义嵌入的概率FastText模型(14)

与字典级密度嵌入和FASTTEXT进行比较 。 我们将我们的模型与下表中的字典级高斯和高斯混合嵌入、以及50维和300维平均向量进行了比较 。 W2G和W2GM的50维结果直接从Athiwaratkun和Wilson的工作中获得 。 为了进行比较 , 我们使用公共代码https://github.com/benathi/word2gm来训练300维W2G和W2GM模型以及公共可用的FASTTEXT模型https://s3-us-west-1.amazonaws.com/fasttext-vectors/wiki.en.zip 。 我们的PFT-GM在所有竞争模型中达到了最高的平均分数 , 超过了FASTTEXT和字典级嵌入W2G和W2GM 。 我们的unimodal PFT-G也超过了字典级对应的W2G和FASTTEXT 。 我们注意到 , W2GM模型看起来非常强大 , 在许多单词相似性数据集上优于PFT-GM 。 然而 , W2GM比PFT-GM性能更好的数据集通常具有较小的尺寸 , 如MC-30或RG-65 , 其中Spearman相关性更容易受到噪声的影响 。 总的来说 , 在300和50维模型中 , PFT-GM比W2GM分别高出3.1%和8.7% 。 此外 , PFT-G和PFT-GM的表现也分别优于FASTTEXT 1.2%和3.7% 。

与多原型模型的比较 。 下表中我们将50和300维PFT-GM模型与多原型嵌入和现有的多模式密度嵌入W2GM进行比较 。 我们使用单词相似度数据集SCWS , 其中包含可能具有多种含义的单词 , 是一个基准 。 我们使用最大相似性得分 , 表示为MAXSIM 。 AVESIM表示相似性得分的平均值 , 而不是最大值 。 我们在50维和300维上都优于基于字典的密度嵌入W2GM , 证明了子词信息的好处 。 我们的模型达到了最先进的结果 。

推荐阅读