ACL 2018｜康奈尔大学：多词义嵌入的概率FastText模型(14)_ACL2018LongPapers多词义嵌入的概率Fas

与字典级密度嵌入和FASTTEXT进行比较。我们将我们的模型与下表中的字典级高斯和高斯混合嵌入、以及50维和300维平均向量进行了比较。 W2G和W2GM的50维结果直接从Athiwaratkun和Wilson的工作中获得。为了进行比较，我们使用公共代码https://github.com/benathi/word2gm来训练300维W2G和W2GM模型以及公共可用的FASTTEXT模型https://s3-us-west-1.amazonaws.com/fasttext-vectors/wiki.en.zip 。我们的PFT-GM在所有竞争模型中达到了最高的平均分数，超过了FASTTEXT和字典级嵌入W2G和W2GM 。我们的unimodal PFT-G也超过了字典级对应的W2G和FASTTEXT 。我们注意到， W2GM模型看起来非常强大，在许多单词相似性数据集上优于PFT-GM 。然而， W2GM比PFT-GM性能更好的数据集通常具有较小的尺寸，如MC-30或RG-65 ，其中Spearman相关性更容易受到噪声的影响。总的来说，在300和50维模型中， PFT-GM比W2GM分别高出3.1%和8.7% 。此外， PFT-G和PFT-GM的表现也分别优于FASTTEXT 1.2%和3.7% 。

与多原型模型的比较。下表中我们将50和300维PFT-GM模型与多原型嵌入和现有的多模式密度嵌入W2GM进行比较。我们使用单词相似度数据集SCWS ，其中包含可能具有多种含义的单词，是一个基准。我们使用最大相似性得分，表示为MAXSIM 。 AVESIM表示相似性得分的平均值，而不是最大值。我们在50维和300维上都优于基于字典的密度嵌入W2GM ，证明了子词信息的好处。我们的模型达到了最先进的结果。