ACL 2018|康奈尔大学:多词义嵌入的概率FastText模型(13)

词抽样:为了生成给定单词w的上下文单词c , 我们在一个固定长度的上下文窗口内选择一个附近的单词 。 我们还使用了类似于Mikolov等人的单词抽样技术 。 。 此次抽样程序选择出现频率较低的单词进行训练 。 这项技术的作用是降低诸如“the”、“a”、“to”等词的重要性 , 这些词在文本语料库中占主导地位 , 但其意义不如其他不太常见的词 , 如“city”、“capital”、“animal”等 。 单词w的概率 , 其中是单词的频率 。 语料库中的w和t是频率阈值 。

使用分布选择一个负上下文词 , 其中是单词w的一个unigram概率 。 指数3/4也降低了频繁单词的重要性 , 并将训练重点转移到其他不频繁的单词 。

3 实验分析

本文在英语和外语数据集上训练我们的模型 。 对于英语 , 我们使用UKWAC和WACKYPEDIA的拼接 , 它由33.76亿个单词组成 。 我们过滤掉出现少于5次的单词类型 , 得到2677466的词汇量 。

定性评估-最近的邻居 。 实验表明我们的嵌入可以很好地学习单词语义 。 下表显示了诸如rock、star和cell等多义词的示例 。 我们注意到子字嵌入更喜欢使用重叠字符的单词作为最近的邻居 。 例如 , “rock-y”、“rockn”和“rock”都接近“rock”这个词 。 为了演示的目的 , 我们只显示有意义变化的单词 , 省略前面提到的基于字符的小变化的单词 。

推荐阅读