词抽样：为了生成给定单词w的上下文单词c ，我们在一个固定长度的上下文窗口内选择一个附近的单词。我们还使用了类似于Mikolov等人的单词抽样技术。。此次抽样程序选择出现频率较低的单词进行训练。这项技术的作用是降低诸如“the”、“a”、“to”等词的重要性，这些词在文本语料库中占主导地位，但其意义不如其他不太常见的词，如“city”、“capital”、“animal”等。单词w的概率，其中是单词的频率。语料库中的w和t是频率阈值。

使用分布选择一个负上下文词，其中是单词w的一个unigram概率。指数3/4也降低了频繁单词的重要性，并将训练重点转移到其他不频繁的单词。

3 实验分析

本文在英语和外语数据集上训练我们的模型。对于英语，我们使用UKWAC和WACKYPEDIA的拼接，它由33.76亿个单词组成。我们过滤掉出现少于5次的单词类型，得到2677466的词汇量。

定性评估-最近的邻居。实验表明我们的嵌入可以很好地学习单词语义。下表显示了诸如rock、star和cell等多义词的示例。我们注意到子字嵌入更喜欢使用重叠字符的单词作为最近的邻居。例如， “rock-y”、“rockn”和“rock”都接近“rock”这个词。为了演示的目的，我们只显示有意义变化的单词，省略前面提到的基于字符的小变化的单词。