ACL 2018|康奈尔大学:多词义嵌入的概率FastText模型(13)
词抽样:为了生成给定单词w的上下文单词c , 我们在一个固定长度的上下文窗口内选择一个附近的单词 。 我们还使用了类似于Mikolov等人的单词抽样技术 。 。 此次抽样程序选择出现频率较低的单词进行训练 。 这项技术的作用是降低诸如“the”、“a”、“to”等词的重要性 , 这些词在文本语料库中占主导地位 , 但其意义不如其他不太常见的词 , 如“city”、“capital”、“animal”等 。 单词w的概率 , 其中是单词的频率 。 语料库中的w和t是频率阈值 。
使用分布选择一个负上下文词 , 其中是单词w的一个unigram概率 。 指数3/4也降低了频繁单词的重要性 , 并将训练重点转移到其他不频繁的单词 。
3 实验分析
本文在英语和外语数据集上训练我们的模型 。 对于英语 , 我们使用UKWAC和WACKYPEDIA的拼接 , 它由33.76亿个单词组成 。 我们过滤掉出现少于5次的单词类型 , 得到2677466的词汇量 。
定性评估-最近的邻居 。 实验表明我们的嵌入可以很好地学习单词语义 。 下表显示了诸如rock、star和cell等多义词的示例 。 我们注意到子字嵌入更喜欢使用重叠字符的单词作为最近的邻居 。 例如 , “rock-y”、“rockn”和“rock”都接近“rock”这个词 。 为了演示的目的 , 我们只显示有意义变化的单词 , 省略前面提到的基于字符的小变化的单词 。
推荐阅读
- 开罗|开罗游戏发表中文声明:识君代理属于侵权行为,2018年就已解约
- RNG|用数据说话 2018年与2021年的RNG谁更具统治力
- RNG|回应LCK的质疑?国服下血本庆祝RNG夺冠,力度远超2018年
- 王者荣耀|王者荣耀:冰锋战神买亏了?看到2018年先例,笑了
- 间接伤害|阴阳师:真正的SR一姐,2018年至今依然巅峰,恐怕难逃“下岗”
- 圣墟|我心中的2018年网文10大作品:《圣墟》《超神机械师》领衔
- 王者荣耀|新赛季上线1小时,王者玩家就突破2018人,只因策划一个改动
- 战神诸神的黄昏|战神诸神的黄昏对2021年度游戏志在必得
- 受疫情影响,Oracle认证考券延期声明
- 美国国防部要求增加5G投资