ACL 2018|康奈尔大学:多词义嵌入的概率FastText模型( 九 )

词嵌入是自然语言处理的基础 。 为了对语言进行建模 , 我们需要单词表示包含尽可能多的语义信息 。 大多数研究都集中于向量词嵌入 , 例如word2vec , 其中具有相似含义的词映射到向量空间中的相邻的点 。 但这种基于预先定义的字典(称为基于字典的嵌入)的词嵌入方法的一个缺点是 , 它们无法学习稀有单词的表示 。 为了克服这一限制 , 提出了字符级单词嵌入 。 FastText是最先进的字符级嵌入方法 。 在FastText中 , 每个单词都由一个向量和建模 , 每个向量代表一个n-gram 。 这种方法的好处是 , 训练过程可以在由共同根组成的单词之间共享强度 。 例如 , 通过对“circum”和“navigation”的单独表示 , 我们可以为“circumnavigation”构建一个信息性表示 , 否则 , 由于它很少出现 , 无法学习字典级嵌入 。 除了有效地模拟稀有单词外 , 字符级嵌入还可以表示俚语或拼写错误的单词 , 如“dogz” , 并且可以在共享词根的不同语言之间共享力量 , 如Romance语言共享潜在词根 。

本文提出了概率FastText(PFT) , 它提供了单词的特征级概率表示 。 由此产生的单词嵌入具有高度的表现力、简单易懂和可解释性 , 具有简单、高效和直观的训练程序 。 PFT可以对稀有词、不确定性信息、层次表示和多词义进行建模 。 特别是 , 我们用高斯或高斯混合密度表示每个词 , 分别将其命名为PFT-G和PFT-GM 。 混合后的每个分量可以代表不同的词义 , 每个分量的平均向量分解成n-grams向量 , 以捕获字符级信息 。 我们还导出了一个有效的基于能量的PFT最大边缘训练程序 。

推荐阅读