多词义嵌入的概率FastText模型

Probabilistic FastText for Multi-Sense Word Embeddings

康奈尔大学

Cornell University

本文是康奈尔大学发表于 ACL 2018 的工作，介绍了一种新的单词嵌入模型——概率FastText ，它可以捕获多个单词的词义、子单词结构和不确定性信息。模型用高斯混合密度表示每个词，其中混合成分的平均值由n-grams的和给出。这种表示法允许模型在子词结构（如拉丁词根）之间共享统计强度，从而产生罕见、拼写错误甚至未知词的精确表示。此外，混合的每个成分都可以捕获不同的词义。概率FastText在几个词相似性基准（包括英语稀有词和外语数据集）上，优于没有概率模型的FastText和不包含子字结构的字典级概率嵌入模型。在衡量识别不同含义的能力上，表现出最优性能。因此，该模型是第一个在丰富稀有词语义的同时，实现多词义表示的模型。