慕尼黑大学:双语任务中两种领域适应方法:简单易行、广泛适用( 九 )

医学双语词典构建

给定源语言中的单词列表 , BLI(Bilingual Lexicon Induction)的目标是为所选目标语言中的每个单词挖掘翻译 。 由于医学领域缺乏资源 , 高质量的BWEs很难只使用领域内的数据来构建 。 我们发现通过丰富BWEs的一般领域知识(以一般领域单语语料库的形式) , 可以在这个医学领域任务上取得更好的效果 。 单语医学数据包括来自维基百科的英语和荷兰语医学文章 , 被分成64%/16%/20%到trn/dev/test 。 BLI的执行使用两种方法 。 一是BLI可以通过一个共享空间中表示来自不同语言的单词 , 并根据这个空间中的余弦相似性来执行 。 二是使用了Heyman等人提出的基于分类器的系统 。 该神经网络系统由两个主要模块组成 。 第一个是字符级LSTM , 目的是学习单词对的正交相似性 。 二是利用嵌入层对两个词的嵌入进行连接 , 目的是学习词的语义表示之间的相似性 。

下表将其性能与我们的自适应BWE进行了比较 , 包括余弦相似性和基于分类的系统 。 “最高”F1分数仅基于最可能的单词作为预测;“所有”F1分数使用概率高于阈值的所有单词作为预测 。 可以看出 , 使用自适应BWE的余弦相似性系统明显优于在资源贫乏的环境中训练的非自适应BWE 。 此外 , 使用通用种子词库进行映射获得了最佳性能 , 这是因为通用词在MWE模型中嵌入的质量更高 , 从而提供更好的质量映射 。

推荐阅读