医学双语词典构建

给定源语言中的单词列表， BLI(Bilingual Lexicon Induction)的目标是为所选目标语言中的每个单词挖掘翻译。由于医学领域缺乏资源，高质量的BWEs很难只使用领域内的数据来构建。我们发现通过丰富BWEs的一般领域知识（以一般领域单语语料库的形式），可以在这个医学领域任务上取得更好的效果。单语医学数据包括来自维基百科的英语和荷兰语医学文章，被分成64%/16%/20%到trn/dev/test 。 BLI的执行使用两种方法。一是BLI可以通过一个共享空间中表示来自不同语言的单词，并根据这个空间中的余弦相似性来执行。二是使用了Heyman等人提出的基于分类器的系统。该神经网络系统由两个主要模块组成。第一个是字符级LSTM ，目的是学习单词对的正交相似性。二是利用嵌入层对两个词的嵌入进行连接，目的是学习词的语义表示之间的相似性。

下表将其性能与我们的自适应BWE进行了比较，包括余弦相似性和基于分类的系统。 “最高”F1分数仅基于最可能的单词作为预测；“所有”F1分数使用概率高于阈值的所有单词作为预测。可以看出，使用自适应BWE的余弦相似性系统明显优于在资源贫乏的环境中训练的非自适应BWE 。此外，使用通用种子词库进行映射获得了最佳性能，这是因为通用词在MWE模型中嵌入的质量更高，从而提供更好的质量映射。