慕尼黑大学:双语任务中两种领域适应方法:简单易行、广泛适用( 九 )
医学双语词典构建
给定源语言中的单词列表 , BLI(Bilingual Lexicon Induction)的目标是为所选目标语言中的每个单词挖掘翻译 。 由于医学领域缺乏资源 , 高质量的BWEs很难只使用领域内的数据来构建 。 我们发现通过丰富BWEs的一般领域知识(以一般领域单语语料库的形式) , 可以在这个医学领域任务上取得更好的效果 。 单语医学数据包括来自维基百科的英语和荷兰语医学文章 , 被分成64%/16%/20%到trn/dev/test 。 BLI的执行使用两种方法 。 一是BLI可以通过一个共享空间中表示来自不同语言的单词 , 并根据这个空间中的余弦相似性来执行 。 二是使用了Heyman等人提出的基于分类器的系统 。 该神经网络系统由两个主要模块组成 。 第一个是字符级LSTM , 目的是学习单词对的正交相似性 。 二是利用嵌入层对两个词的嵌入进行连接 , 目的是学习词的语义表示之间的相似性 。
下表将其性能与我们的自适应BWE进行了比较 , 包括余弦相似性和基于分类的系统 。 “最高”F1分数仅基于最可能的单词作为预测;“所有”F1分数使用概率高于阈值的所有单词作为预测 。 可以看出 , 使用自适应BWE的余弦相似性系统明显优于在资源贫乏的环境中训练的非自适应BWE 。 此外 , 使用通用种子词库进行映射获得了最佳性能 , 这是因为通用词在MWE模型中嵌入的质量更高 , 从而提供更好的质量映射 。
推荐阅读
- 西凉|三国志战略版:出生州选择也有大学问,开局选好霸业即成
- 桌游|48小时里,游戏开发能给这群大学生带来什么?
- edg战队|如何看待那些彻夜疯狂庆祝edg夺冠的高校大学生?
- edg战队|这一代大学生们怎么了:EDG夺冠而已,能不能不要本末倒置?
- 超级萨米卷|校园版鱿鱼游戏,实力拯救欠下72学分的咸鱼大学生
- 雕刻|第五人格IVL采访,Xawm回应雕刻家顶级玩法,我的雕像上过大学!
- 郑州轻工业大学|英雄联盟高校行|英雄联盟全球总决赛郑州轻工业大学观赛完美收官
- 斗鱼|泡吧、蹦迪、夜不归宿!「斗鱼一姐」自曝大学期间的“放纵”生活
- 赛尔号|赛尔号:我大学的时候,玩小游戏被嘲笑!最后结局并没有反转!
- icon|大学生网恋一个半月被骗318万