慕尼黑大学:双语任务中两种领域适应方法:简单易行、广泛适用( 六 )

在结合了这两种技术之后 , 情感分析的结果堪比使用目标语言中注释数据的系统产生的结果 , 但我们并不需要目标语言注释数据 , 这是非常大的改进 。 与域内数据训练的基线相比 , 该方法对双语词典构建也有显著改进 。

BWEs适应

在一般领域文本上训练的BWEs , 在特定领域的系统中使用时通常会导致性能降低 。 这有两个原因 。 (i)特定领域的词汇包含一般情况下不使用的词 , 例如药品或疾病的名称 。 (ii)一个词的含义在各个领域有所不同;例如 , “苹果”在一般领域中主要指水果 , 但在许多产品评论中是一种电子设备 。

为了创建适应域的BWEs , 我们首先在两种语言中训练MWEs(单语单词嵌入) , 然后使用post-hoc映射将它们映射到相同的空间 。 我们通过将单语域外数据和域内数据连接起来 , 为两种语言训练MWEs 。 域外数据允许我们创建通用词汇的精确分布式表示 , 而域内数据则嵌入特定于域的词汇 。 然后 , 我们使用一个小的种子词汇映射这两个MWEs来创建适应的BWEs 。 因为post-hoc映射只需要一个种子词汇作为双语信号 , 所以它可以很容易地用于(廉价)单语数据 。

推荐阅读