慕尼黑大学:双语任务中两种领域适应方法:简单易行、广泛适用( 七 )

对于post-hoc映射 , 我们使用Mikolov等人的方法 。 该模型假设了一个W∈R d1×d2矩阵 , 该矩阵将矢量从源映射到目标MWEs , 其中d1和d2是嵌入空间尺寸 。 对的种子词典是xi和yi为源和目标MWEs所需要的 。 W可以通过最小化源xi和目标yi向量之间的L2正则化映射误差 , 来使用岭回归来学习:

使用word2vec skipgram创建MWEs , 用scikit-learn估计W , 使用默认参数 。

跨语言情感分类

在BWES的重要应用CLSC( Cross-Lingual Sentiment Classification)中 , 我们针对源(一种资源丰富的语言)中可用的训练数据 , 训练一个有监督的情感模型 , 并将其应用于目标(一种资源贫乏的语言 , 通常没有可用的训练数据) 。 因为BWEs将源单词和目标单词嵌入到同一个空间中 , 所以源中的注释(表示为BWEs)可以实现迁移学习 。 对于CLSC的tweets , 对非twitter数据进行训练的BWEs的一个缺点是 , 它们不产生特定twitter词汇的嵌入 , 例如英语coool和(墨西哥)西班牙语chido等俚语单词 , 当情感分类器使用它们时 , 会导致信息丢失 。

推荐阅读