机器学习教你学习语言:Duolingo推出CEFR语言检测器( 四 )

人工智能的部分

CEFR 检测器中的彩色文本可视化结果取决于多种语言中成千上万个单词的 CEFR 等级——如果我们的课程专家进行手工标记,成本将极其高昂、令人抓狂。我们通过使用数千个人工标注的 CEFR 英语、西班牙语和法语单词标签训练一个机器学习系统,并使该模型可以泛化到许多其它语言的数十万个单词上,最终降低了成本。这种有序回归学习模型将考虑一个单词及其源语言,并预测该单词的目标学习者的 CEFR 等级(A1、A2、B1、B2 或 C)。

我们使用迁移学习和领域自适应技术,同时依靠与语言无关的特征将模型泛化到新的语言上。也就是说,模型中的特征包括多语言单词嵌入(MWE)和通过电影字幕估计的单词语料库频率。MWE 将单词映射到一个 300 维的空间中,在这个空间中,出现在多语言的语料库中的相似特征和语义上下文中的单词会距离较近,从而提供了语言无关的单词「含义」的表征,简化后的三维空间如图所示

机器学习教你学习语言:Duolingo推出CEFR语言检测器

图3/3

推荐阅读