机器学习教你学习语言:Duolingo推出CEFR语言检测器( 五 )

CEFR 往往要求依赖于某些主题下的语义信息的交际能力(例如,一个人是否可以在涉及问候、个人生活、食物、家庭的「日常」环境中进行交互),因此这些 MWE 和语料库频率直观上看是符合客观事实的。此外,我们还希望可以做这样的安排:让学习者先学习常见的语言形式,然后学习不常用的语言形式。

为什么要使用人工智能技术呢?为什么不简单地将 CEFR 英语单词表翻译成其他语言呢?不妨设想一下,在英语环境中,我们说「I am hungry」,而西班牙语中会说「tengo hambre」(字面意思是「我饿了」)。这两种表达都是 A1 级。但是,如果将这些表达形式逐字地翻译为另一种语言,则最终会得到西班牙语形容词 hambriento(对应英文「hungry」)或英语名词「hunger」(对应西班牙语「hambre」),它们实际上都是 B1 级单词。除此之外,语言之间惯用语表达的不匹配使我们很难简单地翻译单词表。我们发现,我们对词频和语义建模的方法可以帮助我们做得更好。

结语

CEFR 检测器是我们目标语言多样、熟练程度不同的学习者改写文本内容的过程中的一个关键部分。我们希望它的发布能对其它课程开发人员构建「多邻国」以外的语言学习资源有所帮助,并希望它的存在能进一步促进 NLP 和机器学习研究,从而催生更多增强类似工具的应用程序。

推荐阅读