机器学习教你学习语言:Duolingo推出CEFR语言检测器( 四 )
人工智能的部分
CEFR 检测器中的彩色文本可视化结果取决于多种语言中成千上万个单词的 CEFR 等级——如果我们的课程专家进行手工标记,成本将极其高昂、令人抓狂。我们通过使用数千个人工标注的 CEFR 英语、西班牙语和法语单词标签训练一个机器学习系统,并使该模型可以泛化到许多其它语言的数十万个单词上,最终降低了成本。这种有序回归学习模型将考虑一个单词及其源语言,并预测该单词的目标学习者的 CEFR 等级(A1、A2、B1、B2 或 C)。
我们使用迁移学习和领域自适应技术,同时依靠与语言无关的特征将模型泛化到新的语言上。也就是说,模型中的特征包括多语言单词嵌入(MWE)和通过电影字幕估计的单词语料库频率。MWE 将单词映射到一个 300 维的空间中,在这个空间中,出现在多语言的语料库中的相似特征和语义上下文中的单词会距离较近,从而提供了语言无关的单词「含义」的表征,简化后的三维空间如图所示
图3/3
推荐阅读
- 战争机器5|战争机器5,有改变也需要让玩家射击的爽快
- 神战权力之眼|《宝可梦》论神战下智挥猩的辅助能力,一发号令能教你做人?
- 超级机器人大战30|明日方舟:白嫖材料活动更新,玩家收益减少,鹰角策划又不当人?
- 国服|LOLM:60天内如何从小白打到国服王者?这快捷径方法值得学习
- 催眠学习|《催眠学习》PC版,一款教你如何恋爱的游戏,非绅骑步呦!
- 虎牙|哈利波特手游:同流派该如何击败?虎牙小若沐展示细节,值得学习
- 梦幻西游|梦幻西游:一只须弥画魂的励志蜕变史,这才是值得学习人生态度!
- 超级机器人大战30|不怕被LCK网友喷!Ray发文力挺:希望EDG可以夺冠!祝他们有好运
- 超级机器人大战30|猫神重新跟AG一队训练,瓜主剧透:AG若打不赢狼队,最初首发不保
- 超级机器人大战30|公开讨薪这事 电竞圈也开始了