面对内容理解的准确性和效率问题,facebook是这样利用自我监督技术的( 三 )
为了帮助弥补训练数据的不足,我们正在改进我们最近开源的工具包「LASER」,它可以通过训练一个模型来理解各种语言。在以前,当我们需要为每种语言使用不同的模型时,LASER 的表示空间允许我们用一种语言进行训练,而不需要特定语言的训练数据。在训练之后,我们可以将模型应用于一系列语言,也不需要翻译它们,这称为「零样本迁移学习」。LASER 也让我们在语言未知的表示空间内,将那些彼此更接近的句子进行映射,来识别意思相似的句子。
对于希望增加系统能够理解的语言数量的研究人员来说,像这样的跨语言技术提供了一种更具可扩展性的替代方法去尝试收集和注释每种语言中的数据。这种方法还允许我们为机器翻译挖掘并行训练数据,特别是对于低资源语言(也就是训练示例较少的语言)非常有用。跨语言识别相似的句子有助于在多种语言中同时捕获相似的违规行为。为了生成每个句子层面的嵌入,我们首先使用字节对编码表示给定句子的单词,然后使用五层双向 LSTM(长短期内存)模型,紧接着使用 max pooling(因为句子包含的单词数目是不定的)。
通过大规模的训练这个系统——包含 93 种语言,这些语言隶属于 30 多个语言家族,用 22 种不同的脚本编写而成,我们能够获得未知语言的句子嵌入,并且其支持自动检测违反政策内容的能力对于低资源语言尤其重要。
推荐阅读
- FMVP|Scout的FMVP争议过大,根本原因在于观众不理解什么是FMVP!
- RNG|原来RNG真是EDG最难缠的对手!edg教练maokai朋友圈内容引热议!
- 明日方舟|明日方舟:在面对散华精锐的大范围法伤时,群奶和奶盾是基本配置
- 魔兽世界|魔兽世界:“时空漫游”将改版,增加野外内容,回归经典
- 魔兽世界|暴雪嘉年华内容遭泄露,引玩家众怒,魔兽世界成捞钱工具?
- pero|PGC分组名单出炉,PeRo迎来一个好消息,17避开AAA仍要面对SQ
- 任天堂|不依赖对外收购工作室,任天堂将更着重扩大本身游戏内容开发能力
- 我的世界|我的世界:Mojang的拖更秘诀,找到了!修复漏洞,提出更好的内容
- 魔兽世界|暴雪嘉年华原定内容泄露,5个魔兽世界同步推进,wow变捞钱工具?
- 梦幻西游|梦幻西游:面对代价党的硬核回复方式,能让对方主动说出出售价格