面对内容理解的准确性和效率问题,facebook是这样利用自我监督技术的( 二 )
我们将在这里重点介绍我们如何提高内容理解系统的准确性和效率,并找到新的方法,在无监督学习中做更多的事情。
使用多语种句子嵌入处理违规内容
为了在人们发布违反我们政策的内容时将它们检测出来,我们的系统需要理解语言。具体来说,我们的系统使用机器学习(ML)扫描一个给定的句子并回答一系列问题,例如「它是违规的吗?」或者「它是在威胁某人吗?」。使用这些问题的答案以及当时的上下文和其他的背景信息,我们可以决定是否采取行动,例如给一个人类的审稿人做标记。
为了让我们的 ML 系统回答这些问题,我们需要用给定语言的数千个例子来训练它们。然而,世界上大约有 6500 种语言,其中包括一些目前缺乏大型训练数据集的语言,要找到足够的训练样本来支撑我们支持的所有语言的内容理解是一个挑战。
通过在共享的嵌入空间中用多种语言映射类似的句子,我们可以在不翻译每个句子的情况下,更好地理解相关内容(包括违反规定的内容)。
推荐阅读
- FMVP|Scout的FMVP争议过大,根本原因在于观众不理解什么是FMVP!
- RNG|原来RNG真是EDG最难缠的对手!edg教练maokai朋友圈内容引热议!
- 明日方舟|明日方舟:在面对散华精锐的大范围法伤时,群奶和奶盾是基本配置
- 魔兽世界|魔兽世界:“时空漫游”将改版,增加野外内容,回归经典
- 魔兽世界|暴雪嘉年华内容遭泄露,引玩家众怒,魔兽世界成捞钱工具?
- pero|PGC分组名单出炉,PeRo迎来一个好消息,17避开AAA仍要面对SQ
- 任天堂|不依赖对外收购工作室,任天堂将更着重扩大本身游戏内容开发能力
- 我的世界|我的世界:Mojang的拖更秘诀,找到了!修复漏洞,提出更好的内容
- 魔兽世界|暴雪嘉年华原定内容泄露,5个魔兽世界同步推进,wow变捞钱工具?
- 梦幻西游|梦幻西游:面对代价党的硬核回复方式,能让对方主动说出出售价格