模式|考那么多试,拿那么高分,大模型们真的懂语言了吗?( 二 )
Question: What was full, the bottle or the cup?
Sentence 2: I poured water from the bottle into the cup until it was empty.
Question: What was empty, the bottle or the cup?
Sentence 1: Joe’s uncle can still beat him at tennis, even though he is 30 years older.
Question: Who is older, Joe or Joe’s uncle?
Sentence 2: Joe’s uncle can still beat him at tennis, even though he is 30 years younger.
Question: Who is younger, Joe or Joe’s uncle?句子中一个词的差异可以改变代词所指的人或事 , 正确回答这些问题需要常识性的理解 。 Winograd 模式正是为了测试这种理解而设计的 , 减轻了图灵测试对人类判断和聊天机器人技巧的不可靠性 。 特别是 , Winograd 的作者设计了数百个被称为「Google-proof」的模式:机器不应该使用谷歌搜索(或类似搜索)来正确回答问题 。
Winograd 模式在 2016 年被用作一场比赛的主题 , 其中获胜程序仅在 58% 的句子上给出了正确答案 , 这几乎和简单猜测的准确率差不多 。
然而 , 大型神经网络语言模型的出现让人工智能程序解决 Winograd 模式的能力迅速提高 。 OpenAI 2020 年的一篇论文称 GPT-3 在 Winograd 模式基准集中近 90% 的句子上都是正确的 。 在专门针对这些任务进行训练后 , 语言模型的表现甚至会更好 。 一些神经网络在特定任务上甚至能达到 97% 的准确率 , 这种准确性和人类的表现已经大致相当 。 这是否意味着神经网络语言模型已经达到了人类的理解水平?
并非如此 。 尽管创作者尽了最大努力 , 但 Winograd 模式实际上并没有完全经过「Google-proof」 。 Winograd 模式中的挑战就和许多其他 AI 语言理解测试一样 , 有时允许使用快捷方式, 让神经网络在不理解的情况下也能表现良好 。 例如:
跑车超过了邮车因为它开得更快 。
跑车超过了邮车因为它开得更慢 。在庞大的语料库上训练的语言模型将吸收「跑车」和「快」之间以及「邮车」和「慢」之间的相关性 , 因此语言模型可以仅根据这些相关性来正确回答这些问题 , 而不存在真正的理解 。 事实证明 , SuperGLUE 比赛中的许多 Winograd 模式都可以使用这类统计相关性 。
艾伦人工智能研究所的一组研究人员尝试解决 Winograd 模式的一些问题 。 2019 年 , 他们创建了一个更庞大的 Winograd 模式——WinoGrande 。
WinoGrande 包含多达 44000 个句子 , 而不是数百个示例 。 这些句子是借助 Amazon Mechanical Turk 平台获得的 , 由真人编写——每人被要求写几个句子对 , 这些句子包含多个主题 , 但每对句子可能相差不止一个单词 。
推荐阅读
- 生物|两项国家标准发布实施 为畜禽生物育种提供技术参考
- ARM|英国监管机构考虑阻止并购交易 英伟达联手Arm反击
- 创事记|游戏行业现最大收购案,Take-Two收购Zynga有何考量?
- CRISPR-Cas|“基因剪刀”治疗人类疾病现曙光!一文看懂治疗模式与新进展
- 模式|华为拍摄月亮专利获授权:可自动识别月亮并对焦
- IT|或考虑进军电动自行车领域:Rivian申请相关商标
- IT|劳动力短缺 英国考虑将隔离期缩至五天
- Tesla|特斯拉全自动驾驶分多种模式:“刺激一把”还有“慢慢开”
- 提前布局|6G为何要跑那么快
- 刘作虎|刘作虎:用户终于真正开始接受、考虑使用折叠屏