参数|零样本性能超越小样本,谷歌1370亿参数新模型比GPT-3更强( 三 )


尽管在 CB 和 RTE 的不同模板的结果中存在高方差 , 但 FLAN 在没有任何 prompt 工程时依然在四个数据集上显著优于零样本和小样本 GPT-3 。 在具有最佳 dev 模板时 , FLAN 在五个数据集上优于小样本 GPT-3 。 FLAN 甚至在 ANLI-R3 数据集上超越了监督式 BERT 。

参数|零样本性能超越小样本,谷歌1370亿参数新模型比GPT-3更强
文章图片

阅读理解和开放域问答任务
在阅读理解任务上 , 模型被要求回答关于给定文章段落的问题 , 结果如下表 2 所示 。 FLAN 在 BoolQ 和 OBQA 数据集上显著优于 GPT-3 。 在使用最佳 dev 模板时 , FLAN 在 MultiRC 数据集上略优于小样本 GPT-3 。
对于开放域问答任务 , FLAN 在 ARC-easy 和 ARC-challenge 数据集上显著优于零样本和小样本 GPT-3 。 在 Natural Questions 数据集上 , FLAN 优于零样本 GPT-3 , 弱于小样本 GPT-3 。

参数|零样本性能超越小样本,谷歌1370亿参数新模型比GPT-3更强
文章图片

常识推理和共指消解任务
不同模型在五个常识推理数据集上的结果如下表 3 所示 , FLAN 在 StoryCloze 数据集上优于 GPT-3 , 在 CoPA 和 PiQA 数据集上媲美 GPT-3 。 但在 HellaSwag 和 ReCoRD 数据集上 , Base LM 和 FLAN 均弱于 GPT-3 。
在两个共指消解任务上 , 具有最佳 dev 模板的 FLAN 在 Winogrande 数据集上优于零样本 GPT-3 , 但在 WSC273 数据集上 , Base LM 和 FLAN 均弱于 GPT-3 。

参数|零样本性能超越小样本,谷歌1370亿参数新模型比GPT-3更强
文章图片

翻译
研究者还在 GPT-3 论文中评估的三个数据集上测试了 FLAN 的机器翻译性能 , 这三个数据集分别是 WMT’14 法语 - 英语以及 WMT’16 的德语 - 英语和罗马尼亚语 - 英语 。
测试结果如下表 4 所示 , Base LM 的零样本翻译性能弱 , 但小样本翻译结果媲美 GPT-3 。 FLAN 在六个评估指标中的五个上优于小样本 Base LM 。 与 GPT-3 类似 , FLAN 在翻译成英语任务上展示出了强大的性能 , 并且与监督式翻译基线相比具有优势 。

参数|零样本性能超越小样本,谷歌1370亿参数新模型比GPT-3更强
文章图片

其他实验
由于该论文的核心问题是指令调整如何提高模型在未见过任务上的零样本性能 , 因此该研究的第一个消融实验研究了指令调整中使用的集群和任务数量对性能的影响 。
图 5 显示了实验结果 。 与预期一致 , 研究者观察到 3 个 held-out 集群的平均性能随着向指令调整添加额外的集群和任务而提高(情感分析集群除外) , 证实了所提指令调整方法有助于在新任务上提升零样本性能 。

参数|零样本性能超越小样本,谷歌1370亿参数新模型比GPT-3更强
文章图片

推荐阅读