ACL2019新论文,痛批“不计算力追逐丁点提升”的研究方法( 四 )

也就是说,用神经网络架构搜索训练一个两亿参数量的 Transformer,碳排放相当于生产五辆汽车再开十年,或者17个人活了一辈子,或者一架波音757从旧金山飞到纽约再返程一半航程的水平。

“讲真,神经网络架构搜索就是我们想要写这篇论文的诱因之一。用如此庞大的计算量,输出结果的改善却如此的微小,基本上算是不负责任了,”斯特贝尔玩笑地表示,

“事实上,我们都看到了 NLP 圈里的确有这样的趋势,不计任何计算量的代价也要追逐哪怕一丁点的准确率提升。这绝对不是一个好的趋势,我觉得我们应该做得更好,用更有创意,而不是纯粹‘加算力’的方式去做研究。”

ACL2019新论文,痛批“不计算力追逐丁点提升”的研究方法

图3/6

别提 Transformer/神经网络架构搜索,就连训练一个普通模型达到可以发论文的水平,中间的调参、迭代也会消耗大量算力。而考虑到这些模型的研究者通常财力有限,更多使用现成或按需的 GPU,省电减排只能是天方夜谭。

推荐阅读