ACL2019新论文，痛批“不计算力追逐丁点提升”的研究方法( 四 )

2019-06-11

也就是说，用神经网络架构搜索训练一个两亿参数量的 Transformer，碳排放相当于生产五辆汽车再开十年，或者17个人活了一辈子，或者一架波音757从旧金山飞到纽约再返程一半航程的水平。

“讲真，神经网络架构搜索就是我们想要写这篇论文的诱因之一。用如此庞大的计算量，输出结果的改善却如此的微小，基本上算是不负责任了，”斯特贝尔玩笑地表示，

“事实上，我们都看到了 NLP 圈里的确有这样的趋势，不计任何计算量的代价也要追逐哪怕一丁点的准确率提升。这绝对不是一个好的趋势，我觉得我们应该做得更好，用更有创意，而不是纯粹‘加算力’的方式去做研究。”

图3/6

别提 Transformer/神经网络架构搜索，就连训练一个普通模型达到可以发论文的水平，中间的调参、迭代也会消耗大量算力。而考虑到这些模型的研究者通常财力有限，更多使用现成或按需的 GPU，省电减排只能是天方夜谭。

推荐阅读

上一篇：AMD大秀新品：16核锐龙、NAVI显卡，7nm工艺两开花

下一篇：中金公司：氢能源产业链中下游的投资机会