2018 年 Top 10 影响力 AI 研究论文( 六 )

这篇论文获得了 NAACL 的杰出论文奖;这篇论文提出的方法也被认为是近几年来 NLP 领域最大的突破之一。未来可能的相关研究

可以把这种方法集成到特定任务中,方式是把 ELMo 和不依赖上下文的单词嵌入级联起来;也可以尝试把 ELMo 和模型输出级联起来。4. An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling「一般卷积网络和循环网络用语序列建模的实证评价研究」

论文地址

https://arxiv.org/abs/1803.01271

内容概要

领域内有种常见的假设:对于序列建模问题来说,选择一个循环网络架构作为出发点是默认的做法。这篇论文的作者们就对这种假设提出了质疑。他们的结果表明,一般的时序卷积网络(TCN)能在许多种不同的序列建模任务中稳定地超出 LSTM 以及 GRU 之类的典型的循环神经网络。

论文思想要点

在近期发现的最佳实践做法(比如空洞卷积和残差连接)的帮助下设计出的时序卷积网络(Temporal convolutional networks)可以许多复杂的序列建模任务中发挥出超过一般循环网络架构的表现;TCN 表现出的记忆能力比循环网络明显更长,也就更适合那些需要很长的历史记录的序列建模任务。领域内学者评价

推荐阅读