微信尝试结合时间过程与内容特征,重新定义“爆款文”?( 五 )

他们收集了2018年5月-7月的6万篇微信公众号文章的热度数据 , 将文章热度分为 3 类:爆款(阅读量>10000) , 冷门(阅读量

DFTC一共包含三个部分:1.时间过程建模;2.内容特征建模;3.注意融合 。

首先 , 采用卷积神经网络(Attention CNN)来提取文章增长和下降的短期波动情况 , 比如一篇文章每小时浏览量的变化情况 。 接着再利用循环神经网络(RNN)得出文章受欢迎程度的长期增长趋势 。

然后 , 利用分层注意网络(HAN)来获取文本特征 , 使用嵌入技术来学习各种元数据的特征 , 并进行建模 , 得到一个内容特征模型 。

接下来 , 将建好的时序模型和内容模型利用注意力机制动态地组合到一起 , 生成一个能够体现出文章热度演变过程多样性的灵活权重(Popularity level) 。

DFTC的创新之处是 , 解决了三个悬而未决的行业难题:

1.如何预测意外情况带来的短期波动(Attention CNN自动学习短期波动 , 不做具体假设或人工设计);

推荐阅读