NLP领域文本摘要有哪些研究方法?( 五 )

主题表示- 以识别文本主题为重点的文本转换;此方法的主要子类别包括:

· 频率驱动方法

· 主题词方法

·潜在语义分析(LSA)(https://en.wikipedia.org/wiki/Latent_semantic_analysis)

· 贝叶斯主题模型 - 例如潜在狄利克雷分配(LDA)(https://en.wikipedia.org/wiki/Latent_Dirichlet_allocation)

最流行的两种词频方法是词概率和TF-IDF(https://en.wikipedia.org/wiki/Tf%E2%80%93idf) 。

在主题词方法中 , 有两种计算句子重要性的方法:通过其所包含的主题签名的数量(句子讨论的主题数量) , 或者通过句子包含的主题的比例与文本中包含的主题数量 。 因此 , 第一类倾向于用于较长的句子 , 而第二类则衡量主题词的密度 。

对潜在语义分析和贝叶斯主题模型方法(如LDA)的解释不在本文讨论范围 , 但可以在上面的链接中查看 。

推荐阅读