NLP领域文本摘要有哪些研究方法?( 六 )

图二 构建词袋特征向量

指标表示- 将文本中每个句子转换为重要特征列表 , 其功能可能包括:

· 句子长度

· 句子位置

· 句子是否包含特定单词(有关此类特征提取方法的示例 , 请参见图2 , 词袋(https://en.wikipedia.org/wiki/Bag-of-words_model))

· 句子是否包含特定短语

使用一组特征来表示文本数据和并对其进行排序 , 可以通过使用两种总体指示表示方法中的任一种来执行:图形方法和机器学习方法 。

使用图形表示:

· 我们发现 , 子图最终代表了本文所涵盖的主题 。

· 我们能够分离出文本中的重要句子 , 因为这些句子将与更多其他句子相连(如果你将句子视为顶点 , 并将句子相似性表示为边缘) 。

推荐阅读