NLP领域文本摘要有哪些研究方法?( 四 )

抽取式文摘

抽取式文摘技术各不相同 , 但它们都有相同的基本任务:

1.建立输入文本的中间表示(待摘要的文本)

2.根据构建的中间表示对句子进行评分

3.选出按重要性排名前k个句子的摘要

任务2和任务3非常简单:在句子评分中 , 我们要确定每个句子在多大程度上传达了所摘要文本的重要方面 , 而句子选择则使用一些特定的优化方法来执行 。 这两个步骤的算法各不相同 , 但其概念简单易懂——根据某种度量标准为每个句子打分 , 然后通过一些定义明确的句子选择方法从得分最高的句子中进行选择 。

第一项任务是中间表示 , 可以进一步阐述 。

中间表示

在对句子进行评分和选择之前需要赋予自然语言某种意义 , 为了达到此目的 , 需要为每个句子建立一些中间表示 。 下面简要定义了两个主要类别的中间表示 , 即主题表示和指标表示 , 以及它们的子类别 。

推荐阅读