AI产品经理必修课:NLP技术原理与应用( 五 )

(3)缺点:训练数据难以获得且模型难以解释和调参;

(4)通常使用数据驱动的方法解决分类和序列标注方法。

2.3 在具体实践中,通常将这两种方法结合起来使用

(1)没有数据及数据较少时先采取基于规则的方法,当数据积累到一定规模时转为使用基于统计的方法。

(2)在一些基于统计的方法可以覆盖绝大多数场景,在一些其覆盖不到的场景中使用基于规则的方法兜底,以此来保证自然语言理解的效果。

2.4 应用

(1)意图识别

实质:分类问题输入:句子的文本特征输出:句子文本特征所属的意图分类算法:SVM、AdaBoost算法等(2)实体抽取

实质:序列标注输入:句子的文本特征输出:文本特征中的每个词或每个字属于某一实体的概率算法:隐马尔可夫模型(hidden Markov model,HMM),条件随机场(conditional random field,CRF)注:当数据量足够大时,使用基于神经网络的深度学习方法处理意图识别和实体抽取任务可以取得更好的效果。

推荐阅读