HanLP分词工具中的ViterbiSegment分词流程( 五 )

3. 数字识别

如果配置变量numberQuantifierRecognize为true , 则在粗分结果的基础上进行数字合并操作 , 否则直接跳过该步 。 对应方法为

void mergeNumberQuantifier(List<Vertex> termList WordNet wordNetAll Config config) 。

4. 实体识别

配置变量ner为true时 , 则需要进行各种实体的识别 , 继续向下执行 。 需要注意该变量受其他实体识别变量影响 , 只要其他任意实体配置变量为true , 则ner就会为true 。 如果ner为false , 则跳过下边各项实体识别继续词性标注环节 。

(1)中国人名识别

执行此步 , 配置变量nameRecognize必须为true 。 调用方法为

PersonRecognition.recognition(vertexList wordNetOptimum wordNetAll) 。 人名使用隐马 , 因此有转移矩阵nr.tr.txt和发射矩阵nr.txt 。 由于HanLP不提供训练语料 , 我们自己也很难得到有角色标注的语料 , 因此我们一般只修改nr.txt文件 , 删除nr.txt.bin文件后生效 。

推荐阅读