HanLP分词工具中的ViterbiSegment分词流程( 七 )

PlaceRecognition.recognition(vertexList wordNetOptimum wordNetAll) 。 地名使用隐马 , 因此有转移矩阵ns.tr.txt和发射矩阵ns.txt 。 由于HanLP不提供训练语料 , 我们自己也很难得到有角色标注的语料 , 因此我们一般只修改ns.txt文件 , 删除ns.txt.bin文件后生效 。

(5)机构名识别

执行此步 , 配置变量organizationRecognize必须为true 。 调用方法为

OrganizationRecognition.recognition(vertexList wordNetOptimum wordNetAll) 。 注意这里在调用机构名识别之前先进行了一次识别 , 也就是层叠隐马 , 而人名和地名的识别就是普通的隐马 。 机构名的识别使用层叠隐马 , 涉及的文件有转移矩阵nt.tr.txt和发射矩阵nt.txt 。 由于HanLP不提供训练语料 , 我们自己也很难得到有角色标注的语料 , 因此我们一般只修改nt.txt文件 , 删除ns.txt.bin文件后生效 。 机构名的识别需要人名地名识别具有较高准确率 。

至此 , 分词流程已全部介绍了 。

还需要注意下边的内容

推荐阅读