Hanlp-地名识别调试方法详解( 五 )

显然 , 在核心词表中“曾随“被标记为一个地名 , 把”曾随“从词表中删除掉 , 并删除词表文件CoreNatureDictionary.txt.bin , 之后再次运行程序得到下边的输出结果

hanlp_ns [

从这个实例 , 我们也可以看出一些不常见地名如果做成地名词表 , 就有导致错误识别实体 。 因此 , 我们应该保留一份评测语料 , 每当修改了实体词表后 , 需要跑一下测试语料查看准确率 , 如果降低的太多 , 则表示这样加进来是不可行的 。 同时填加的实体名也有可能会造成分词错误 。

下边说明一下HanLP中有关实体的词表文件名:

1.CoreNatureDictionary.mini.txt

2.CoreNatureDictionary.txt

3.CustomDictionary.txt

4.机构名词典.txt

5.全国地名大全.txt

6.人名词典.txt

推荐阅读