HanLP分词工具中的ViterbiSegment分词流程( 八 )

其他没有在系统中使用的词典有

机构名词典.txt

全国地名大全.txt

人名词典.txt

上海地名.txt

现代汉语补充词库.txt

这些词典是对系统中的词典的更新记录 , 如果你添加了新的人名、地名、机构名可以在这里添加保存 。

另外 , 如果需要添加人名、地名、机构名可以直接在CoreNatureDictionary.txt中添加 , 最好是3字以上实体 ,

如果要去掉错误识别的命名实体可以直接在相应的nr.txt , ns.txt , nt.txt中添加 。

3. 多线程分词

HanLP的ViterbiSegment分词器类是支持多线程的 , 线程数量由配置变量threadNumber决定的 , 该变量默认为1 。 HanLP作者说ViterbiSegmet分词效率最高的原因肯定也有ViterbiSegment分词器支持多线程分词这个因素 。 另外由于ViterbiSegment分词器内部所具有的相关命名实体功能 , 因此这些命名实体识别的效率也会很高 。 在哪里实现的多线程分词呢 , 在Segment类的List<Term> seg(String text)这个方法中实现的 , 需要注意HanLP的多线程分词指的是一次输入了一个长文本 , 而不是一次处理多个输入文本 。

推荐阅读