电商运营之站内搜索的全面指南（七）( 四 )_：电商运营之站内搜索的全面指南（七）

即每个字都是词的最小单元，如果相连的字在不同的文本中出现的频率越多，这就越有可能是一个词。因此我们可以用相邻字出现的频率来衡量组词的可能性，当频率高于某个阈值时，我们可以认为这些字可能会构成一个词。

主要统计模型： N元文法模型（N-gram），隐马尔可夫模型（Hidden Markov Model，HMM），最大熵模型（ME），条件随机场（Conditional Random Fields，CRF）等。

优势：在实际运用中常常将字符串匹配分词和统计分词结合使用，这样既体现了匹配分词速度快、效率高的优点，同时又能运用统计分词识别生词、自动消除歧义等方面的特点。

基于统计的分词方式&类目预测

我们着重了解一下第三种，基于统计的分词方式&类目预测。如果说有什么算法是基于统计的，那么这个算法肯定需要一个训练集，而且这个训练集需要是正确的，人为校验的。

因此我们所说的这种算法，则是在人工标注的训练集上训练而成的。因此我们接下来将要讨论的算法是——类目预测训练集。

电商运营之站内搜索的全面指南（七）( 四 )