电商运营之站内搜索的全面指南 (七)( 四 )
即每个字都是词的最小单元,如果相连的字在不同的文本中出现的频率越多,这就越有可能是一个词。因此我们可以用相邻字出现的频率来衡量组词的可能性,当频率高于某个阈值时,我们可以认为这些字可能会构成一个词。
主要统计模型: N元文法模型(N-gram),隐马尔可夫模型(Hidden Markov Model,HMM),最大熵模型(ME),条件随机场(Conditional Random Fields,CRF)等。
优势:在实际运用中常常将字符串匹配分词和统计分词结合使用,这样既体现了匹配分词速度快、效率高的优点,同时又能运用统计分词识别生词、自动消除歧义等方面的特点。
基于统计的分词方式&类目预测
我们着重了解一下第三种,基于统计的分词方式&类目预测。如果说有什么算法是基于统计的,那么这个算法肯定需要一个训练集,而且这个训练集需要是正确的,人为校验的。
因此我们所说的这种算法,则是在人工标注的训练集上训练而成的。因此我们接下来将要讨论的算法是——类目预测训练集。
推荐阅读
- 魔兽世界|运营一个月玩家少了70万,想跟WOW叫板的新世界,又被愉悦送走了
- bilibili|B站虚拟UP主“星宫汐Official”被运营骗了上万元,字幕组工资被组长私吞遭到圈内网友痛斥!
- lpl|S11的LPL如此拉跨,为何依然被吹到世界第一?多半是因为电商三大家!
- 堡垒之夜|《堡垒之夜》国服关服,腾讯运营三年以彻底失败告终
- 卡牌|冰霜流内战该如何破解?墨泽新奇的运营方式,竟然能化腐朽为神奇
- |时间如沙,盘点那些至今还在运营的经典游戏
- 国服|FGO国服运营小绯透露工程进度,降临者275会UP,希望别再出错
- 手机游戏|英雄联盟手游:神龙尊者活动有变,开服7天变老玩家,运营又被怼
- estar|SK太会教了,现在的eStar会打架会运营!瓶子:MTG是站着死的!
- lpl|S11是LPL最后的希望?S12大批战队可能跑路,战队运营成绩保持费用巨大!