白酒|电商搜索系统精讲系列:业务分析及召回模型( 三 )


通用分析器:
计算机基于对汉语的语义理解进行词条切割,对切割后的关键词进行查询
举例:用户在淘宝APP搜索框里搜索“茉莉花茶”,查询结果的商品里面只要包含“茉莉”、“茉莉花”、“茶”、“花茶”的信息都会被召回;
行业分析器(如电商)
计算机针对某个特定的行业的语义理解,来进行词条切割,对切割后的关键词进行查询
举例:
用户在淘宝APP搜索框里搜索“篮球NIKE运动鞋”,查询结果的商品里面只要包含“篮球”、“NIKE”、“NIKE运动”、“运动”、“运动鞋”都会被召回;
单字分析器:
按照单字/单词分词,适合非语义的中文搜索场景,如小说作者名称、店铺名
举例:
用户在淘宝APP搜索框里搜索“运动鞋”,查询结果的商品里面只要包含“运动”、“鞋”、“运动鞋”、“运鞋”、“动鞋”都会被召回;
模糊分析器:
按照中文对应的拼音搜索、数字前后缀搜索
举例:
用户在淘宝APP中搜索“篮球鞋”,查询结果的商品里面只要包含篮球鞋、篮球、鞋、lqx、qx、lx等都会被召回;
全拼分析器:
按照中文汉字的全拼进行搜索,必须包含中文的全拼音才能被召回
这里不再举例,很好理解
简拼分析器:
按照中文汉字的全拼首字母进行搜索,只要包含全拼首字母的商品均可被召回;
这里不再举例,很好理解;
好了,说到此,常见的电商分析器模型基本就这几种,当然了具体业务还要具体对待,正所谓产品领域没有绝对的对与错,只有适用和不适用,有些公司还有自定义分析器、数值分析器、地理位置分析器、物流专用分析器、医疗专用分析器等等,具体业务具体对待;
我们来对分析器做个总结,电商平台拿到用户输入的关键词之后,通过一定的规则召回用户的目标商品,这个规则就是分析器规则;
那么是不是商品被召回只有这一个规则呢?显然不是,我们还要看召回的条件,参与召回的关键词,因为对于搜索引擎系统而言关键词是最基础的但也是最核心的功能,对于用户而言,输入的关键词也是五花八门,比如输错文字、输入拼音、输入简写、输入同义词等等,这些因素都可能会影响到商品的召回率,所以我们需要一个模块能够对用户输入的关键字进行逻辑处理和过滤,既能通过转化非标准的搜索关键词提升搜索效率,也能提升搜索商品的召回率,提升用户的搜索体验,所以接下了我们接着聊(不急):
接下来我们看几个关键词处理模型:
来看下面这张截图:
白酒|电商搜索系统精讲系列:业务分析及召回模型
文章插图
用户输入关键词“简议床”,为什么会召回了“简易床”的相关商品??
我们来反推下,用户在正常的文本输入的时候,完全是存在输错汉字的可能的,就像上面的截图一样,把 “易” 输错成 “议” 了,所以,如果按照上述的分析器规则,那么某些符合用户意图的商品就不会被召回,就会出现查询无此商品的结果,不能完全满足用户的需求,所以这个时候怎么办?
需要设置一个容错模型,业内我们称它为“拼写纠错”;
白酒|电商搜索系统精讲系列:业务分析及召回模型
文章插图
所谓“拼写纠错”,就是在用户输入的关键词不正确的时候,错误的输入可能导致查询结果不符合预期或者根本就不会有查询结果,因此需要对用户的输入进行拼写检查,对查询词中的错误进行纠正,给出正确的查询词。并根据纠错的可信度高低,决定当前查询是否用纠错后的词进行查询;
那现在又一个问题来了,你输入了“简议床”,计算机怎么知道有错别字?这个又涉及到另外一个概念—–词典;

推荐阅读