电商运营之站内搜索的全面指南 (七)( 五 )

目前从训练集上来看,收集的方式主要有两种,第一种是人工中心词收集,第二种则是机器分析与训练。

人工中心词收集

这个方案其实是比较讨巧的,基于规范的词典词语来进行收集,主要收集物品词&品牌词。

之所以要选定物品和品牌词收集还是基于上一章提过的app购物行为假设,即用户在购物app中始终是以搜索物品或者品牌的型号/物品为最终目的。

如果用户进入app不进行物品词或者品牌词搜索,这个用户对该app而言的价值显然会大打折扣,也许有的人会说,每天搜索的人那么多,保不齐会有人搜索比较范范的词,那不算吗。其实是算的,但是我们现在讲得是基于统计概率来说,如果95%的人都搜索物品和品牌,那么你现在纠结5%的人不是这样的情况显然是没有意义的。还是那句话,越是想两全,越是两遍都不全。好了,言归正传。收集的流程如下图:

电商运营之站内搜索的全面指南 (七)

道理很简单,即通过收集站内每个类目所售卖的物品,同时通过拓展这些物品词的同义词和上下位词,来对应这些类目。同时机器也可以通过算法来进行收集,对所有商品标题进行ngram统计切分,统计出每个类目出现频率最多的词和词组等,与人工收集的相对照进行检验和补充。这样我们就得到了一个物品词-类目的对应表。一个简单高效的训练集就诞生了。

推荐阅读