电商运营之站内搜索的全面指南 (七)( 六 )

那么肯定有人会说“也不行啊,你光收集物品词了,还有氛围词、人群词呢?比如学校、工地、男士、女士你都不收集了,男士鞋子你怎么办?”

当然不是,这个物品-类目词的对应表训练集只是个基础。只有在保证训练集非常准确且覆盖面全的情况下,才能确保机器进行训练,且即便我仅仅是打个基础,也能比较正确的召回,你是不是忽略了全词匹配的作用了?

在物品词训练集整理好之后。接下来可以开始对用户关键词开始分析了,即通过用户输入的关键词统计点击行为,描述这些点击落在哪些类目的概率,并分析这些关键词和训练集中的物品/品牌型号词的类目关系,进一步进行人工校对和遍历。

这样就得到了一个用户行为和网站商品数据的合集训练集,在经过人工校对后就形成了一个准确性好,覆盖面高的训练集。此时经过不断的人工校对-机器训练-再校对-再训练的过程,直至想要达到的效果。一个类目预测算法就此诞生(以上你们看看就好,当我自嗨好了)。

机器训练需要切实的关键词进行离线训练和离线评估,以及在线ab和数据评估。前者是自己在离线环境下,使用用户输入的关键词进行训练并离线人工评估准确度;后者则是将训练好的模型上线,采用ab测的方式,开一部分小流量进行在线实战测试,并通过收集测试组的数据指标评估和分析效果。这也是互联网产品迭代最主要的测试方式之一。

推荐阅读