标签分类的三种方式:按用途、按统计方式和按时效分类( 二 )


4) 场景应用标签
场景应用标签,用于特定场景下使用,由业务使用经验积淀而来,例如618/双十一活动标签,双十一预付定金人群、双十一下单人群等。标签建设初期可不设置此分类。
2. 按统计方式分类按统计方式分类的标签可分为事实类标签、规则类标签、预测类标签。与按用途分类不同的是,按统计方式分类的3类标签通常面向研发人员,意指标签是按何种方式计算而来,其复杂程度、产研成本由低至高。
1) 事实类标签
事实类标签是用户画像最基础、最常见的标签,通常是基于原始数据清理后的归类,用于描述客观事实。例如,姓名、会员等级、终端类型、购买次数、购买金额等。
2) 规则类标签
规则类标签,顾名思义,是基于确定的规则而产生。与事实类标签不同的是,规则类标签拥有更多的业务属性,其业务规则需与业务人员共同制定。例如,将“活跃用户”标签可定义为,“过去30天发生a行为x次”&“过去30天发生b行为x次”,进行综合评定。
① 用户活跃度标签
实际业务场景中会涉及根据用户的活跃情况,给用户贴上高活跃、中活跃、低活跃、流失等标签。那这个过程中高中低活跃度对应的时间范围是如何划分的呢?
在这里,靠拍脑门可行不通,标签讲究定义有依据、建设有方法。
首先划分用户的流失周期,运用拐点理论:X轴上数值的增加会带来Y轴数值大幅增益(减益),直到超过某个点之后,当X增加时Y的数据增益(减益)大幅下降,即经济学里面的边际收益的大幅减少,那个点就是图表中的“拐点”。
标签分类的三种方式:按用途、按统计方式和按时效分类
文章插图
比如图中流失周期增加到5周的时候,用户回访率的缩减速度明显下降,所以这里的5周就是拐点。
我们可以用5周作为定义用户流失的期限,即一个之前访问/登录过的用户,如果之后连续5周都没有访问/登录,则定义该用户流失。划分完流失周期之后,初期可根据根据四分位数,将用户的活跃情况划分为高中低,后期根据数据情况更新规则。
② 四分位数
也称为四分位点,是指在统计学中把所有数值从小到大排列并分为四等分,处于三个分割点位置的数值。
如历史数据,选择近1个月访问APP次数在0-8之间,则取3/4分位点为6、1/4分位点为2。

  • 高活跃用户:近1个月访问APP次数在[6,8]区间的用户
  • 中活跃用户:近1个月访问APP次数在[2,6]区间的用户
  • 低活跃用户:近1个月访问APP次数在[0,2]区间的用户
③ RFM标签
根据美国数据库营销研究所Arthur Hughes的研究,客户数据库中有3个神奇的要素,这3个要素构成了数据分析最好的指标:最近一次消费时间、消费频率、消费金额。
  • 最近一次消费(Recency):指用户上一次购买的的时间,一般上一次消费时间越近的顾客是质量更佳的顾客。最近一次消费是维系顾客关系的一个重要指标。
  • 消费频率(Frequency):顾客在限定时间周期内消费的次数。消费频率高的顾客,也是满意度最高的顾客。根据这个指标,可以把客户分成几等份,相当于划分了一个忠诚度的阶梯。
  • 消费金额(Monetary):消费金额时产能最直接的衡量指标,也可以验证“二八定律”,公司80%的收入来自于20%的顾客。
我们在设计RFM标签时,可根据二八定律来进行标签分级。
④ 二八定律
二八定律又名80/20定律、帕累托法则,它是在19世纪末由意大利经济学家帕累托发现的。
帕累托认为,在任何一组东西中,最重要的只占其中一小部分,约20%,其余80%尽管是多数,却是次要的。给一个公司带来80%利润的是20%的客户,按照这个原则,如果能把这20%的客户找出来,提供更好的服务,这对于公司的发展和业绩增长起到至关重要的作用。

推荐阅读