如何将机器学习与灵敏性分析相结合来制定业务策略?( 六 )
探索数据和建立新的特征
在ML模型开发期间经常出现问题的关键问题包括输入数据中共线和低方差特征的存在 , 离群值的存在以及数据的丢失(缺少特征和某些特征的值) 。 本节介绍如何使用Amazon SageMaker处理Python 3.4中的每个问题 。 (我还通过深度学习AMI在Amazon EC2实例上评估了独立代码 。 两者都可用 。 )
这种带有时间戳的数据可以在某些指标内包含重要的模式 。 我将这些指标分为每日 , 每周和每月的细分 , 这使我能够开发新功能来说明指标的动态性质 。
然后 , 我研究原始特征和新特征之间每个简单的一对一(也称为边际)关联和关联度量 。 我还研究了特征与客户流失标签之间的相关性 。 (请参见下图) 。
可以通过使用边际相关和Hamming / Jaccard距离来处理低方差特征(当流失标签更改时不会显着变化的特征) , 如下表所示 。 Hamming / Jaccard距离是专门为二进制结果设计的相似性度量 。 这些措施提供了一个观点 , 即每个特征对客户流失提供了多大程度的信息 。
删除低方差特征是个好习惯 , 因为无论是要预测什么 , 它们都不会发生明显变化 。 因此 , 它们的存在不能帮助进行分析 , 并且实际上会使学习过程效率降低 。
推荐阅读
- 小鱼人|如何在新赛季稳定上分?善于抓失误的小鱼人,值得认真练上一波
- 阴阳师|阴阳师SR川猿强度如何 是否值得抽卡 改变斗技环境 大佬的新玩具
- 手机游戏|梦幻西游手游:活力如何换金币 一切都已给出 就看你的选择
- 华佗|三国杀:两位\奶爸\,朱治与华佗比,强度如何呢?
- 亲朋上分|《亲朋上分》266391亲朋下分亲朋上下分永劫无间崔三娘技能介绍 崔三娘如何获得更多技能
- s6|金铲铲之战:S6双城传说如何才能快速上手?基础知识很关键
- |冰雪传奇:平民玩家四转后如何打金
- 战争机器5|战争机器5,有改变也需要让玩家射击的爽快
- 穿越火线|CF:传说武器再度上新,那王者、炫金该如何发展?
- 打野|打野已经被削到几乎不能再削了,到底如何平衡打野位置?