如何将机器学习与灵敏性分析相结合来制定业务策略?( 六 )

探索数据和建立新的特征

在ML模型开发期间经常出现问题的关键问题包括输入数据中共线和低方差特征的存在 , 离群值的存在以及数据的丢失(缺少特征和某些特征的值) 。 本节介绍如何使用Amazon SageMaker处理Python 3.4中的每个问题 。 (我还通过深度学习AMI在Amazon EC2实例上评估了独立代码 。 两者都可用 。 )

这种带有时间戳的数据可以在某些指标内包含重要的模式 。 我将这些指标分为每日 , 每周和每月的细分 , 这使我能够开发新功能来说明指标的动态性质 。

然后 , 我研究原始特征和新特征之间每个简单的一对一(也称为边际)关联和关联度量 。 我还研究了特征与客户流失标签之间的相关性 。 (请参见下图) 。

可以通过使用边际相关和Hamming / Jaccard距离来处理低方差特征(当流失标签更改时不会显着变化的特征) , 如下表所示 。 Hamming / Jaccard距离是专门为二进制结果设计的相似性度量 。 这些措施提供了一个观点 , 即每个特征对客户流失提供了多大程度的信息 。

删除低方差特征是个好习惯 , 因为无论是要预测什么 , 它们都不会发生明显变化 。 因此 , 它们的存在不能帮助进行分析 , 并且实际上会使学习过程效率降低 。

推荐阅读