想让机器学习与商业结合,最重要的是什么?(13)

\n \n

避免唯一性标识 。 它们不仅在大多数情况下不起作用 , 还有可能导致严重的过度拟合 , 尤其是在使用XGBoost等算法时 。

\n \n

运用领域知识来导出帮助衡量成功/失败的新特征 。 通过去医院的次数可以推断医患风险;上月跨国交易的总量可推断诈骗的可能性;申请贷款数额与年收入的比例可推断信用风险 。

\n \n

运用自然语言处理技术从散乱自由文本中导出特征 。 比如LDA , TF-IDFword2vec和doc2vec 。

\n \n

若存在大量特征 , 可使用降维方法 , 如主成分分析和t-分布领域嵌入算法 。

\n \n

\n

异常检测无处不在

\n \n

\n

图片来源:feature. fm.

\n \n

如果要在企业机器学习的应用案例中挑选出最常见的一个 , 那就是异常检测 。 无论是否研究诈骗侦查、生产测试、客户流失、医患风险、客户失信抑或是系统崩溃预测 , 面临的问题总是:我们能否大海捞针?这就引出了另一个与非平衡数据集有关的话题 。

推荐阅读