想让机器学习与商业结合，最重要的是什么？(13)

2019-07-22

\n \n

避免唯一性标识。它们不仅在大多数情况下不起作用，还有可能导致严重的过度拟合，尤其是在使用XGBoost等算法时。

\n \n

运用领域知识来导出帮助衡量成功/失败的新特征。通过去医院的次数可以推断医患风险；上月跨国交易的总量可推断诈骗的可能性；申请贷款数额与年收入的比例可推断信用风险。

\n \n

运用自然语言处理技术从散乱自由文本中导出特征。比如LDA ， TF-IDFword2vec和doc2vec 。

\n \n

若存在大量特征，可使用降维方法，如主成分分析和t-分布领域嵌入算法。

\n \n

\n

异常检测无处不在

\n \n

\n

图片来源：feature. fm.

\n \n

如果要在企业机器学习的应用案例中挑选出最常见的一个，那就是异常检测。无论是否研究诈骗侦查、生产测试、客户流失、医患风险、客户失信抑或是系统崩溃预测，面临的问题总是：我们能否大海捞针？这就引出了另一个与非平衡数据集有关的话题。

推荐阅读

上一篇：腾讯出的全能文件管理App，干掉微信QQ一点不含糊！

下一篇：大一新生入学需要购买哪些电子产品呢？做好准备，到时才不会慌！