想让机器学习与商业结合,最重要的是什么?(12)

\n \n

归一化:若存在不同等级的特征 , 系数相关的算法就会产生偏见 。 比方说 , 特征年龄在[0100
范围内用年表示 , 然而工资在[0 , 100 , 000
范围内用美元表示 。 优化算法可能仅仅因为工资的绝对数量级更大而更侧重工资 。 因此 , 更推荐常态化算法以及其他常用方法 , 如Z值推测、标准化(如果数据正常)及min-max特征归一化 。

\n \n

分箱:将实值栏映射到不同类别极为有效 , 如将一个回归问题转化为分类问题 。 比方说 , 你想推测航班进港延误的分钟数 。 一个选择是推测该航班是否会提前、准时抵达或延误 , 并确定各类别的数值范围 。

\n \n

\n

特征工程无处不在

\n \n

\n \n

总而言之 , 特征就是机器学习算法需要学习的特点 。 正如人们设想的那样 , 干扰或无关数据会影响模型的质量 , 因此掌握好的特征就十分关键 。 以下是几个特征工程中可使用的策略:

\n \n

确定预测内容 。 每一个实例代表什么?顾客?交易?病人?还是票据?确保特征集的每一行都对应一个实例 。

推荐阅读