想让机器学习与商业结合,最重要的是什么?(11)

\n \n

异常检测:负数年龄、浮点邮编和零值信用评分等都是无效数据 , 不修正这些数值会在培养模型时产生深刻的偏见 。

\n \n

缺失/错误数值填充:显然 , 处理错误/缺失数值最常用的方法就是丢弃它们 。 另一个选择是填充 。 比如 , 用相应特征的平均数、中位数或众数来代替缺失/错误数值 。 还有一种方法是插值 , 如建构模型来预测缺失数值的情况下的特征 。 另外 , 填充中也可以运用领域知识 。 比方说处理病人数据时 , 有一项特征是推断病人是否患有癌症 。 如果缺失此类信息 , 可以参考其问诊数据 , 以确定此病人是否曾看过肿瘤科医生 。

\n \n

虚拟编码和功能散列:这两种方法能很有效地把类别数据转换成数值 , 尤其在基于系数的算法中 。 比方说 , 有一项特征是州名 , 显示美国的各州名称(如FL , CA , AZ) 。 将FL编码为1 , CA编码为2 , AZ编码为3 , 会显示出秩序感和重量级 。 这意味着AZ会比FL面积更大 , 而CA的面积是FL的两倍大 。 一位独热编码——也称虚拟编码——提供的解决方案是将类别栏映射到多个双栏中 , 其中一栏为类别数值 。

推荐阅读