想让机器学习与商业结合,最重要的是什么?(11)
\n \n
异常检测:负数年龄、浮点邮编和零值信用评分等都是无效数据 , 不修正这些数值会在培养模型时产生深刻的偏见 。
\n \n缺失/错误数值填充:显然 , 处理错误/缺失数值最常用的方法就是丢弃它们 。 另一个选择是填充 。 比如 , 用相应特征的平均数、中位数或众数来代替缺失/错误数值 。 还有一种方法是插值 , 如建构模型来预测缺失数值的情况下的特征 。 另外 , 填充中也可以运用领域知识 。 比方说处理病人数据时 , 有一项特征是推断病人是否患有癌症 。 如果缺失此类信息 , 可以参考其问诊数据 , 以确定此病人是否曾看过肿瘤科医生 。
\n \n虚拟编码和功能散列:这两种方法能很有效地把类别数据转换成数值 , 尤其在基于系数的算法中 。 比方说 , 有一项特征是州名 , 显示美国的各州名称(如FL , CA , AZ) 。 将FL编码为1 , CA编码为2 , AZ编码为3 , 会显示出秩序感和重量级 。 这意味着AZ会比FL面积更大 , 而CA的面积是FL的两倍大 。 一位独热编码——也称虚拟编码——提供的解决方案是将类别栏映射到多个双栏中 , 其中一栏为类别数值 。
推荐阅读
- Uzi|Knight或像UZI因商业合同被卡俱乐部,LOL官方对此都毫无办法
- 战争机器5|战争机器5,有改变也需要让玩家射击的爽快
- 超级机器人大战30|明日方舟:白嫖材料活动更新,玩家收益减少,鹰角策划又不当人?
- 国服|LOLM:60天内如何从小白打到国服王者?这快捷径方法值得学习
- 催眠学习|《催眠学习》PC版,一款教你如何恋爱的游戏,非绅骑步呦!
- 任天堂|免费“大作”会有吗?任天堂商业报告提到将改善Switch会员服务
- 虎牙|哈利波特手游:同流派该如何击败?虎牙小若沐展示细节,值得学习
- 梦幻西游|梦幻西游:一只须弥画魂的励志蜕变史,这才是值得学习人生态度!
- 超级机器人大战30|不怕被LCK网友喷!Ray发文力挺:希望EDG可以夺冠!祝他们有好运
- 超级机器人大战30|猫神重新跟AG一队训练,瓜主剧透:AG若打不赢狼队,最初首发不保