想让机器学习与商业结合,最重要的是什么?(13)
\n \n
避免唯一性标识 。 它们不仅在大多数情况下不起作用 , 还有可能导致严重的过度拟合 , 尤其是在使用XGBoost等算法时 。
\n \n运用领域知识来导出帮助衡量成功/失败的新特征 。 通过去医院的次数可以推断医患风险;上月跨国交易的总量可推断诈骗的可能性;申请贷款数额与年收入的比例可推断信用风险 。
\n \n运用自然语言处理技术从散乱自由文本中导出特征 。 比如LDA , TF-IDFword2vec和doc2vec 。
\n \n若存在大量特征 , 可使用降维方法 , 如主成分分析和t-分布领域嵌入算法 。
\n \n\n
异常检测无处不在
\n \n\n
图片来源:feature. fm.
\n \n如果要在企业机器学习的应用案例中挑选出最常见的一个 , 那就是异常检测 。 无论是否研究诈骗侦查、生产测试、客户流失、医患风险、客户失信抑或是系统崩溃预测 , 面临的问题总是:我们能否大海捞针?这就引出了另一个与非平衡数据集有关的话题 。
推荐阅读
- Uzi|Knight或像UZI因商业合同被卡俱乐部,LOL官方对此都毫无办法
- 战争机器5|战争机器5,有改变也需要让玩家射击的爽快
- 超级机器人大战30|明日方舟:白嫖材料活动更新,玩家收益减少,鹰角策划又不当人?
- 国服|LOLM:60天内如何从小白打到国服王者?这快捷径方法值得学习
- 催眠学习|《催眠学习》PC版,一款教你如何恋爱的游戏,非绅骑步呦!
- 任天堂|免费“大作”会有吗?任天堂商业报告提到将改善Switch会员服务
- 虎牙|哈利波特手游:同流派该如何击败?虎牙小若沐展示细节,值得学习
- 梦幻西游|梦幻西游:一只须弥画魂的励志蜕变史,这才是值得学习人生态度!
- 超级机器人大战30|不怕被LCK网友喷!Ray发文力挺:希望EDG可以夺冠!祝他们有好运
- 超级机器人大战30|猫神重新跟AG一队训练,瓜主剧透:AG若打不赢狼队,最初首发不保