想让机器学习与商业结合，最重要的是什么？(20)_全文共6008字

\n \n

别泄露数据

\n \n

处理一个预测航班到达时间延误的项目时，如果使用数据集里所有可用的特征时，模型的精确度可以达到99% 。不过，希望你会意识到，你可能用启程延误时间来推测进港延误时间。这是数据泄露的典型案例。如果我们使用了任何预测时不可用或未知的特征，就会造成数据泄露。大家要当心！

\n \n

图片来源：the Kini group.

\n \n

开源软件里能找到一切资源，平台还有什么用处？

\n \n

构建机器学习模型从未像今天这样简单。几行R语言或Python语言代码足以建构一个模型，在网上甚至还能找到大量培养复杂神经网络的资源和课程。如今， Apache Spark十分有助于数据准备，它甚至能对大型数据集进行归一处理。另外， docker和plumber等工具通过超文本传输协议（HTTP）简化了机器学习模型的部署。似乎完全依靠开源平台资源，就能构建一个端到端的机器学习系统。