想让机器学习与商业结合,最重要的是什么?(20)

\n \n

\n

别泄露数据

\n \n

处理一个预测航班到达时间延误的项目时 , 如果使用数据集里所有可用的特征时 , 模型的精确度可以达到99% 。 不过 , 希望你会意识到 , 你可能用启程延误时间来推测进港延误时间 。 这是数据泄露的典型案例 。 如果我们使用了任何预测时不可用或未知的特征 , 就会造成数据泄露 。 大家要当心!

\n \n

\n

图片来源:the Kini group.

\n \n

\n

开源软件里能找到一切资源 , 平台还有什么用处?

\n \n

构建机器学习模型从未像今天这样简单 。 几行R语言或Python语言代码足以建构一个模型 , 在网上甚至还能找到大量培养复杂神经网络的资源和课程 。 如今 , Apache Spark十分有助于数据准备 , 它甚至能对大型数据集进行归一处理 。 另外 , docker和plumber等工具通过超文本传输协议(HTTP)简化了机器学习模型的部署 。 似乎完全依靠开源平台资源 , 就能构建一个端到端的机器学习系统 。

推荐阅读