云脑科技徐昊:AutoML 工程实践与大规模行业应用( 四 )

图3/10

云脑在这些优化环节是如何做的?

样本效率

样本效率是机器学习最核心的问题之一,机器学习本质上是一个采样加拟合的过程,但是这个过程在很多系统中并不是一次性完成的。很多情况下,样本的处理都很简单,大量样本没有用或者效率较低。样本的选择对精度的影响较大,其数量对耗时的影响是线性的。

我们把信息量大的样本留下来,信息量小的去掉。如何衡量样本信息量?可以从无监督角度和业务角度考察样本的信息量。

云脑科技徐昊:AutoML 工程实践与大规模行业应用

图4/10

下面来看一个例子。下图是游戏点击率的线上数据。这是一个重度玩家在 11 天内楼兰游戏时对不同游戏的点击和曝光数。如果我们需要分析用户的喜好,只需要输入几百个甚至几十个样本点,而不需要输入全部 3000 个样本点,这就是样本的静态效率可以提升的空间。

推荐阅读