机器学习在领英的规模化应用( 六 )

多种工具高效协助模型训练

众所周知 , 一个模型实际上有两个关键组成部分 , 一个是特征 , 另一个是算法 。 首先来看一下特征 。 如前所述 , 特征工程是AI建模的核心所在 。 在领英 , 为了提高学习效率 , 领英构建的框架Feature Marketplace可以让工程师可以有效地生成、发现、共享和管理特征 。 工程师可以将特征共享到Feature Marketplace上以便其他人使用 , 也可以按名称搜索特征 , 发现该特征并获取关于该特征的所有信息 , 例如特征的创建者、特征是如何生成的、特征应用在哪些领英的模型中以特征的统计分布等等 , 所有这些问题都可以在Feature Marketplace找到答案 。 Feature Marketplace还为工程师提供了诸多切实有用的工具 , 帮助工程师选择特征以及持续监控和验证特征 。 通过Feature Marketplace , 工程师可以快速找到建模所需的特征 。

不过 , Feature Marketplace也面临着挑战:如何确保工程师能够得到他们所需要的么 , 比如在线和离线特征是一致的 。 如果做了大量离线实验 , 收集好的特征用于建模 , 那么这个模型可能会表现得很好 , 但不能保证在线的时候这个特征是稳定的 , 如果不稳定 , 那模型性能可能会下降 。 事实上 , 这种事故在过去几年屡见不鲜 。 为了解决这个问题 , 领英构建了一个工具称为Frame 。 Frame是一个基于相同配置和相同公共库离线和在线生成特征的平台 , 保证了离线和在线的一致性 。 领英向工程师提供操作细节 , 工程师只需要在Quasar模型中指定特征的名称 , 就可以保证在线和离线获取特征的一致性 。

推荐阅读