机器学习在领英的规模化应用( 七 )

特征集齐后就需要算法 。 领英支持深度学习、决策树算法、Generalized Linear Mixed Model (GLMix)等多种算法 。 在深度学习的场景中 , 领英使用Tensorflow;在决策树算法的场景中使用XGBoost , 两者都是第三方库 。 对于GLMix , 领英研发并开源了一个机器学习库叫做Photon 。 GLMix模型大大提高了职位推荐系统的性能 , 成功使职位申请数量增加了20% 。

根据特征和算法 , 领英构建了Photon Connect训练引擎 , 把上述所有组件连接起来 。 Photon Connect用Frame来访问特征 , 并将特征与标签数据连接起来 , 然后将数据传输至Quasar模型进行特征转换 。 在这个阶段 , Quasar模型的参数是未知的 , 领英利用Quasar模型进行特征转换 , 然后使用算法来学习这些参数 。 学习到的参数会插入到Quasar模型中 。 这样 , 一个Quasar模型建模就完成了 , 它可以直接部署到线上服务中 。

Health Assurance Layer保证算法顺利运行

模型训练和部署完成后 , 最后一个问题是:当模型实际运行的时候 , 如何保持它能够正常运行呢?根据过去的经验教训 , 在开发的早期阶段越重视这个问题 , 越容易在实际运行时保证模型正常运行 。 因此 , 在模型探索和训练等早期阶段 , 领英的Health Assurance Layer提供了一系列工具 , 用于持续监控和验证 。 有人可能会问 , 在实际运行中 , 所有在线特征都可用吗?特征更新的速度是否足够快?实际上 , 如果出现任何异样 , Health Assurance Layer 将通知相应的工程师 , 他们会介入进行调试 。 Health Assurance Layer为工程师提供了一系列工具 , 帮助他们快速锁定问题 。

推荐阅读