超级女王XGBoost到底“绝”在哪里?( 五 )


顾此失彼 , 乃是兵家大忌 。 很多时候 , 我们在学习算法时 , 要么过于纠结弄懂原理而忽略了从宏观上对算法有一个总体的了解和把握 , 要么是囫囵吞枣一口气看个十来篇博客介绍却往往还是一知半解不求甚解 , 可能还会莫名自我感觉良好 。

基于此 , 本文就从宏观上来帮大家梳理梳理XGBoost , 力求通俗易懂 , 精准得当 。 至于算法原理和资源链接嘛 , 请直接拜读陈天奇博士的论文XGBoost: A Scalable Tree Boosting System , 同时请参考Github上的开源资源进行源码的学习和实战 。

什么是 XGBoost?

原图来自Unsplash(by Jared Subia)

十几年前 , 回归建模是预测分析中毫无争议的女王 。 但如今回归建模的时代已经结束 , XGBoost已被成功加冕!

XGBoost的英文全称为Extreme Gradient Boosting 中文可以解释为极端梯度提升(Extreme , 一听就很牛X) , 它是一种基于决策树的集成机器学习算法 , 采用了梯度提升(Gradient Boosting)框架 。 在预测有关非结构化数据(如图像、文本等)的问题时 , 人工神经网络往往表现得比其他算法或框架更出色 。 但在有关中小型结构/表格数据方面 , 基于决策树的算法则是目前为止的最佳方式 。

推荐阅读